30.7 C
Colombia
lunes, julio 7, 2025

La IA neurosimbólica podría ser la respuesta a la alucinación en modelos de idiomas grandes


El principal problema con el experimento de Massive Tech con la inteligencia synthetic no es que pueda hacerse cargo de la humanidad. Es que los modelos de idiomas grandes (LLM) como el chatgpt de AI, Géminis de Google y la llama de Meta’s continúan equivocando las cosas, y el problema es intratable.

Conocido como alucinaciones, el ejemplo más destacado fue quizás el caso del profesor de derecho estadounidense Jonathan Turley, quien fue acusado falsamente de acoso sexual por chatgpt en 2023.

La solución de Operai parece haber sido básicamente “desaparecer” de Turley programando Chatgpt para decir que no puede responder a preguntas sobre él, lo que claramente no es una solución justa o satisfactoria. Intentar resolver alucinaciones después del evento y el caso por caso claramente no es el camino a seguir.

Lo mismo puede decirse de LLMS amplificando los estereotipos o dando respuestas centradas en el oeste. También hay una falta whole de responsabilidad frente a esta información errónea generalizada, ya que es difícil determinar cómo el LLM llegó a esta conclusión en primer lugar.

Vimos un debate feroz sobre estos problemas después del 2023 Lanzamiento de GPT-4el principal paradigma más reciente en el desarrollo de LLM de OpenAi. Podría decirse que el debate se ha enfriado desde entonces, aunque sin justificación.

La UE pasó su Acto de IA En un tiempo récord en 2024, por ejemplo, en un intento por ser líder mundial en la supervisión de este campo. Pero el acto depende en gran medida de las empresas de IA que se regulan a sí mismas sin dirigirse realmente los problemas en cuestión. No ha impedido que las compañías tecnológicas publiquen LLM en todo el mundo a cientos de millones de usuarios y recopilen sus datos sin un escrutinio adecuado.

Mientras tanto, el último pruebas indicar que Incluso los LLM más sofisticados no son confiables. A pesar de esto, las principales compañías de IA todavía resistir asumir la responsabilidad por errores.

Desafortunadamente, las tendencias de LLMS a informar mal y reproducir el sesgo no se pueden resolver con mejoras graduales con el tiempo. Y con el advenimiento de AI agentedonde los usuarios pronto podrán Asignar proyectos a un LLM Como, por ejemplo, reservar sus vacaciones u optimizar el pago de todas sus facturas cada mes, el potencial de problemas está establecido para multiplicarse.

El Campo emergente de IA neurosimbólica Podría resolver estos problemas, al tiempo que scale back las enormes cantidades de datos requeridos para capacitar a LLMS. Entonces, ¿qué es la IA neuroestimbólica y cómo funciona?

El problema de LLM

Los LLM funcionan utilizando una técnica llamada aprendizaje profundo, donde se les da grandes cantidades de datos de texto y usan estadísticas avanzadas para inferir patrones que determinan cuál debería ser la siguiente palabra o frase en cualquier respuesta dada. Cada modelo, junto con todos los patrones que ha aprendido, se almacena en matrices de computadoras poderosas en grandes centros de datos conocidos como redes neuronales.

Los LLM pueden parecer razonar utilizando un proceso llamado cadena de pensamiento, donde generan respuestas de varios pasos que imitan cómo los humanos podrían llegar lógicamente a una conclusión, basadas en patrones observados en los datos de entrenamiento.

Sin lugar a dudas, los LLM son un gran logro de ingeniería. Son impresionantes para resumir el texto y traductorio y puede mejorar la productividad de aquellos lo suficientemente diligentes y conocedores como para detectar sus errores. Sin embargo, tienen un gran potencial para engañar porque sus conclusiones siempre se basan en probabilidades, no comprendiendo.

Una solución common se llama humano en el bucle: asegurarse de que los humanos que usan AIS aún tomen las decisiones finales. Sin embargo, distribuir la culpa a los humanos no resuelve el problema. Todavía a menudo se verán engañados por información errónea.

Los LLM ahora necesitan tantos datos de capacitación para avanzar que tenemos que alimentarlos con datos sintéticos, lo que significa datos creados por LLMS. Estos datos pueden copiar y amplificar los errores existentes de sus propios datos de origen, de modo que los nuevos modelos hereden las debilidades de los antiguos. Como resultado, el costo de programar los modelos de IA es más preciso después de su entrenamiento, conocido como alineación del modelo post-hoc (se está disparando.

También se vuelve cada vez más difícil para los programadores ver qué está pasando mal porque la cantidad de pasos en el proceso de pensamiento del modelo se hace cada vez más grande, lo que hace que sea cada vez más difícil corregir errores.

La IA neurosymbólica combina el aprendizaje predictivo de las redes neuronales con la enseñanza de la IA una serie de reglas formales que los humanos aprenden a poder deliberar de manera más confiable. Estos incluyen reglas lógicas, como “si A entonces B”, que, por ejemplo, ayudaría a un algoritmo a aprender que “si está lloviendo, todo lo exterior normalmente está húmedo”; reglas matemáticas, como “si a = b y b = c entonces a = c”; y los significados acordados de cosas como palabras, diagramas y símbolos. Algunos de estos se ingresarán directamente en el sistema AI, mientras deducirá otros a sí mismos analizando sus datos de capacitación y realizando una “extracción de conocimiento”.

Esto debería crear una IA que nunca alucinará y aprenderá más rápido e inteligente organizando su conocimiento en partes claras y reutilizables. Por ejemplo, si la IA tiene una regla sobre las cosas que están húmedas afuera cuando llueve, no es necesario que retenga todos los ejemplos de las cosas que pueden estar mojadas afuera; la regla se puede aplicar a cualquier objeto nuevo, incluso uno que nunca antes había visto.

Durante el desarrollo del modelo, la IA neurosymbólica también integra el aprendizaje y el razonamiento formal utilizando un proceso conocido como ciclo neurosimbólico. Esto implica una IA de extracción de IA parcialmente capacitada de sus datos de capacitación y luego inculcar este conocimiento consolidado en la pink antes de una mayor capacitación con los datos.

Esto es más eficiente energéticamente porque la IA no necesita almacenar tantos datos, mientras que la IA es más responsable porque es más fácil para un usuario controlar cómo llega a conclusiones particulares y mejora con el tiempo. También es más justo porque se puede hacer que siga reglas preexistentes, como: “Para cualquier decisión tomada por la IA, el resultado no debe depender de la raza o el género de una persona”.

La tercera ola

El primera ola de la IA en la década de 1980, conocida como IA simbólica, en realidad se basó en la enseñanza de las reglas formales de las computadoras que luego podrían aplicarse a la nueva información. El aprendizaje profundo siguió como la segunda ola en la década de 2010, y muchos ven la IA neurosymbólica como la tercera.

Es más fácil aplicar principios neuroestimbólicos a la IA en áreas de nicho, porque las reglas pueden definirse claramente. Entonces, no sorprende que lo hayamos visto surgir por primera vez en Google’s Alfafoldcual predice estructuras de proteínas para ayudar con el descubrimiento de fármacos; y Alfageometríacual resuelve problemas de geometría complejos.

Para modelos de IA más amplios, Deepseek de China utiliza un Técnica de aprendizaje llamada “destilación” que es un paso en la misma dirección. Pero para que la IA neuroestimbólica sea totalmente factible para los modelos generales, todavía debe haber más investigación para refinar su capacidad para discernir las reglas generales y realizar la extracción de conocimiento.

No está claro hasta qué punto ya están trabajando en esto. Ciertamente suenan como si se dirigen en la dirección de tratar de enseñar a sus modelos a pensar de manera más inteligente, pero también parecen casados ​​con la necesidad de escalar con cantidades cada vez mayores de datos.

La realidad es que si la IA va a seguir avanzando, necesitaremos sistemas que se adapten a la novedad de solo unos pocos ejemplos, que verifiquen su comprensión, que pueden realizar múltiples tareas y reutilizar el conocimiento para mejorar la eficiencia de los datos, y eso puede razonar de manera confiable de manera sofisticada.

De esta manera, la tecnología digital bien diseñada podría incluso ofrecer una alternativa a la regulación, porque los controles y saldos se integrarían en la arquitectura y tal vez estandarizados en toda la industria. Hay un largo camino por recorrer, pero al menos hay un camino por delante.

Este artículo se republicó de La conversación bajo una licencia Artistic Commons. Leer el artículo authentic.

Related Articles

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Latest Articles