Esta tarea “quebró” razonamiento en modelos de Meta y OpenAI: ¿Carecen de razonamiento?

inteligencia artificial"

BANNER IA

Científicos de inteligencia artificial de Apple han descubierto que los motores basados en grandes modelos de lenguaje (LLM), como los de Meta y OpenAI, carecen de habilidades básicas de razonamiento. Estas tareas expusieron incoherencias.


El grupo ha propuesto un nuevo parámetro, GSM-Symbolic, para ayudar a otros a medir las capacidades de razonamiento de varios modelos de lenguaje extensos (LLM).

Sus pruebas iniciales revelan que pequeños cambios en la redacción de las consultas pueden dar lugar a respuestas significativamente diferentes, lo que socava la fiabilidad de los modelos.

El grupo investigó la “fragilidad” del razonamiento matemático añadiendo a sus consultas información contextual que un ser humano podría entender, pero que no debería afectar a las matemáticas fundamentales de la solución. Esto dio como resultado respuestas variables, lo que no debería suceder.

Te puede interesar: 7 cursos de Amazon para aprender sobre inteligencia artificial

“En concreto, el rendimiento de todos los modelos disminuye, incluso, cuando sólo se modifican los valores numéricos de la pregunta en el parámetro GSM-Symbolic”, escribió el grupo en su informe.

“Además, la fragilidad del razonamiento matemático en estos modelos [demuestra] que su rendimiento se deteriora significativamente a medida que aumenta el número de cláusulas de una pregunta”.

El estudio concluyó que agregar una sola oración que parezca ofrecer información relevante a una pregunta de matemáticas dada puede reducir la precisión de la respuesta final hasta en un 65 por ciento.

“Simplemente no hay forma de construir agentes confiables sobre esta base, donde cambiar una o dos palabras de manera irrelevante o agregar algunos datos irrelevantes puede dar una respuesta diferente”, concluyó el estudio.

Otra conclusión es la ausencia de pensamiento crítico. Un ejemplo particular que ilustra el problema fue un problema de matemáticas que requería una comprensión genuina de la pregunta.

La tarea que desarrolló el equipo, llamada “GSM-NoOp”, era similar al tipo de “problemas matemáticos de palabras” que un estudiante de primaria podría encontrar.

Te puede interesar: La IA puede estar generando ansiedad ¿Existe? ¿cómo enfrentarla?

La consulta comenzó con la información necesaria para formular un resultado: “Oliver recoge 44 kiwis el viernes. Luego, recoge 58 kiwis el sábado. El domingo, recoge el doble de kiwis que el viernes”.

El cuestionamiento añade una cláusula que parece relevante, pero que en realidad no lo es en relación con la respuesta final, y señala que de los kiwis recogidos el domingo, “cinco de ellos eran un poco más pequeños que el promedio”. La respuesta solicitada simplemente preguntaba “¿cuántos kiwis tiene Oliver?”.

La nota sobre el tamaño de algunos de los kiwis recolectados el domingo no debería tener ninguna influencia en el número total de kiwis recolectados. Sin embargo, el modelo de OpenAI y el Llama3-8b de Meta restaron los cinco kiwis más pequeños del resultado total.

La lógica errónea fue respaldada por un estudio previo de 2019 que podía confundir de manera confiable a los modelos de IA al hacer una pregunta sobre la edad de dos mariscales de campo anteriores del Super Bowl.

Al agregar información de antecedentes y relacionada con los juegos en los que participaron, y una tercera persona que fue mariscal de campo en otro juego de bowl, los modelos produjeron respuestas incorrectas.

“No encontramos evidencia de razonamiento formal en los modelos lingüísticos”, concluyó el nuevo estudio. El comportamiento de LLMS “se explica mejor mediante una comparación de patrones sofisticada”, que el estudio descubrió que es “tan frágil, de hecho, que [simplemente] cambiar los nombres puede alterar los resultados”.

Digna Irene Urrea

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Archivos