Esta tarea “quebró” razonamiento en modelos de Meta y OpenAI

octubre 15, 2024

Científicos de inteligencia artificial de Apple han descubierto que los motores basados en grandes modelos de lenguaje (LLM), como los de Meta y OpenAI, carecen de habilidades básicas de razonamiento. Estas tareas expusieron incoherencias.

El grupo ha propuesto un nuevo parámetro, GSM-Symbolic, para ayudar a otros a medir las capacidades de razonamiento de varios modelos de lenguaje extensos (LLM).

Sus pruebas iniciales revelan que pequeños cambios en la redacción de las consultas pueden dar lugar a respuestas significativamente diferentes, lo que socava la fiabilidad de los modelos.

El grupo investigó la “fragilidad” del razonamiento matemático añadiendo a sus consultas información contextual que un ser humano podría entender, pero que no debería afectar a las matemáticas fundamentales de la solución. Esto dio como resultado respuestas variables, lo que no debería suceder.

Te puede interesar: 7 cursos de Amazon para aprender sobre inteligencia artificial

“En concreto, el rendimiento de todos los modelos disminuye, incluso, cuando sólo se modifican los valores numéricos de la pregunta en el parámetro GSM-Symbolic”, escribió el grupo en su informe.

“Además, la fragilidad del razonamiento matemático en estos modelos [demuestra] que su rendimiento se deteriora significativamente a medida que aumenta el número de cláusulas de una pregunta”.

El estudio concluyó que agregar una sola oración que parezca ofrecer información relevante a una pregunta de matemáticas dada puede reducir la precisión de la respuesta final hasta en un 65 por ciento.

“Simplemente no hay forma de construir agentes confiables sobre esta base, donde cambiar una o dos palabras de manera irrelevante o agregar algunos datos irrelevantes puede dar una respuesta diferente”, concluyó el estudio.

Otra conclusión es la ausencia de pensamiento crítico. Un ejemplo particular que ilustra el problema fue un problema de matemáticas que requería una comprensión genuina de la pregunta.

La tarea que desarrolló el equipo, llamada “GSM-NoOp”, era similar al tipo de “problemas matemáticos de palabras” que un estudiante de primaria podría encontrar.

Te puede interesar: La IA puede estar generando ansiedad ¿Existe? ¿cómo enfrentarla?

La consulta comenzó con la información necesaria para formular un resultado: “Oliver recoge 44 kiwis el viernes. Luego, recoge 58 kiwis el sábado. El domingo, recoge el doble de kiwis que el viernes”.

El cuestionamiento añade una cláusula que parece relevante, pero que en realidad no lo es en relación con la respuesta final, y señala que de los kiwis recogidos el domingo, “cinco de ellos eran un poco más pequeños que el promedio”. La respuesta solicitada simplemente preguntaba “¿cuántos kiwis tiene Oliver?”.

La nota sobre el tamaño de algunos de los kiwis recolectados el domingo no debería tener ninguna influencia en el número total de kiwis recolectados. Sin embargo, el modelo de OpenAI y el Llama3-8b de Meta restaron los cinco kiwis más pequeños del resultado total.

La lógica errónea fue respaldada por un estudio previo de 2019 que podía confundir de manera confiable a los modelos de IA al hacer una pregunta sobre la edad de dos mariscales de campo anteriores del Super Bowl.

Al agregar información de antecedentes y relacionada con los juegos en los que participaron, y una tercera persona que fue mariscal de campo en otro juego de bowl, los modelos produjeron respuestas incorrectas.

“No encontramos evidencia de razonamiento formal en los modelos lingüísticos”, concluyó el nuevo estudio. El comportamiento de LLMS “se explica mejor mediante una comparación de patrones sofisticada”, que el estudio descubrió que es “tan frágil, de hecho, que [simplemente] cambiar los nombres puede alterar los resultados”.

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Esta tarea “quebró” razonamiento en modelos de Meta y OpenAI

Te puede interesar: 7 cursos de Amazon para aprender sobre inteligencia artificial

Te puede interesar: La IA puede estar generando ansiedad ¿Existe? ¿cómo enfrentarla?

Digna Irene Urrea

Relacionados

Google lanza generador de videos con IA, ¿cómo funciona y qué cambia para los creadores?

Así es Ironwood, el nuevo “cerebro” de Google que promete transformar la forma en que trabajamos

¿Es justo usar el estilo Ghibli con IA? Lo que no se dice sobre estas imágenes virales

ONU revela que la IA está en pocas manos: 100 empresas concentran la inversión y 118 países no participan

María Victoria Quiñones, la jueza colombiana que usa IA de Microsoft en su tribunal: “La justicia que no espera”

Apple Intelligence ya habla español y llega a Colombia con iOS 18.4

Lo más leído de la semana

¿Tu carro vale menos de la mitad? Estas son las marcas que pierden más valor con el tiempo

El 95% del código será generado por IA, pero los ingenieros de software no desaparecerán: el CTO de Microsoft explica por qué

Nubank lanza un nuevo préstamo para nuevos trabajadores, ¿cómo acceder y dónde está disponible?

¿Si uso las llaves bancarias me cobran el 4×1000? ¿Puedo usar la misma llave en dos bancos?

Así puedes descargar libros gratis de Google Drive y otras plataformas legales

Estrenos destacados de abril en Netflix, Prime Video, Disney+ y el resto del streaming

OpenAI retira GPT-4 de ChatGPT ¿Desde cuándo aplica y qué cambia?

Así son los nuevos iconos tridimensionales de Microsoft diseñados para Office

Archivos

Esta tarea “quebró” razonamiento en modelos de Meta y OpenAI

Te puede interesar: 7 cursos de Amazon para aprender sobre inteligencia artificial

Te puede interesar: La IA puede estar generando ansiedad ¿Existe? ¿cómo enfrentarla?

Digna Irene Urrea

You may also like

Relacionados

Lo más leído de la semana

Archivos