¿Son inteligentes las IA? No fueron capaces de responder pregunta de sentido común sobre ‘Alicia en el país de las maravillas’

Investigadores pusieron a prueba varias inteligencias artificiales para descubrir si realmente son tan inteligentes como nosotros, sin embargo, los modelos de lenguaje grandes como GPT-3.5/4, Claude, Gemini y otros, no fueron capaces de responder una pregunta de sentido común que cualquier humano resolvería fácilmente sobre ‘Alicia en el país de las maravillas’.

De acuerdo con los investigadores el experimento consistió en plantear una pregunta básica de sentido común. La pregunta era algo así: «Alice tiene hermanos y hermanas. ¿Cuántas hermanas tiene el hermano de Alice?». Una pregunta que cualquier persona podría responder sin mucha dificultad, pero que resultó ser un reto insuperable para muchos de estos sofisticados modelos de lenguaje.

¿Por qué?

El texto señala que lo que les llamó la atención a los expertos no es que hayan fallado, sino en cómo lo hicieron, pues las respuestas que dieron las IA no solo eran incorrectas, sino que las explicaban con una confianza abrumadora. Peor aún, sus explicaciones eran largas y complicadas, llenas de razonamientos que sonaban lógicos pero que, en realidad, eran puro sinsentido.

Los investigadores intentaron varias estrategias para ayudar a las IA a corregir sus respuestas. Probaron con diferentes formas de preguntar, les pidieron que revisaran sus respuestas, y hasta les dieron pistas. Pero nada funcionó. Las IA seguían proporcionando respuestas erróneas con explicaciones aún más enredadas.

Te puede interesar: ¡Abarrotado de usuarios! Generador de video AI Dream Machine es sensación por versión gratuita

La investigación señala que este experimento revela que, a pesar de los logros de las IA en muchas áreas, todavía tienen fallos importantes en tareas simples de razonamiento. Las puntuaciones altas en pruebas estandarizadas no reflejan estas debilidades, ya que las IA parecen sobresalir solo en entornos controlados y tareas específicas.

“Utilizando una simple pregunta de sentido común, los investigadores observaron un colapso dramático en el desempeño de los modelos, que proporcionaron respuestas incorrectas acompañadas de explicaciones muy confiadas pero incorrectas. Este fallo sugiere problemas fundamentales con la capacidad de generalización de estos modelos”, explican los investigadores.

El estudio destaca que, aunque algunos modelos como GPT-4 y Claude 3 Opus ocasionalmente ofrecen razonamientos correctos, su desempeño fluctúa significativamente. Incluso los modelos de menor escala, que generalmente tienen peor rendimiento en tareas de razonamiento, muestran esporádicamente respuestas correctas, indicando que las habilidades de razonamiento están presentes pero no se ejercen de manera confiable.

Te puede interesar: ¿Qué tan potente es la IA de Apple en comparación con GPT-4 y Gemma de Google?

Finalmente los expertos dicen que es necesario abordar estas deficiencias, los investigadores abogan por un proceso de desarrollo y evaluación completamente transparente.

Esto incluye la apertura del código fuente, los conjuntos de datos de entrenamiento y los procedimientos de evaluación. Proponen actualizar los puntos de referencia para que sean más efectivos en descubrir las debilidades de los modelos y sugieren que los puntos de referencia deberían intentar falsear las capacidades del modelo en lugar de confirmarlas.

Imagen: Fotograma de Alicia en el País de las Maravillas

Digna Irene Urrea

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Archivos