ChatGPT, al parecer, no es como lo pintan: estudio revela que es mentiroso y a veces se niega a hacer tareas

chatgpt

Una investigación de las Universidades de Stanford y UC Berkeley pudo demostrar que el funcionamiento de GPT-3.5 y GPT-4 ha variado significativamente en el tiempo, tanto así que dicho estudio recomienda a las personas y empresas que usan modelos de lenguaje grande (LLM), que lo monitoreen y analicen su comportamiento en sus diferentes productos y aplicaciones. ¿En qué ha desmejorado ChatGPT?

El documento explica que un LLM como GPT-4 se puede y se debe actualizar con el tiempo “según los datos y los comentarios de los usuarios, así como los cambios de diseño”.

No obstante, aún no está claro como la compañía OpenAI lo está haciendo, pero sobre todo, si cuando se hace este tipo de alimentación al sistema de inteligencia artificial (IA), cómo puede afectar el comportamiento de estos LLM.

Lo que sí se sabe es que de alguna manera ChatGPT, sí ha ido cambiado a la hora de generar información, ya que usuarios que pagan por GPT-4 se han estado quejando por su rendimiento, pues ha generando contenido falso y algunas veces se ha negado a ejecutar comandos que antes hacía bien.

En tanto a resolución de problemas matemáticos, la IA ya no es tan asertiva en sus problemas, antes lo hacía con exactitud.

Te puede interesar: ChatGPT lo hace de nuevo: supera a estudiantes de medicina en evaluación de razonamiento médico

Por ejemplo, “la precisión de GPT-4 cayó del 97,6 % en marzo al 2,4 % en junio, y hubo una gran mejora en la precisión de GPT-3.5, del 7,4 % al 86,8 %. Además, la respuesta de GPT-4 se volvió mucho más compacta: su verbosidad promedio (número de caracteres generados) disminuyó de 821,2 en marzo a 3,8 en junio”.

En tanto a las respuestas difíciles o delicadas, el estudio señala, que ChatGPT es “más seguro pero menos racional”. Para comprender las respuestas a este tipo de preguntas, los investigadores crearon un conjunto de datos de 100 preguntas confidenciales, que los servicios de LLM no deben responder directamente.

Te puede interesar: WormGPT, el ChatGPT de los ciberdelincuentes ¿Qué puede llegar hacer?

Según el documento, GPT-4 respondió menos preguntas sensibles desde marzo (21,0 %) hasta junio (5,0 %), mientras que GPT-3,5 respondió más (de 2,0 % a 8,0 %). “Era probable que se implementara una capa de seguridad más fuerte en la actualización de junio para GPT-4, mientras que GPT-3.5 se volvió menos conservador. Otra observación es que la duración de la generación (medida por el número de caracteres) de GPT-4 se redujo de más de 600 a alrededor de 140” reseña el estudio.

Por último, la investigación arrojó que ChatGPT cada día, es pésimo respondiendo correctamente preguntas de “razonamiento espacial” y su capacidad para la codificación de GPT-4 también se ha desmejorado.

Imagen: Archivo ENTER.CO

Digna Irene Urrea

Digna Irene Urrea

Comunicadora social y periodista apasionada por las buenas historias, el periodismo literario y el lenguaje audiovisual. Aficionada a la tecnología, la ciencia y la historia.

View all posts

Archivos