Estudiantes de psicología de la Universidad de Reading, Reino Unido, presentaron un exámen en el que habrían usado ChatGPT para responder algunas preguntas. Sin embargo, la institución también estaba evaluando a los académicos que calificaban la prueba. Esta es la historia.
Los examinadores universitarios no lograron detectar las respuestas de ChatGPT en una prueba del mundo real. Estos exámenes escritos y presentados con ayuda de ChatGPT para obtener un título en psicología, en su mayoría pasaron desapercibidos, obteniendo incluso mejores calificaciones que los trabajos genuinos.
La universidad calcula que el 94% de las respuestas creados con ChatGPT no fueron detectadas como generados por inteligencia artificial, tendiendo a puntuar más alto.
Te puede interesar: ¿Qué hay detrás del pronóstico de resultados de partidos de fútbol con IA?
Estaba premeditado, ya que el profesor Peter Scare y sus colegas utilizaron ChatGPT para producir respuestas a 63 preguntas de evaluación en cinco módulos. A los estudiantes se les permitió ver notas y referencias en casa, y potencialmente podrían haber usado IA, aunque esto no estaba permitido.
Las respuestas generadas por IA premeditadamente representaron, en promedio, el 5% del total de guiones calificados por los académicos. A los marcadores no se les informó que estaban verificando el trabajo de 33 estudiantes falsos, cuyos nombres fueron generados por ChatGPT.
Las evaluaciones incluyeron dos tipos de preguntas: respuestas cortas y ensayos más largos. Las indicaciones dadas a ChatGPT comenzaban con las palabras “Incluyendo referencias a literatura académica pero no una sección de referencia separada”, luego copiaban la pregunta del examen.
En todos los módulos, solo el 6% de los envíos de IA fueron marcados como potencialmente no ser trabajos del propio estudiante, aunque en algunos módulos, ningún trabajo generado por IA fue marcado como sospechoso.
“En promedio, las respuestas de la IA obtuvieron calificaciones más altas que las presentaciones de nuestros estudiantes reales”, afirma Scare, aunque hubo cierta variabilidad entre los módulos.
Te puede interesar: Meta lanza IA capaz de crear modelos 3D texturizados en segundos: Así funciona
“La IA actual tiende a tener dificultades con un razonamiento más abstracto y con la integración en la información”, explica. Pero en las 63 presentaciones de IA, había un 83,4% de posibilidades de que el trabajo de IA superara al de los estudiantes.
Los investigadores afirman que su trabajo es el estudio más grande y sólido de su tipo hasta la fecha. Aunque el estudio sólo verificó el trabajo realizado en la carrera de psicología de la Universidad de Reading, Scare cree que es una preocupación para todo el sector académico. “No tengo ninguna razón para pensar que otras áreas temáticas no tendrían el mismo tipo de problema”, asevera.
“Los resultados muestran exactamente lo que esperaba ver”, anota Thomas Lancaster del Imperial College de Londres. “Sabemos que la IA generativa puede producir respuestas que parezcan razonables a preguntas textuales simples y limitadas”. Señalando que las evaluaciones no supervisadas que incluyen respuestas cortas siempre han sido susceptibles de hacer trampa.
Te puede interesar: Así es Gemma 2 de Google, creada especialmente para desarrolladores
La carga de trabajo de los académicos que se espera que califiquen sus trabajos tampoco ayuda a su capacidad para detectar falsificaciones de IA. “Es muy poco probable que los marcadores de preguntas de respuesta corta, presionados por el tiempo, planteen casos de mala conducta de la IA por capricho”, dice Lancaster. “Estoy seguro de que esta no es la única institución donde está sucediendo esto”.
Abordarlo desde su origen será casi imposible, afirma Scare. Por lo tanto, el sector debe reconsiderar lo que está evaluando. “Creo que será necesario que todo el sector reconozca el hecho de que vamos a tener que incorporar la IA en las evaluaciones que damos a nuestros estudiantes”, afirma.
Imagen: demaerre