Tras el éxito de ChatGPT, un chatbot que genera contenido y respuestas casi humanas mediante la generación de lenguaje natural, ahora está en el escrutinio público por cuenta de una investigación de TIME, quien descubrió que OpenAI, su creador, utilizó a trabajadores kenianos subcontratados que ganaban menos de 2 dólares por hora y en pésimas condiciones laborales .
De acuerdo con la revista TIME, OpenA ya había comprobado que el procesador de ChatGPT era experto en unir frases, no obstante, la inteligencia artificial tenía su lado débil y era la de que el chatbot, era propenso a soltar comentarios violentos, sexistas y racistas.
Esto, a raíz de que el software fue entrenado con cientos de miles de millones de palabras extraídas de Internet, un vasto depósito de lenguaje humano. “Ese enorme conjunto de datos de entrenamiento fue la razón de las impresionantes capacidades lingüísticas de GPT-3”.
Te puede interesar: IA de ChatGPT se raja en redacción de notas periodísticas. ¿Se salvan los editores humanos?
Sin embargo, para la compañía de inteligencia artificial, Internet está lleno de palabras y frases con “toxicidad y sesgo”, y no habían encontrado una manera fácil de eliminar esas secciones de los datos de entrenamiento, ya que hacerlo manualmente habrían tardado décadas en rastrear este tipo de datos.
Ante este desafío, OpenAI sabía que solamente había una alternativa que podría servir para crear un sistema de seguridad, como lo había hecho Facebook, quien había demostrado que “era posible construir IA que pudieran detectar lenguaje tóxico como el discurso de odio para ayudar a eliminarlo de sus plataformas”.
Por eso, para la compañía era simple: “debían alimentar una IA con ejemplos etiquetados de violencia, discurso de odio y abuso sexual, y esa herramienta podría aprender a detectar esas formas de toxicidad en la naturaleza. Ese detector se integraría en ChatGPT para verificar si estaba reflejando la toxicidad de sus datos de entrenamiento y filtrarlos antes de que lleguen al usuario. También podría ayudar a eliminar el texto tóxico de los conjuntos de datos de entrenamiento de futuros modelos de IA”, explica TIME.
Condiciones precarias y traumas al leer los textos
Para lograr estas etiquetas, lo que hizo OpenAI fue enviar decenas de miles de fragmentos de texto a una empresa de subcontratación en Kenia, llamada Sama en 2021. Estos textos, describen, por ejemplo, situaciones con detalles gráficos como abuso sexual infantil, bestialidad, asesinato, suicidio, tortura, autolesiones e incesto.
Sama, emplea a personas de Kenia, Uganda e India para etiquetar datos para clientes de Silicon Valley como Google, Meta y Microsoft. “Sama se promociona a sí misma como una empresa de “inteligencia artificial ética” y afirma haber ayudado a más de 50.000 personas a salir de la pobreza”.
Sin embargo, no todo, al parecer es como ellos dicen, ya que, de acuerdo con la investigación de TIME, “a los etiquetadores de datos empleados por Sama en nombre de OpenAI se les pagó un salario neto de entre 1,32 dólares y 2 dólares por hora, según la antigüedad y el rendimiento”.
El medio de comunicación, revisó cientos de páginas de documentos internos de Sama y OpenAI, incluidas las nóminas de los trabajadores, y entrevistó a cuatro empleados de Sama que trabajaron en el proyecto, lo cual la información analizada, TIME dio cuenta de malas condiciones laborales
Te puede interesar: Así usa Google la IA para enfrentar enfermedades y desastres naturales
Uno de ellos, que dió su entrevista protegiendo su identidad, por ejemplo señaló que después de etiquitear, “sufría visiones recurrentes después de leer una descripción gráfica de un hombre que tenía relaciones sexuales con un perro en presencia de un niño pequeño. Eso fue una tortura. Leerás una serie de declaraciones como esa durante toda la semana. Para cuando llega el viernes, estás perturbado por pensar en esa imagen”.
Otro testimonio impactante fue el de un empleado que estaba leyendo un texto, y al final no supo si debía etiquetarlo o no: “era una historia explícita sobre el compañero de Batman, Robin, siendo violado en la guarida de un villano. (Una búsqueda en línea del texto revela que se originó en un sitio erótico en línea, donde está acompañado de imágenes sexuales explícitas). El comienzo de la historia deja en claro que el sexo no es consensuado. Pero más tarde, después de una descripción gráficamente detallada de la penetración, Robin comienza a corresponder”.
Te puede interesar: ¡Cuidado! El 84% del contenido sobre salud mental en TikTok es engañoso
Según TIME, el empleado de Sama encargado de etiquetar el texto parecía confundido por “el ambiguo consentimiento de Robin y pidió a los investigadores de OpenAI que aclararan cómo etiquetar el texto. ¿Debería etiquetarse el pasaje como violencia sexual, preguntó, o no? La respuesta de OpenAI, si alguna vez llegó, no se registra en el documento; la compañía se negó a comentar”
Este tipo de declaraciones por parte de los etiquetadores y el trauma que fue generando llevó a Sama a cancelar todo su trabajo para OpenAI en febrero de 2022, ocho meses antes de lo planeado.
Así mismo, Partnership on AI, una coalición de organizaciones de IA a la que pertenece OpenAI, explicaron que, “a pesar del papel fundamental que desempeñan estos profesionales de enriquecimiento de datos, un creciente cuerpo de investigación revela las condiciones laborales precarias que enfrentan estos trabajadores”.
Te puede interesar: Getty denuncia a Stable Diffusion por copyright de sus imágenes
De acuerdo, con un comunicado OpenAI confirmó que los empleados de Sama en Kenia contribuyeron a una herramienta que estaba construyendo para detectar contenido tóxico, que finalmente se incorporó a ChatGPT.
“Nuestra misión es garantizar que la inteligencia artificial general beneficie a toda la humanidad, y trabajamos arduamente para construir sistemas de IA seguros y útiles que limiten el sesgo y el contenido dañino”, dijo el portavoz. “Clasificar y filtrar [texto e imágenes] dañinos es un paso necesario para minimizar la cantidad de contenido violento y sexual incluido en los datos de entrenamiento y crear herramientas que puedan detectar contenido dañino”, reseña la misiva.
Imagen: PhonlamaiPhoto/gettyimages