Desde que la inteligencia artificial (IA) empezó a adueñarse de la tecnología a finales del 2022, han surgido varios beneficios pero también algunas amenazas. Esta vez, The internet archive fue la víctima de la IA.
Como ya hemos informado en varias ocasiones, los modelos de IA funcionan con un largo entrenamiento. Para ello, los desarrolladores utilizan cientos de Miles de datos que alberga la internet, de manera que la IA sea capaz de comprender la información y brindar una respuesta adecuada a una pregunta específica. Lamentablemente, esto ha ocasionado estragos en la biblioteca de internet.
Justamente the Internet archive fue uno de los servidores afectados por el entrenamiento de IA. Para entrar en contexto, tal y como detallan desde su web, internet archive es una inmensa librería sin ánimo de lucro. Allí se dedican a registrar el historial de internet hasta la fecha. En total, es un enorme archivo de la red de redes que alcanza un historial de más de 800.000 millones de páginas.
Te puede interesar: Abogado usó ChatGPT para ganar demanda contra Avianca, pero la aerolínea lo descubrió
Ahora, tal y como explicaron en su cuenta de Twitter, la biblioteca sufrió una caída. Según sus reportes, el posible causante sería una compañía de IA que habría estado usando sus archivos para entrenar un modelo de IA.
La caída se debió a una oleada de tráfico “abusivo” de AWS, los servicios de computo en la nube de Amazon. Está habría sido la segunda oleada desde “una empresa de inteligencia artificial que recolecta textos de Internet Archive a un ritmo extremo”.
Todo comenzó el pasado 29 de mayo. “Esta es nuestra segunda ráfaga de tráfico abusivo de un cliente de AWS hoy, aparentemente de una empresa de inteligencia artificial que recolecta textos de Internet Archive a un ritmo extremo”, escribieron en su perfil de Twitter desde Internet Archive.
Tras esto, el fundador de The Internet Archive, Brewster Kahle, publicó una nota en Internet Archive sobre lo que acababa de suceder. “Se lanzaron decenas de miles de solicitudes por segundo para nuestros archivos OCR de dominio público desde 64 hosts virtuales en los servicios AWS de Amazon”.
Imagen: The Internet Archive