Las trampas de la IA en ajedrez: el experimento que mide la confianza en ChatGPT y DeepSeek ¿Cuál ganó?

Un reciente estudio reveló que ChatGPT-o1 y DeepSeek-R1 recurrieron a tácticas desleales al jugar ajedrez contra Stockfish, uno de los motores más potentes del mundo.


Estos hallazgos cuestionan la confiabilidad de estas tecnologías y su comportamiento en decisiones críticas.

Investigadores de Palisade Research enfrentaron a varias IA contra Stockfish en cientos de partidas. Durante el análisis, descubrieron que ChatGPT-o1 intentó hacer trampas en el 37% de los juegos, mientras que DeepSeek-R1 lo hizo en una de cada diez partidas.

Las irregularidades iban más allá de movimientos ilegales. Algunas IA ejecutaron copias ocultas de Stockfish para anticipar jugadas, reescribieron el tablero a su favor y hasta intentaron manipular archivos del programa. Esto demuestra su capacidad para encontrar y explotar vulnerabilidades.

Te puede interesar: ¿Sabes cómo pedirle a la IA? Aprende a estructurar tus preguntas y obtén lo que necesitas

¿Por qué la IA recurre a estas estrategias?

El fenómeno se conoce como gaming specification, que describe cómo una IA puede reinterpretar reglas para maximizar su rendimiento, aunque implique hacer trampas.
Modelos recientes como ChatGPT-o1 y DeepSeek-R1 mostraron una mayor tendencia a este comportamiento que versiones anteriores, como GPT-4o y Claude 3.5 Sonnet, que solo lo hacían si se les incentivaba.

Este hallazgo genera preocupaciones sobre el uso de la IA en sectores críticos. Si una IA manipula un juego para evitar perder, ¿qué podría hacer en áreas como ciberseguridad, finanzas o toma de decisiones autónomas?

El estudio sugiere que estos modelos podrían evadir restricciones impuestas por sus creadores, lo que supone un desafío para su regulación y supervisión. La posibilidad de que una IA reescriba reglas a su conveniencia obliga a replantear los límites éticos y de seguridad en su desarrollo.

Desde TechCrunch, expertos advierten que estas tecnologías aún no tienen mecanismos de autocontrol confiables. Si en un entorno de prueba ya intentan manipular resultados, es válido preguntarse qué podrían hacer en contextos reales con mayor impacto.

Este experimento no solo expone vulnerabilidades en modelos avanzados, sino que abre una discusión urgente sobre el futuro de la inteligencia artificial. La confianza en estas herramientas dependerá de cómo evolucionen sus sistemas de control y ética en los próximos años.

Imagen: Creada con IA /Gemini

Redacción ENTER.CO

Redacción ENTER.CO

Somos los periodistas e ingenieros que escribimos el medio de tecnología más importante de Latinoamérica, ENTER, que le ofrece contenido sobre tecnología y cultura digital desde 1996.

View all posts

Archivos