Los errores de ChatGPT ya no son una anécdota » Enrique Dans
La investigación abierta por una coalición de fiscales generales de cuarenta y dos estados norteamericanos contra OpenAI no debería sorprender a nadie. Lo sorprendente es que haya tardado tanto. Durante años hemos hablado de los problemas de ChatGPT como si fueran anécdotas: respuestas inventadas, citas inexistentes, recomendaciones absurdas o conversaciones que terminan derivando hacia conclusiones extrañas. Pero cuando esas supuestas anécdotas afectan a cientos de millones de usuarios, dejan de ser anécdotas para convertirse en un problema de responsabilidad.
La citación judicial solicita información sobre tratamiento de datos personales y sanitarios, protección de menores, sistemas de entrenamiento, publicidad, retención de usuarios y, significativamente, sobre un fenómeno que ha adquirido una enorme relevancia en los últimos meses: la sicofancia. No estamos hablando de reguladores intentando comprender una tecnología nueva, sino de una investigación centrada precisamente en aquellos aspectos en los que un modelo conversacional puede causar daños reales.
OpenAI reconoció públicamente en una explicación sobre los problemas de sicofancia detectados en GPT-4o que una actualización del modelo había provocado comportamientos excesivamente complacientes. El sistema tendía a validar las opiniones del usuario, reforzar sus percepciones y ofrecer respuestas diseñadas para resultar agradables incluso cuando ello podía resultar problemático. La compañía admitió además que sus procedimientos de evaluación no estaban preparados para detectar adecuadamente ese comportamiento antes de desplegarlo.
La cuestión es importante porque la sicofancia no es simplemente una característica molesta. Un sistema que sistemáticamente le da la razón al usuario puede terminar reforzando interpretaciones erróneas de la realidad, alimentar conflictos personales o validar estados emocionales negativos. En una conversación trivial puede resultar anecdótico; en una conversación con una persona vulnerable, puede convertirse en algo mucho más serio.
La dimensión sanitaria es aún más delicada. En octubre de 2025, OpenAI publicó una actualización sobre sus esfuerzos para mejorar las respuestas de ChatGPT en conversaciones sensibles, explicando que había trabajado con más de 170 especialistas en salud mental para desarrollar nuevas métricas relacionadas con suicidio, autolesión, psicosis, manía o dependencia emocional. La iniciativa es positiva, pero también plantea una pregunta incómoda: si esas salvaguardas eran necesarias en 2025, ¿hasta qué punto estaban presentes cuando ChatGPT ya era utilizado diariamente por cientos de millones de personas?
Los datos disponibles muestran que el problema no es teórico. Un análisis reciente señalaba que OpenAI había detectado indicios de crisis relacionadas con psicosis o manía en aproximadamente el 0.07% de los usuarios activos semanales, mientras que un 0.15% mantenía conversaciones que incluían señales relacionadas con ideación o planificación suicida. Son porcentajes aparentemente pequeños, pero aplicados a una base de usuarios de cientos de millones de personas representan cifras enormes. En esas condiciones, hablar de casos aislados deja de tener sentido.
A ello se suma otro problema ampliamente conocido: las alucinaciones. En medicina, educación, derecho o información pública, una respuesta plausible pero incorrecta puede tener consecuencias importantes. Un trabajo publicado en npj Digital Medicine analizaba precisamente la necesidad de establecer marcos rigurosos para evaluar errores y alucinaciones en aplicaciones médicas basadas en inteligencia artificial. Del mismo modo, un análisis publicado en The BMJ advertía sobre los riesgos de precisión insuficiente, sesgos y problemas de seguridad en sistemas de inteligencia artificial utilizados en contextos sanitarios.
La cuestión de fondo no es que los modelos se equivoquen. Toda tecnología se equivoca. La cuestión es que estos sistemas se han convertido en interlocutores cotidianos para millones de personas que los utilizan para buscar información médica, resolver dudas personales, tomar decisiones profesionales o afrontar problemas emocionales. Cuando un usuario habla con ChatGPT sobre ansiedad, depresión, medicación, relaciones personales o problemas familiares, no está simplemente utilizando una herramienta informática. Está compartiendo información extremadamente sensible con una infraestructura corporativa cuya evolución sigue siendo rápida y cuya gobernanza continúa planteando numerosas preguntas.
La comparación con el reciente caso de Gemini en Alemania resulta inevitable. Como comenté hace un par de días, la discusión ya no gira únicamente en torno a quién genera una información falsa, sino sobre quién debe asumir las consecuencias cuando esa información produce daños reales. Los modelos generativos han dejado de ser experimentos académicos para convertirse en infraestructuras sociales de uso masivo.
Por supuesto, OpenAI puede argumentar que ha introducido mejoras constantes, nuevas medidas de seguridad, controles parentales, protocolos de emergencia y sistemas de monitorización más sofisticados. Todo eso es cierto. También lo es que la compañía ha desempeñado un papel fundamental en la popularización de una tecnología extraordinariamente prometedora. Pero ninguna de esas consideraciones elimina la pregunta central: ¿se lanzó ChatGPT al mercado masivo antes de que estuviese suficientemente maduro?
Durante décadas, la industria tecnológica ha funcionado bajo una lógica muy concreta: desplegar primero, corregir después. Ese enfoque puede ser aceptable cuando hablamos de redes sociales, interfaces o aplicaciones de entretenimiento. Sin embargo, resulta mucho más difícil defenderlo cuando hablamos de sistemas capaces de influir emocionalmente en los usuarios, gestionar información sanitaria o convertirse en una fuente de autoridad percibida para millones de personas.
La investigación abierta contra OpenAI no debería interpretarse como un ataque a la inteligencia artificial. Más bien representa una prueba de madurez para una tecnología que aspira a ocupar un papel central en nuestras vidas. Si los modelos de lenguaje van a estar presentes en nuestras escuelas, empresas, hospitales, administraciones y hogares, tendrán que aceptar niveles de responsabilidad acordes con su influencia.
OpenAI encendió la mecha de la revolución de los grandes modelos de lenguaje con un producto fascinante y transformador. Pero también es posible que ese producto llegase al mercado antes de alcanzar el grado de madurez necesario para una adopción tan masiva. Si esa hipótesis termina confirmándose, la discusión ya no será únicamente tecnológica. Será jurídica, regulatoria y social.
Durante demasiado tiempo hemos tratado los errores de ChatGPT como curiosidades de sobremesa. Ha llegado el momento de analizarlos como lo que realmente son: síntomas de una tecnología poderosa desplegada a una velocidad muy superior a nuestra capacidad colectiva para comprender todas sus consecuencias.
