¿Alucinaciones… o simplemente errores inevitables? » Enrique Dans
El término «alucinaciones» se ha convertido en la etiqueta más repetida para describir lo que ocurre cuando un modelo generativo produce afirmaciones falsas, inventadas o directamente absurdas.
Es una metáfora potente porque evoca imágenes muy humanas: un cerebro que, bajo algún tipo de estímulo, percibe lo que no existe. Pero es también problemática, porque sugiere una intencionalidad, una experiencia subjetiva, el efecto de alguna sustancia o incluso un trastorno mental, nada de lo cual tiene sentido aplicado a una máquina estadística que predice secuencias de palabras. La realidad es mucho más prosaica: no hay «alucinaciones», sino errores de predicción, inferencias construidas sobre datos defectuosos o incompletos. Sin embargo, es casi imposible desandar el camino: la prensa, la academia y hasta las propias compañías del sector han normalizado el término, y lo más probable es que se quede para siempre, aunque no sea el más adecuado.
El reciente trabajo publicado por OpenAI, «Why language models hallucinate«, acompañado de una explicación divulgativa en su página corporativa, intenta aportar algo de luz sobre cómo se producen exactamente esas llamadas «alucinaciones». Los modelos de lenguaje funcionan ajustando probabilidades: dada una secuencia de tokens, estiman cuál es el siguiente más probable. Esa predicción se apoya en patrones presentes en los datos de entrenamiento, pero esos patrones no siempre reflejan verdades comprobadas. Cuando los datos de entrenamiento son ambiguos, contradictorios o directamente falsos, el modelo sigue completando la secuencia, aunque la respuesta resultante sea inventada. No «miente» ni «imagina»: simplemente sigue una función matemática que no distingue entre lo verdadero y lo falso, salvo en la medida en que esas diferencias se reflejen en los datos de entrenamiento.
Aquí entra en juego un elemento clave que el propio paper subraya: la llamada reward function, o función recompensa, es decir, los incentivos que se diseña que obtenga el algoritmo. Durante la fase de ajuste con refuerzo, las práctica totalidad de las compañías diseñaron sus modelos para que priorizasen la generación de una respuesta, frente a la posibilidad de admitir su ignorancia. En otras palabras, los modelos fueron incentivados a contestar aunque fuese con una baja probabilidad de acierto, porque eso maximizaba la satisfacción de los usuarios y, por tanto, la recompensa del sistema de entrenamiento. Se prefirió la ilusión de omnisciencia, de «máquina que todo lo sabe», a la frialdad de un «no lo sé». Esta decisión, aparentemente pragmática, condiciona el comportamiento de los modelos hasta hoy: son máquinas que, como buenos alumnos deseosos de agradar, siempre dicen algo, aunque no tengan fundamento para ello.
Los grandes actores (OpenAI, Google, Amazon, Anthropic, Perplexity, Mistral…) buscan atajar estas fabricaciones, y van desplegando estrategias para reducirlas, como el uso de Retrieval-Augmented Generation (RAG), de modelos evaluadores, de razonamiento automático, de modelos de coherencia, o el acceso a bases de datos internas. A pesar de estos avances, todos ellos subrayan la imposibilidad técnica de eliminarlas completamente. Los sistemas agénticos, particularmente cuando los agentes trabajan con contextos muy concretos y bien especificados, representan una de las avenidas más prometedoras en este sentido (en unos días contaré más sobre este tema).
Estamos ante la gran paradoja de esta tecnología: las compañías decidieron entrenar sus modelos con absolutamente todo lo disponible: corpus masivos de la web con calidad muy dispar, llenos de información útil, sí, pero también de ruido, errores, basura, teorías conspiranoicas y propaganda. El objetivo era acelerar el avance, lograr modelos capaces de cubrir cualquier ámbito del conocimiento humano, y hacerlo además en un tiempo récord. Verificar o filtrar mediante fact-checkers esas ingentes cantidades de texto con las que se alimentaba el algoritmo habría sido carísimo, lento, difícilmente escalable y, además, habría recibido innumerables acusaciones de subjetividad. La apuesta fue sacrificar precisión a cambio de amplitud, como reconocen no solo OpenAI, sino también investigadores en otras compañías y universidades. El resultado ha sido un ecosistema de modelos poderosísimos, pero incapaces de garantizar que lo que dicen sea cierto.
¿Qué habría ocurrido, cómo habría evolucionado este panorama, si se hubiera tomado la decisión contraria? Si los modelos hubieran sido entrenados únicamente con fuentes verificadas, fidedignas y con autoridad, y si además hubiesen sido incentivados para reconocer sus límites, tal vez hoy tendríamos sistemas menos versátiles, pero mucho más fiables. Modelos que no respondieran a todo, pero que rara vez incurrieran en errores groseros. Una inteligencia artificial «lenta pero segura», que pudiera servir como referencia académica o profesional con la misma fiabilidad que una buena enciclopedia en manos de un usuario adecuado. Es, en cierto modo, lo que algunos proyectos alternativos, como los intentos de integrar verificación en tiempo real o los experimentos con bases de datos cerradas y curadas, están explorando. Pero el mercado, la presión competitiva y la lógica del «moverse rápido» empujaron en la dirección contraria: mejor un modelo que conteste cualquier cosa y proporcione la ilusión de omnisciencia, aunque se equivoque a menudo, que otro que conteste poco, pero siempre con el debido rigor.
Posiblemente deberíamos dejar de hablar de «alucinaciones» y sustituirlo por una descripción más técnica de lo que realmente ocurre: errores probabilísticos de predicción. Pero lo cierto es que el término ya ha echado raíces, porque además encaja con una narrativa atractiva y mediática. Al igual que en su día el término «nube» se impuso como metáfora para describir un conjunto de servidores distribuidos, el de “alucinaciones” se ha impuesto para describir un fenómeno que no tiene nada de místico, de químico ni de psicológico, pero que suena más sugerente de lo que realmente es.
Lo intrigante, y lo que debería hacernos reflexionar, es hasta qué punto nos hemos acostumbrado a convivir con esos errores. Sabemos que los modelos alucinan, pero seguimos usándolos, fascinados por su capacidad de generar lenguaje coherente y útil en la mayoría de los casos, y por la confianza en nuestra habilidad para desenmascarar esos errores y eliminarlos del producto final. Quizá en el futuro veamos un giro hacia modelos más pequeños y especializados, entrenados con fuentes mucho más rigurosas y con incentivos mejor diseñados para admitir incertidumbre, que se complementen con los grandes modelos generalistas. O tal vez acabemos por resignarnos a un mundo en el que toda producción automática de texto requiere, necesariamente, una capa de verificación humana (lo cual, desde el punto de vista de alguien que se dedica a la enseñanza, tampoco parece mala cosa). En cualquier caso, conviene tener claro que no son las máquinas las que «alucinan», sino nosotros los que decidimos qué entrenar, cómo entrenarlo y qué recompensas ofrecer.