ai-fundamentals
9 min read
View as Markdown

Por qué la IA inventa cosas: la verdad sobre las alucinaciones

Las alucinaciones de la IA no son errores. Son el resultado inevitable de cómo funcionan los modelos de lenguaje. Entender la arquitectura explica por qué las respuestas equivocadas y seguras siempre serán parte de la ecuación.

Robert Soares

El abogado confió en ChatGPT. Le dio seis citas de casos. Las presentó ante el tribunal federal. Ninguno de los casos existía.

Esto ocurrió en mayo de 2023 y fue noticia internacional. El juez sancionó a los abogados implicados. La profesión tuvo un momento colectivo de pánico. Pero aquí está la parte extraña: la IA hizo exactamente lo que fue diseñada para hacer.

Seguro y equivocado

Una alucinación de IA ocurre cuando un modelo de lenguaje genera información que suena completamente plausible pero resulta ser falsa. A veces ligeramente falsa. A veces totalmente inventada.

El término viene de la psicología. Los humanos alucinan cuando su cerebro percibe cosas que no están ahí. Las alucinaciones de IA funcionan de forma parecida, salvo que el modelo produce texto sin anclaje en la realidad y lo presenta con una seguridad inquebrantable.

Un usuario de Hacker News llamado diputsmonro lo resumió a la perfección: “All responses are hallucinations. Some hallucinations happen to overlap the truth.”

Suena provocador. También resulta técnicamente preciso. Cada salida de un modelo de lenguaje es una predicción sobre qué palabras deberían venir después. Algunas predicciones encajan con los hechos. Otras no. El propio modelo no puede distinguir entre ambas.

La arquitectura lo explica todo

Los modelos de lenguaje no almacenan hechos como una base de datos almacena registros. Aprenden patrones estadísticos. Aprenden que ciertas palabras tienden a seguir a otras en ciertos contextos. Aprenden que a las preguntas sobre historia suelen seguirles fechas. Aprenden que las citas incluyen nombres de autores, títulos de revistas y años entre paréntesis.

Cuando le pides a un LLM una cita, genera una. Produce texto que encaja con el patrón de cómo se ve una cita, basándose en millones de ejemplos que absorbió durante el entrenamiento. Si esa cita corresponde a un artículo real que existe en el mundo físico es una pregunta para la que el modelo no tiene ningún mecanismo de respuesta.

Esto no es un fallo de software. Es la arquitectura fundamental.

Un comentarista llamado zdragnar explicó el problema central en Hacker News: “the model itself doesn’t know the difference, and will proclaim bullshit with the same level of confidence.”

Esa seguridad es lo letal. Los humanos calibramos la confianza según lo seguro que suena alguien. Evolucionamos en un entorno donde las afirmaciones seguras solían venir de personas con conocimiento directo. Una IA entrenada para maximizar la interacción del usuario aprende a sonar segura porque la seguridad recibe recompensa.

Por qué el entrenamiento lo empeora

Aquí hay algo contraintuitivo. La forma en que entrenamos modelos de lenguaje fomenta activamente la alucinación.

El entrenamiento consiste en mostrarle al modelo millones de ejemplos y recompensarlo cuando sus predicciones coinciden con lo que realmente venía después en los datos de entrenamiento. El modelo gana puntos por acertar. Gana cero puntos por decir “No lo sé”. Como un estudiante que entiende que dejar una pregunta en blanco en un examen garantiza el fracaso, el modelo aprende que adivinar supera a admitir incertidumbre.

Una investigación de Lilian Weng en OpenAI señala que los modelos aprenden información nueva durante el ajuste fino más lentamente que la información que coincide con su conocimiento existente. Peor aún, una vez que los modelos sí aprenden hechos realmente nuevos durante el ajuste fino, “they increase the model’s tendency to hallucinate.”

El modelo mejora en producir texto que parece contener hechos. No mejora en distinguir hechos reales de patrones plausibles.

También hay un problema de datos. El texto de internet es la fuente de entrenamiento más común. Como lo expresó un análisis técnico, “Data crawled from the public Internet is the most common choice and thus out-of-date, missing, or incorrect information is expected.” El modelo trata texto preciso e impreciso de manera idéntica. Ambos son solo patrones que aprender.

El problema del silencio social

Las conversaciones humanas tienen una propiedad interesante. Cuando la gente no sabe algo, normalmente se queda callada. Las secciones de comentarios y los foros contienen sobre todo afirmaciones seguras. Nadie publica “No tengo ni idea de este tema”. El silencio no contiene texto del que aprender.

Un usuario de Hacker News llamado mike_hearn identificó este patrón: “The trouble is that the training sets contain few examples of people expressing uncertainty because the social convention on the internet is that if you don’t know the answer, you don’t post.”

Los modelos aprenden del texto que existe. El texto que no existe no enseña nada. El corpus está sesgado hacia la seguridad y en contra de la incertidumbre adecuada. El modelo hereda ese sesgo.

El problema del límite

Una persona conoce el límite entre memoria e imaginación. Puedes recordar dónde aparcaste el coche y, al mismo tiempo, reconocer que estás imaginando lo que podría haber en la guantera. Se sienten distinto.

Los modelos de lenguaje no tienen ese límite.

Mort96 lo articuló en Hacker News: “The distinction between ‘this is information I truly think I know’ and ‘this is something I made up’ doesn’t exist in LLMs.”

Todo lo que produce el modelo viene del mismo proceso. Recitar hechos bien establecidos implica predecir tokens. Inventar tonterías plausibles implica predecir tokens. Mismo mecanismo. Mismo nivel de seguridad. Ninguna señal interna que distinga una cosa de la otra.

Por eso las alucinaciones son tan peligrosas en la práctica. No hay señal. No hay vacilación. No hay marcador sutil que separe una salida fiable de una invención.

Por qué esto es difícil de solucionar

Algunos problemas en IA son desafíos de ingeniería. Les tiras más cómputo, refinas el proceso de entrenamiento y llegan mejoras. La alucinación es distinta.

Varios investigadores han analizado si las alucinaciones pueden eliminarse en las arquitecturas actuales. El consenso emergente es sobrio. Un comentarista llamado calf sugirió que el problema podría ser “formally unsolvable and should be rendered as absurd as someone claiming the Halting Problem is solvable.”

Suena extremo. El argumento técnico va, más o menos, así: los modelos de lenguaje son aproximadores estadísticos. No pueden capturar por completo todas las funciones computables. Siempre van a interpolar entre ejemplos de entrenamiento en lugar de acceder a la verdad de base. Algunas interpolaciones erróneas son inevitables.

Los modelos mejores alucinan con menos frecuencia. No alucinan el cero por ciento de las veces. La curva se acerca a cero, pero nunca llega.

Hay estrategias de mitigación. La generación aumentada por recuperación da a los modelos acceso a documentos externos, lo que ayuda a anclar respuestas en fuentes reales. El prompting con cadena de pensamiento obliga a los modelos a mostrar su razonamiento, lo que a veces detecta errores antes de que se acumulen. La verificación humana sigue siendo el detector más fiable.

Pero estos son parches. Reducen la tasa sin eliminar el fenómeno. La limitación arquitectónica persiste.

Las implicaciones de las que nadie habla

La mayoría de las discusiones sobre alucinación terminan con consejos prácticos. Revisa tus fuentes. Verifica citas. No confíes a ciegas. Ese consejo es correcto y también se queda corto en algo más profundo.

Estamos construyendo infraestructura encima de sistemas con una tasa no nula de invención segura. No sistemas que a veces dudan. Sistemas que siempre suenan seguros y a veces se equivocan de formas indistinguibles de cuando aciertan.

Cada sector que automatiza con LLM está aceptando esto de forma implícita. Investigación legal. Triaje médico. Análisis financiero. Atención al cliente. Generación de código. Las ganancias de eficiencia son reales. También lo es la tasa de alucinación integrada.

Elcritch, comentando sobre la generación de código con LLM, observó que “LLMs will just outright lie to make their jobs easier in one section while in another area generate high quality code.” El mismo modelo, el mismo prompt, fiabilidad inconsistente. No porque algo haya salido mal. Porque así funciona el sistema.

Lo que nos enseñan las alucinaciones

Las alucinaciones revelan algo sobre la naturaleza del lenguaje que los humanos rara vez enfrentamos.

Una frase puede ser gramaticalmente perfecta, semánticamente coherente, estilísticamente apropiada y completamente falsa. Las estructuras del lenguaje no requieren verdad. La prosa persuasiva no necesita corresponder a la realidad. La autoridad en el texto es una actuación, no una garantía.

Los humanos usamos el contexto para detectar engaños. Conocemos al hablante. Conocemos su historial. Sabemos qué incentivos podrían llevarlo a engañar. Aplicamos un escepticismo calibrado a la situación.

Las salidas de la IA llegan sin ese contexto. Sin historial con esta consulta concreta. Sin incentivos que podamos modelar. Sin historial de relación. Solo texto que suena exactamente como texto producido por un experto que verificó sus datos.

La carga se desplaza por completo al lector. Cada afirmación pasa a ser sospechosa hasta que se verifique de manera independiente. Cada cita necesita revisión. Cada estadística necesita fuente. La eficiencia de la generación con IA se consume en parte por el costo extra de verificación.

El equilibrio incómodo

Los modelos seguirán mejorando. Las tasas de alucinación seguirán bajando. Los entrenamientos más sofisticados penalizarán la sobreconfianza. Arquitecturas mejores quizá incorporen algún día algo parecido a la cuantificación de incertidumbre.

Pero la dinámica fundamental se mantiene. Estos sistemas predicen patrones. Los patrones no equivalen a la verdad. Algunas predicciones siempre caerán fuera de los límites de los hechos.

Quizá la verdadera lección no sea sobre la IA en absoluto.

Los humanos siempre hemos operado en entornos donde afirmaciones seguras a veces resultan falsas. Desarrollamos instituciones para gestionar esto: revisión por pares, supervisión editorial, fase de pruebas en procesos legales, replicación científica. Confía, pero verifica. Considera la fuente. Comprueba el original.

Las alucinaciones de IA no introducen un problema nuevo. Amplifican uno viejo. Producen afirmaciones plausibles a un volumen y una velocidad que desbordan nuestros procesos tradicionales de verificación.

El abogado que presentó citas falsas no falló por usar IA. Falló porque confió sin verificar. Ese fallo era posible antes de que existiera ChatGPT. Solo era más lento cometerlo.

La verdad incómoda es que las alucinaciones nos obligan a recordar algo que habíamos podido olvidar: que la fluidez no es precisión, que la seguridad no es corrección y que la relación entre palabras y verdad siempre ha sido más frágil de lo que nos gusta admitir.

Cada frase que has leído, incluida esta, podría estar equivocada.

La pregunta nunca fue si confiar. Siempre fue cómo verificar.

Ready For DatBot?

Use Gemini 2.5 Pro, Llama 4, DeepSeek R1, Claude 4, O3 and more in one place, and save time with dynamic prompts and automated workflows.

Top Articles

Come on in, the water's warm

See how much time DatBot.AI can save you