ai-fundamentals
9 min read
View as Markdown

Tokens y ventanas de contexto: por qué la IA olvida cosas

Qué son realmente los tokens, por qué las ventanas de contexto limitan la memoria de la IA y por qué tu asistente de IA pierde el hilo de las conversaciones. Una mirada a la mecánica detrás del olvido en la IA.

Robert Soares

Por ahí del mensaje quince, el asistente de IA deja de reconocer tu proyecto. Se lo recuerdas. Se disculpa. Dos mensajes después, lo vuelve a olvidar.

Esto no es un fallo. Es arquitectura.

Las palabras no son lo que la IA lee

Abre un libro. Tú ves palabras. Un modelo de IA ve algo distinto: fragmentos llamados tokens.

Un token puede ser una palabra completa, pero a menudo no lo es. La palabra “hamburger” se divide en tres partes. “Ham.” “Bur.” “Ger.” Cada parte es un token separado que el modelo procesa de forma independiente, aunque tu cerebro vea una sola palabra.

Esta división ocurre mediante un proceso llamado tokenización, y distintos modelos usan enfoques diferentes. El algoritmo concreto importa más de lo que la mayoría cree. Como observó Simon Willison en su análisis de los tokenizadores de GPT: “Many of the quirks and limitations of LLMs can be traced back to details of the tokenizer used.”

Las palabras comunes se mantienen intactas. Las raras se parten. ¿Jerga técnica, nombres, texto no inglés? Troceado en fragmentos.

Aquí es donde se pone interesante. La propia palabra “Tokenization” se divide en dos tokens: token 30,642 y token 1,634. La IA no la ve como una unidad. Ve dos piezas que aprendieron a ir juntas durante el entrenamiento, igual que tú aprendiste que “ham,” “bur,” y “ger” forman un sándwich.

También importa el idioma. El inglés se tokeniza de forma eficiente porque estos sistemas se entrenaron sobre todo con texto en inglés. ¿Español, chino, árabe? Todos generan más tokens por palabra. La frase “Cómo estás” usa 5 tokens para solo 10 caracteres, lo que significa que quienes no hablan inglés llegan al límite antes, diciendo menos.

La memoria rara del tokenizador

Los tokenizadores recuerdan cosas de sus datos de entrenamiento de maneras extrañas.

Willison señaló un sesgo interesante: “The English bias is obvious here. ’ man’ gets a lower token ID of 582, because it’s an English word.” Los ID de token más bajos suelen corresponder a tokens más comunes. El modelo, en esencia, tiene favoritos.

Luego están los tokens defectuosos. Durante el entrenamiento del tokenizador, ciertos patrones aparecieron con tanta frecuencia que se convirtieron en tokens propios, incluso cuando no debería haber pasado. Un ejemplo es ” davidjl” (con el espacio inicial), que se volvió su propio token porque ese nombre de usuario apareció cientos de miles de veces en los datos de entrenamiento de GPT-2. El tokenizador antiguo codificaba “SolidGoldMagikarp” como un único token por accidentes estadísticos similares. El tokenizador nuevo lo divide en cinco: “Solid,” “Gold,” “Mag,” “ik,” “arp.”

No son simples curiosidades. Revelan que la tokenización no es una capa de traducción neutral. Arrastra los sesgos y accidentes de sus datos de entrenamiento a cada conversación que tienes con una IA.

Ventanas de contexto: los muros invisibles

Todo modelo de IA tiene una ventana de contexto. Es el número máximo de tokens que puede contener a la vez. Tus mensajes, las respuestas de la IA, cualquier documento que subas, el prompt de sistema que corre en segundo plano: todo tiene que caber dentro de esa ventana.

Las cifras han crecido de forma drástica. GPT-4 Turbo ofrece 128,000 tokens. Claude te da 200,000 tokens. Gemini 2.5 Pro llega a 1 millón. Llama 4 Scout de Meta afirma 10 millones.

Un millón de tokens suena a infinito. Son, más o menos, 750,000 palabras. Varias novelas. Una base de código completa.

Entonces, ¿por qué tu IA olvida lo que le dijiste hace veinte minutos?

Ventanas más grandes, los mismos problemas

En Hacker News, un usuario llamado jokethrowaway fue al centro del problema: “Context window size is not the limiting factor. How well will it be able to use that information is the problem.”

Tener espacio no es lo mismo que usarlo bien.

Una investigación de Stanford mostró lo que llamaron el efecto “lost in the middle”. Los modelos de IA muestran una curva de atención en forma de U. Atienden bien a la información del inicio del contexto. Atienden bien a la información del final. ¿La mitad? Se desvanece.

En experimentos, el rendimiento de GPT-3.5-Turbo cayó más de un 20% cuando la información clave se colocó en medio de la entrada en lugar de al principio o al final. A veces el modelo rindió peor que si no tuviera contexto en absoluto. Tener la información y usarla son cosas distintas.

Esto no es un fallo de software que vayan a corregir el próximo martes. Surge del mecanismo de atención que hace que los transformadores funcionen desde el principio, el proceso matemático que permite al modelo entender qué partes de la entrada se relacionan con qué otras partes. Ese mecanismo favorece ciertas posiciones de forma natural. La arquitectura tiene su propia opinión sobre lo que importa.

La brecha entre las promesas y la realidad

Una investigación de Chroma examinó qué ocurre cuando los modelos se acercan a sus límites anunciados. El hallazgo: “most models break much earlier than advertised. A model claiming 200k tokens typically becomes unreliable around 130k, with sudden performance drops rather than gradual degradation.”

Los modelos no se desvanecen de forma elegante. Funcionan, y luego dejan de funcionar. El precipicio es abrupto.

En los foros para desarrolladores de OpenAI, usuarios han documentado esta experiencia una y otra vez. Un usuario llamado rajeev.a.j.madari describió la frustración: “ChatGPT struggles to remember the entirety of our chat. Most times, it appears as though the system only acknowledges my most recent input, causing confusion.”

Otro usuario, Joel_Barger, señaló consecuencias prácticas: “In a coding situation context is important. It’ll lose or change the name of namespaces or class methods arbitrarily.”

No son casos aislados. Esta es la experiencia normal en conversaciones largas con modelos de IA.

Escala el cómputo, arde el dinero

Hacer más grandes las ventanas de contexto es caro. Un usuario llamado gdiamos explicó la economía en Hacker News: “the compute still scales at best linearly with the input size. So a context size of 100k requires 100x more compute than a prompt size of 1k.”

Pero en realidad es peor que lineal. El mecanismo de atención escala de forma cuadrática con la longitud de la secuencia. Doblas el contexto, cuadruplicas el cómputo. Por eso las ventanas de contexto más largas cuestan más por token. Por eso los planes gratuitos tienen límites más cortos. Por eso incluso tu plan empresarial termina cortándote.

Diversas técnicas mitigan esto. Patrones de atención dispersa omiten conexiones entre tokens lejanos. Enfoques de ventana deslizante procesan fragmentos por separado. Innovaciones de arquitectura comprimen el contexto antiguo en resúmenes. Pero cada solución intercambia algo: velocidad, precisión o la capacidad de conectar ideas a larga distancia.

Por qué las funciones de “memoria” no resuelven esto

Los asistentes de IA modernos anuncian funciones de memoria. ChatGPT recordará que prefieres respuestas concisas. Claude puede almacenar datos sobre tus proyectos entre conversaciones.

Esto no es lo mismo que contexto.

Estos sistemas de memoria almacenan datos concretos en una base de datos aparte. Cuando empiezas una conversación nueva, la IA recupera memorias relevantes y las inserta en la ventana de contexto. Es recuperación, no recuerdo real. La diferencia importa porque la recuperación es selectiva. El sistema adivina qué datos guardados importan para esta conversación. A veces se equivoca. Y aun cuando acierta, esas memorias recuperadas siguen compitiendo por espacio dentro de la misma ventana de contexto limitada que todo lo demás.

Como señaló segmondy en Hacker News: “infinite context window is not AGI enough, memory is not substitute for planning and reasoning.”

Guardar datos no es lo mismo que entenderlos. Recordar que mencionaste una fecha límite el martes pasado no es lo mismo que seguir cómo esa fecha interactúa con las otras tres restricciones que mencionaste este martes.

La posición es estrategia

Si entiendes cómo funcionan las ventanas de contexto, puedes trabajar con ellas en lugar de pelearte con ellas.

Pon la información crítica primero. El modelo presta atención al comienzo. No hagas una larga introducción y dejes las restricciones importantes para el párrafo seis. Empieza por lo que importa.

Repítete de forma estratégica. Si algo era crucial en el mensaje tres y ahora ya vas por el treinta, dilo otra vez. El modelo no se va a ofender. Probablemente no lo recuerda de todos modos.

Mantén las conversaciones enfocadas. Una ventana de contexto compartida entre quince temas distintos es peor que tres conversaciones separadas sobre cinco temas cada una. La especificidad le gana a la dispersión.

Resume de forma periódica. Cuando una conversación se alargue, pídele a la IA que resuma los puntos clave, y luego inicia una conversación nueva con ese resumen como primer mensaje. Pierdes matiz, pero ganas claridad.

El futuro extraño

Las ventanas de contexto siguen creciendo. La comunidad de investigación sigue encontrando formas de ampliar los límites. Pasamos de 4,000 tokens a 10 millones en unos pocos años. Esa trayectoria parece que va a continuar.

Pero más grande no es lo mismo que mejor, y los desafíos fundamentales siguen siendo de arquitectura. Como observó fsndz en Hacker News: “Context windows are becoming larger and larger, and I anticipate more research focusing on this trend.” La investigación existe porque el problema existe.

Hay algo casi poético en construir sistemas que olvidan. La memoria humana también es imperfecta. Perdemos la parte media de las clases. Recordamos comienzos y finales. Reconstruimos en vez de recordar. La IA no imita la memoria humana por diseño. Llega a limitaciones parecidas por mecanismos completamente distintos. Arquitecturas diferentes, mismo resultado: las cosas se pierden.

Le hablas a la IA de tu proyecto. Responde de forma útil. Sigues la conversación. En algún punto, cerca del mensaje quince, notas que esa respuesta útil se desvió. La IA sigue respondiendo. Sigue segura de sí misma. Simplemente olvidó de qué estabas hablando en realidad.

No es malicia. Son matemáticas.

Y hasta que cambien las matemáticas, cada conversación con una IA lleva una cuenta regresiva invisible.

Ready For DatBot?

Use Gemini 2.5 Pro, Llama 4, DeepSeek R1, Claude 4, O3 and more in one place, and save time with dynamic prompts and automated workflows.

Top Articles

Come on in, the water's warm

See how much time DatBot.AI can save you