26 de marzo de 2026 5 min de lectura

Cuatro contextos que deciden si la IA te ayuda o te hace perder el tiempo

Pasé un fin de semana metiendo 100 MB de PDFs en un agente. El rendimiento empeoró. Clasificar lo que le estaba dando en cuatro categorías me mostró por qué.

Pasé un fin de semana entero procesando PDFs de más de 100 MB. La hipótesis era sencilla: cuanto más conocimiento le das al agente, mejor será el resultado. Estaba equivocado.

Después de días de frustración, dibujé un esquema que dividía todo lo que le había estado pasando en cuatro categorías. El problema se volvió evidente de inmediato. El volumen nunca fue el obstáculo. El tipo de contexto, sí.

Lo que el modelo ya sabe lo perjudica si lo repites

Los LLM terminan su entrenamiento con billones de tokens. Cuando pegas la misma información en un prompt, esos tokens redundantes ocupan espacio en la ventana de contexto y dispersan la atención lejos de lo que realmente importa. La información que añadiste para ayudar al modelo acaba limitándolo.

Lo comprobé directamente. Meter sintaxis de Python y patrones básicos de React en los prompts hacía que el modelo entrara en conflicto con su propio entrenamiento, produciendo resultados más extraños que sin ningún contexto adicional. Acumula suficiente información redundante y obtienes lo que podría llamarse podredumbre de contexto: las respuestas se degradan de forma progresiva. La intuición de que “más input equivale a output más inteligente” es la trampa más peligrosa del prompt engineering.

El contexto de entorno es el único que el modelo no puede inferir

La estructura de directorios del proyecto, las convenciones del equipo, los esquemas de API internas. Nada de esto existe en los datos de entrenamiento, y el modelo no tiene forma de razonarlo sin que se lo proporciones explícitamente. Esta categoría es donde el contexto realmente justifica su presencia.

Las herramientas para capturar contexto de entorno evolucionan más rápido que cualquier otra área en este momento. Los esfuerzos de OCR para documentos ocurren simultáneamente en varios continentes: Upstage y Korea Deep Learning a nivel local, Mistral en Francia, Sarvam en India, Baidu, Zhipu, DeepSeek e incluso Xiaohongshu en China. La voz, que antes era el medio más volátil, también se está capturando. Herramientas de notas de reuniones como Granola preservan conversaciones que antes desaparecían en el momento en que terminaba una llamada. Typeless, Wispr Flow y Willow convierten pensamientos en texto en tiempo real. La actividad del navegador, el input visual ambiental, cosas en las que apenas te fijas ya se están convirtiendo en contexto estructurado.

El cambio es claro: la información que antes se evaporaba se está transformando en algo que los modelos pueden usar.

La brecha entre saber y ejecutar es donde la gente se diferencia

El contexto de entorno le dice al modelo qué existe. Las habilidades le indican cómo hacer las cosas, en qué orden y con qué nivel de calidad. Cualquiera puede almacenar y verificar conocimiento. Pero en cuanto añades ejecución estructurada, definiendo secuencias basadas en razonamiento, la brecha entre personas empieza a abrirse.

Una buena definición de habilidad no es una lista de instrucciones simples. Contiene seis elementos: disciplina, una definición de “hecho”, descomposición de tareas, métodos para corregir defectos, antipatrones y adaptación al entorno.

Meter todas las tareas en una sola habilidad garantiza el fracaso. Descomponer el trabajo en habilidades granulares y componerlas a través de archivos de flujo de trabajo como AGENTS.md es lo que permite a los agentes moverse con flexibilidad. Incluso notas aproximadas a nivel de pista pueden convertirse en habilidades de inmediato con herramientas como /skill-creator.

La perspectiva de diseño importa más aquí. Guardar archivos intermedios, analizar antes de ejecutar, definir criterios de verificación: estas decisiones determinan si un agente tiene éxito o falla. Preferir scripts sobre MCP es una lección que aprendí mediante uso en producción, no desde la teoría.

He de reconocer que afinar el diseño de habilidades me llevó mucho más tiempo del esperado. Mis primeros intentos eran demasiado amplios (el agente ignoraba la mitad de las instrucciones) o demasiado rígidos (no podía adaptarse a variaciones leves en la tarea). El punto de equilibrio, lo suficientemente específico para guiar pero lo suficientemente flexible para adaptarse, requirió iteración real.

La intención y el gusto explican por qué configuraciones idénticas producen resultados distintos

Tras más de diez años observando cómo trabaja la gente, un patrón aparece una y otra vez. Recopilar y verificar conocimiento es algo que hace todo el mundo. El conocimiento general es algo que la IA ya posee en mayor volumen que cualquier humano. Las habilidades se acumulan con la repetición. Sin embargo, personas que usan exactamente el mismo modelo siguen produciendo resultados radicalmente diferentes.

Fíjate en el output del vibe coding. El trabajo de algunas personas genera reacciones de “¿cómo lo has hecho?”. El de otras pasa desapercibido. La diferencia está entre alguien que acepta la estética por defecto de la IA y alguien que persigue una visión concreta. Captar información rápidamente y filtrarla a través de una intención particular son dos capacidades completamente distintas. La segunda exige considerar la perspectiva del destinatario y el contexto completo que lo rodea, un tipo de pensamiento de orden superior.

El modelo no sabe lo que quieres. Tienes que ser capaz de expresarlo. Por eso el gusto pesa más que el conocimiento en la era de la IA.