Cuatro Contextos Que Deciden Si la IA Te Ayuda o Te Hace Perder el Tiempo
Pasé un fin de semana metiendo 100MB de PDFs en un agente. El rendimiento empeoró. Mapear lo que le estaba dando en cuatro categorías me mostró exactamente por qué.
Grandes modelos de lenguaje, ingeniería de prompts y benchmarking.
11 posts
Pasé un fin de semana metiendo 100MB de PDFs en un agente. El rendimiento empeoró. Mapear lo que le estaba dando en cuatro categorías me mostró exactamente por qué.
Alguien hizo un benchmark de una reimplementación de SQLite en Rust escrita por un LLM. La brecha entre código que parece correcto y código que es correcto resultó ser de cinco órdenes de magnitud.
Hice ingeniería inversa de cómo Codex maneja el desbordamiento de contexto. La respuesta involucra cifrado AES, patrones de session handover y trucos de KV cache.
Datos recientes de benchmarks muestran que los archivos de contexto AGENTS.md y CLAUDE.md en realidad perjudican el rendimiento de los agentes de código. A veces la flojera es la mejor decisión de ingeniería.
El método más barato para mejorar el rendimiento de un LLM, validado por Google Research en 7 modelos. Sin entrenamiento extra, sin ingeniería de prompts. Solo copiar y pegar.
Lo que demuestran los resultados de Terminal Bench de LangChain y el experimento con el formato hashline. El modelo fue el mismo, y la razón por la que el ranking del leaderboard se invirtió fueron tres factores: el prompt, las herramientas y el middleware.
OpenAI firma con Cerebras, Nvidia absorbe a Groq y Google TPU asegura contratos multimillonarios. Por qué la era de los agentes está redefiniendo la industria de semiconductores.
Mientras el mercado alerta sobre sobrecapacidad de GPU, OpenAI declara: necesitamos más cómputo. El verdadero cuello de botella no está donde crees.
El Claude Opus 4.5 de Anthropic no solo rompió benchmarks. Demuestra que apostar todo al texto, el código y los agentes mientras la competencia se dispersa es la jugada ganadora.
El meta-sistema recursivo de Poetiq se convirtió en el primero en superar el 50% en ARC-AGI-2, la prueba diseñada para evaluar la verdadera inteligencia general. Así es como un equipo de 6 personas superó a Google con la mitad del costo.
Una ventana de contexto más grande no hace al modelo más inteligente. RLM cambia las reglas dejando que los LLM escriban código para leer selectivamente documentos masivos.