Cuatro contextos que deciden si la IA te ayuda o te hace perder el tiempo
Pasé un fin de semana metiendo 100 MB de PDFs en un agente. El rendimiento empeoró. Clasificar lo que le estaba dando en cuatro categorías me mostró por qué.
Grandes modelos de lenguaje, ingeniería de prompts y benchmarking.
11 posts
Pasé un fin de semana metiendo 100 MB de PDFs en un agente. El rendimiento empeoró. Clasificar lo que le estaba dando en cuatro categorías me mostró por qué.
Alguien benchmarkeó una reimplementación de SQLite en Rust escrita íntegramente por un LLM. La brecha entre código que parece correcto y código que realmente lo es resultó ser de cinco órdenes de magnitud.
Hice ingeniería inversa de cómo Codex gestiona el desbordamiento de contexto frente a Claude Code: cifrado AES, traspaso de sesión y trucos de KV cache.
Nuevos datos de benchmarks demuestran que los ficheros de contexto AGENTS.md y CLAUDE.md perjudican el rendimiento de los agentes de código. A veces la pereza es la mejor decisión de ingeniería.
El método más barato para mejorar el rendimiento de un LLM, validado por Google Research en 7 modelos. Sin entrenamiento adicional, sin ingeniería de prompts. Solo copiar y pegar.
Lo que demuestran los resultados de Terminal Bench de LangChain y el experimento con el formato hashline. El modelo fue el mismo, y la razón por la que el ranking del leaderboard se invirtió fueron tres factores: el prompt, las herramientas y el middleware.
OpenAI firma con Cerebras, Nvidia absorbe Groq y Google TPU cierra contratos multimillonarios. La era de la inferencia ha roto el monopolio de la GPU.
Mientras el mercado alerta sobre el exceso de GPU, OpenAI insiste: necesitamos más capacidad de cómputo. La verdadera batalla no es de potencia, sino de experiencia de usuario.
El Claude Opus 4.5 de Anthropic no solo batió benchmarks. Demuestra que apostar todo al texto, el código y los agentes mientras la competencia se dispersa es la jugada ganadora.
El metasistema recursivo de Poetiq se ha convertido en el primero en superar el 50% en ARC-AGI-2, el benchmark diseñado para evaluar la inteligencia general real. Así es como un equipo de 6 personas superó a Google con la mitad del coste.
Una ventana de contexto más grande no hace al modelo más inteligente. RLM cambia las reglas dejando que los LLM escriban código para leer selectivamente documentos masivos.