LLM y prompting

Grandes modelos de lenguaje, ingeniería de prompts y benchmarking.

11 posts

26 mar 2026

Cuatro contextos que deciden si la IA te ayuda o te hace perder el tiempo

Pasé un fin de semana metiendo 100 MB de PDFs en un agente. El rendimiento empeoró. Clasificar lo que le estaba dando en cuatro categorías me mostró por qué.

12 mar 2026

570.000 líneas de código generado por un LLM. Compilaba perfecto. Era 20.171 veces más lento que SQLite.

Alguien benchmarkeó una reimplementación de SQLite en Rust escrita íntegramente por un LLM. La brecha entre código que parece correcto y código que realmente lo es resultó ser de cinco órdenes de magnitud.

5 mar 2026

Cómo Codex resuelve el problema de compactación

Hice ingeniería inversa de cómo Codex gestiona el desbordamiento de contexto frente a Claude Code: cifrado AES, traspaso de sesión y trucos de KV cache.

25 feb 2026

Era demasiado vago para escribir el CLAUDE.md — y resulta que acerté

Nuevos datos de benchmarks demuestran que los ficheros de contexto AGENTS.md y CLAUDE.md perjudican el rendimiento de los agentes de código. A veces la pereza es la mejor decisión de ingeniería.

20 feb 2026

Pegué el prompt dos veces y la precisión cambió

El método más barato para mejorar el rendimiento de un LLM, validado por Google Research en 7 modelos. Sin entrenamiento adicional, sin ingeniería de prompts. Solo copiar y pegar.

18 feb 2026

De 6,7% a 68,3% de tasa de éxito: el harness, no el modelo, marcó la diferencia de 10x

Lo que demuestran los resultados de Terminal Bench de LangChain y el experimento con el formato hashline. El modelo fue el mismo, y la razón por la que el ranking del leaderboard se invirtió fueron tres factores: el prompt, las herramientas y el middleware.

8 feb 2026

LLM y prompting

Cuatro contextos que deciden si la IA te ayuda o te hace perder el tiempo

570.000 líneas de código generado por un LLM. Compilaba perfecto. Era 20.171 veces más lento que SQLite.

Cómo Codex resuelve el problema de compactación

Era demasiado vago para escribir el CLAUDE.md — y resulta que acerté

Pegué el prompt dos veces y la precisión cambió

De 6,7% a 68,3% de tasa de éxito: el harness, no el modelo, marcó la diferencia de 10x

El mapa de los chips de IA se ha redibujado - Los agentes lo cambiaron todo en 2026

La paradoja del volante de IA: la apuesta de OpenAI por más capacidad de cómputo en plena alarma por exceso de capacidad

La guerra de la IA se decidió por el enfoque - Lo que el Opus 4.5 de Anthropic demuestra sobre estrategia

La IA se acerca al razonamiento humano por primera vez - Poetiq supera el 50% en ARC-AGI-2

Hacer que un LLM escriba código para leer 10 millones de tokens - Cómo funciona RLM