LLM y prompting

Grandes modelos de lenguaje, ingeniería de prompts y benchmarking.

11 posts

26 mar 2026

Cuatro Contextos Que Deciden Si la IA Te Ayuda o Te Hace Perder el Tiempo

Pasé un fin de semana metiendo 100MB de PDFs en un agente. El rendimiento empeoró. Mapear lo que le estaba dando en cuatro categorías me mostró exactamente por qué.

12 mar 2026

570,000 líneas de código generado por un LLM compilaron sin errores. Era 20,171 veces más lento que SQLite.

Alguien hizo un benchmark de una reimplementación de SQLite en Rust escrita por un LLM. La brecha entre código que parece correcto y código que es correcto resultó ser de cinco órdenes de magnitud.

5 mar 2026

Cómo Codex resuelve el problema de compactación

Hice ingeniería inversa de cómo Codex maneja el desbordamiento de contexto. La respuesta involucra cifrado AES, patrones de session handover y trucos de KV cache.

25 feb 2026

Era Demasiado Flojo Para Escribir CLAUDE.md — Y Resulta Que Fue la Decisión Correcta

Datos recientes de benchmarks muestran que los archivos de contexto AGENTS.md y CLAUDE.md en realidad perjudican el rendimiento de los agentes de código. A veces la flojera es la mejor decisión de ingeniería.

20 feb 2026

Pegué el prompt dos veces y la precisión cambió

El método más barato para mejorar el rendimiento de un LLM, validado por Google Research en 7 modelos. Sin entrenamiento extra, sin ingeniería de prompts. Solo copiar y pegar.

18 feb 2026

De 6.7% a 68.3% de tasa de éxito: el harness, no el modelo, marcó la diferencia de 10x

Lo que demuestran los resultados de Terminal Bench de LangChain y el experimento con el formato hashline. El modelo fue el mismo, y la razón por la que el ranking del leaderboard se invirtió fueron tres factores: el prompt, las herramientas y el middleware.

8 feb 2026

LLM y prompting

Cuatro Contextos Que Deciden Si la IA Te Ayuda o Te Hace Perder el Tiempo

570,000 líneas de código generado por un LLM compilaron sin errores. Era 20,171 veces más lento que SQLite.

Cómo Codex resuelve el problema de compactación

Era Demasiado Flojo Para Escribir CLAUDE.md — Y Resulta Que Fue la Decisión Correcta

Pegué el prompt dos veces y la precisión cambió

De 6.7% a 68.3% de tasa de éxito: el harness, no el modelo, marcó la diferencia de 10x

El mapa de chips IA se redibujó por completo - Los agentes cambiaron todo en 2026

La Paradoja del Flywheel de IA: La Apuesta de OpenAI por Más Cómputo en Medio de Temores de Sobrecapacidad

La guerra de la IA se definió por el enfoque - Lo que el Opus 4.5 de Anthropic demuestra sobre estrategia

La IA se acerca al razonamiento humano por primera vez - Poetiq supera el 50% en ARC-AGI-2

Hacer que un LLM escriba código para leer 10 millones de tokens - Cómo funciona RLM