Bucles de IA en 2026: cómo Ralph, RLM y autoresearch escalan el cómputo en tiempo de inferencia
La repetición simple supera a los pipelines complejos. Un repaso a tres estrategias de bucle que están redefiniendo cómo los agentes de IA aprenden y mejoran en 2026.
La tendencia más contraintuitiva de 2026 en sistemas de IA no viene de arquitecturas más complejas ni de mejores prompts de sistema. Viene de algo mucho más simple: ejecutar el mismo agente en bucle, una y otra vez, hasta que el resultado mejora.
Tres proyectos distintos han llegado a la misma conclusión desde ángulos diferentes: Ralph, RLM y autoresearch. Ninguno de los tres es un framework sofisticado. Los tres son, en esencia, bucles. Y eso es exactamente lo que los hace funcionar.
El principio común: cómputo en tiempo de inferencia
Antes de entrar en cada proyecto, conviene entender el principio que los une.
Durante años, la forma de mejorar el rendimiento de un modelo era preentrenarlo con más datos o ajustarlo con ejemplos de mayor calidad. Costoso, lento, y fuera del alcance de la mayoría. El cambio reciente es que escalar el cómputo en tiempo de inferencia, es decir, dejar que el modelo piense más antes de responder, produce ganancias comparables sin tocar los pesos.
Los tres proyectos explotan esta idea de maneras distintas. El modelo no cambia. Lo que cambia es cuántas veces se le permite intentarlo.
Ralph: contexto fresco en cada iteración
Ralph es el más directo de los tres. Su núcleo es un único comando de shell:
while :; do cat PROMPT.md | claude-code ; done
Nada más. Un bucle infinito que pasa el mismo prompt a Claude Code en cada iteración. Cada vuelta arranca con contexto limpio. No hay estado compartido entre ejecuciones, no hay memoria acumulada que pueda corromper los siguientes pasos.
El truco está en cómo se preservan los aprendizajes entre iteraciones: en el fichero AGENTS.md. Cuando una ejecución produce algo útil, el agente lo escribe ahí. La siguiente iteración lee ese fichero al inicio, incorpora lo aprendido, y construye sobre ello. La memoria existe, pero está externalizada y es legible por humanos.
La primera vez que alguien ejecuta Ralph suele llevarse una sorpresa. En las primeras ejecuciones, el modelo puede repetir trabajo ya hecho, ignorar contexto que parecía obvio o divergir en direcciones poco útiles. En la práctica, entre 3 y 4 de cada 10 iteraciones iniciales consumen tokens sin producir avance real hasta que el prompt en PROMPT.md está suficientemente afinado. Ralph no es mágico desde el primer momento: la calidad del bucle depende directamente de la precisión del prompt de partida.
Una vez afinado, el bucle hace algo que los pipelines de múltiples agentes raramente consiguen: cada iteración puede cuestionar las decisiones de la anterior sin estar contaminada por el razonamiento que las produjo.
RLM: aprendizaje por refuerzo con variables del REPL
RLM toma un camino diferente. En lugar de reiniciar con contexto limpio, mantiene variables de estado en un REPL de Python entre llamadas recursivas al modelo.
El mecanismo central son las autollamadas recursivas: el modelo evalúa su propia salida, genera una señal de recompensa y se invoca a sí mismo con el historial de intentos anteriores. No es un prompt de reflexión ad hoc. Es un loop de refuerzo formal donde el estado persiste entre iteraciones a través de variables Python accesibles en el entorno.
Los resultados publicados son llamativos. GPT-5-mini ejecutado con RLM supera en más del doble a GPT-5 estándar en el benchmark OOLONG. Un modelo más pequeño, más barato, iterando sobre sí mismo, bate a uno más grande ejecutado una sola vez. La diferencia no está en la capacidad del modelo: está en cuántas veces se le permite revisar su propio razonamiento.
La limitación más honesta de RLM es que la función de recompensa tiene que estar bien definida. Si el criterio de mejora es ambiguo o difícil de evaluar automáticamente, el bucle puede optimizar en la dirección equivocada con mucha eficiencia.
autoresearch: entrenamiento real en ventanas de cinco minutos
autoresearch es el más experimental de los tres. En lugar de iterar sobre el comportamiento del modelo, itera sobre sus pesos.
El ciclo funciona así: el agente ejecuta un experimento, evalúa el resultado contra un criterio objetivo, hace commit de los pesos si hay mejora o los resetea si no la hay, y arranca la siguiente iteración. Todo dentro de una ventana de presupuesto de entrenamiento de cinco minutos.
La implicación es significativa: autoresearch convierte cualquier tarea con una métrica evaluable en un problema de mejora continua. No hace falta un dataset curado ni un proceso de fine-tuning manual. El agente genera sus propios ejemplos de entrenamiento ejecutando y evaluando.
La limitación aquí es concreta y no menor. El sistema está diseñado para una sola máquina y la ventana de cinco minutos impone un techo duro a lo que puede aprender en cada ciclo. Experimentos que requieren más cómputo o paralelización real quedan fuera de su alcance por ahora. Es una demostración de concepto convincente, pero escalar más allá de ese entorno controlado requiere trabajo adicional que aún no está resuelto.
Por qué los bucles simples ganan a los pipelines complejos
La pregunta obvia es: ¿por qué no combinar los tres en un pipeline sofisticado?
La respuesta práctica es que los pipelines complejos acumulan puntos de fallo. Cada paso que depende del anterior introduce una superficie donde el error se propaga y se amplifica. Un bucle simple tiene un único punto de decisión: ¿ha mejorado el resultado? Si sí, continúa. Si no, ajusta y reintenta.
La complejidad en los sistemas de IA tiende a esconder los fallos en lugar de resolverlos. Un bucle que falla es transparente: se ve exactamente en qué iteración se rompió y por qué. Un pipeline que falla puede fallar silenciosamente en cualquiera de sus capas.
Los tres proyectos son también radicalmente auditables. El historial de iteraciones de Ralph está en AGENTS.md. Las variables de estado de RLM son código Python legible. Los commits de autoresearch son git. En los tres casos, el proceso de mejora deja rastro.
Lo que esto significa para 2026
La tendencia no es que los modelos grandes estén perdiendo relevancia. Es que la brecha entre ejecutar un modelo una vez y ejecutarlo en un bucle bien diseñado es ahora lo suficientemente grande como para cambiar qué modelo necesitáis en primer lugar.
Si vuestro caso de uso admite iteración, un modelo más pequeño en bucle es frecuentemente la opción más económica y más robusta. Si no admite iteración porque necesitáis una respuesta instantánea o porque no tenéis una métrica de evaluación clara, los bucles no os ayudarán.
La diferencia entre los equipos que están obteniendo resultados con estas estrategias y los que no no es técnica. Es que los primeros han definido qué significa “mejor” de forma lo suficientemente precisa como para que un bucle pueda evaluarlo. Sin eso, cualquier iteración es ruido.
Referencias
- Ralph: github.com/snarktank/ralph
- RLM: github.com/alexzhang13/rlm
- autoresearch: github.com/karpathy/autoresearch
Únete al boletín
Recibe actualizaciones sobre mis últimos proyectos, artículos y experimentos con IA y desarrollo web.