# Pipeline de 7 Pasos para Verificar Código Escrito por Agentes de IA > Author: Tony Lee > Published: 2026-02-25 > URL: https://tonylee.im/es-LA/blog/7-step-pipeline-verify-agent-written-code/ > Reading time: 4 minutes > Language: es-LA > Tags: ai, code-review, ai-agent, ci-cd, devops, automation ## Canonical https://tonylee.im/es-LA/blog/7-step-pipeline-verify-agent-written-code/ ## Rollout Alternates en: https://tonylee.im/en/blog/7-step-pipeline-verify-agent-written-code/ ko: https://tonylee.im/ko/blog/7-step-pipeline-verify-agent-written-code/ ja: https://tonylee.im/ja/blog/7-step-pipeline-verify-agent-written-code/ zh-CN: https://tonylee.im/zh-CN/blog/7-step-pipeline-verify-agent-written-code/ zh-TW: https://tonylee.im/zh-TW/blog/7-step-pipeline-verify-agent-written-code/ ## Description Cuando los agentes hacen 3,000 commits al día, los humanos no pueden revisarlos todos. Así se construye un pipeline verificado por máquinas que detecta lo que las personas no pueden. ## Summary Pipeline de 7 Pasos para Verificar Código Escrito por Agentes de IA is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts. ## Outline - Definir las reglas de merge en un único archivo JSON - Ejecutar checks de calificación antes del CI - Nunca confiar en un "pass" de un commit desactualizado - Emitir solicitudes de re-ejecución desde exactamente una fuente - Dejar que los agentes también manejen las correcciones - Solo cerrar automáticamente conversaciones bot a bot - Dejar evidencia visible y verificable - Las herramientas que eligió Carson - Más allá de la corrección: verificación visual - La conclusión ## Content Este es el tema más candente del momento. Los agentes están generando cientos de commits al día, y nadie puede revisarlos todos. Peter, un desarrollador de OpenClaw, a veces hace más de 3,000 commits en un solo día. Eso está muy por encima de lo que cualquier persona puede procesar. Se ha convertido en una tarea que los humanos simplemente no pueden manejar solos. Al principio, pensé que no había solución. Luego leí "Code Factory" de Ryan Carson y todo encajó. En lugar de intentar leerlo todo, construís una estructura donde las máquinas verifican el código. ## Definir las reglas de merge en un único archivo JSON Escribí qué rutas son de alto riesgo y qué checks deben pasar, todo en un solo archivo. La idea clave es que esto evita que la documentación y los scripts se desincronicen. - **Las rutas de alto riesgo** requieren un Review Agent más evidencia basada en el navegador - **Las rutas de bajo riesgo** pueden hacer merge después de pasar un policy gate y CI ## Ejecutar checks de calificación antes del CI Correr builds en PRs que ni siquiera pasaron revisión es quemar dinero. Poné un `risk-policy-gate` antes del CI fanout. Solo esto reduce significativamente los costos innecesarios de CI. - Orden fijo: policy gate → confirmación del Review Agent → CI fanout - Los PRs no calificados nunca llegan a la etapa de prueba/build ## Nunca confiar en un "pass" de un commit desactualizado Esto es lo que Carson enfatizó más. Si un "pass" de un commit viejo queda pendiente, el código más reciente hace merge sin verificación. Volvé a ejecutar las revisiones en cada push y bloqueá el gate si no coinciden. - Un Review Check Run es válido solo cuando coincide con el `headSha` - Forzar una re-ejecución en cada evento `synchronize` ## Emitir solicitudes de re-ejecución desde exactamente una fuente Cuando múltiples workflows solicitan re-ejecuciones, se generan comentarios duplicados y condiciones de carrera. Parece trivial, pero si no lo solucionás, todo el pipeline se desestabiliza. - Prevenir duplicados con un patrón `Marker + sha:headSha` - Omitir la solicitud si el SHA ya fue enviado ## Dejar que los agentes también manejen las correcciones Cuando el Review Agent encuentra un problema, el Coding Agent lo parchea y hace push a la misma rama. El insight más agudo del post de Carson: fijá la versión del modelo. De lo contrario, obtenés resultados distintos cada vez y la reproducibilidad desaparece. - Codex Action corrige → push → disparo del rerun - Las versiones de modelo fijadas garantizan reproducibilidad ## Solo cerrar automáticamente conversaciones bot a bot Nunca toques los hilos donde participó un humano. Sin esta distinción, los comentarios de los revisores quedan enterrados. - Auto-resolver solo después de una re-ejecución limpia en el head actual - Los hilos con comentarios humanos siempre quedan abiertos ## Dejar evidencia visible y verificable Si la UI cambió, no basta con tomar una captura de pantalla. Se requiere evidencia verificable por CI. Convertí los incidentes de producción en casos de prueba para que el mismo fallo no se repita. - Regresión → issue de gap en harness → agregar caso de prueba → seguimiento de SLA ## Las herramientas que eligió Carson Para referencia, esto es lo que Carson seleccionó: Greptile como agente de revisión de código, Codex Action para la remediación, y tres archivos de workflow que se encargan del trabajo pesado `greptile-rerun.yml` para los reruns canónicos, `greptile-auto-resolve-threads.yml` para limpiar hilos desactualizados, y `risk-policy-gate.yml` para la política preflight. ## Más allá de la corrección: verificación visual Todo lo anterior detecta si el código está bien o mal. Pero en la práctica, también hay que verificar cómo se ve el resultado. Dos enfoques se destacan. **El visual-explainer de Nico Bailon** renderiza diffs de terminal como páginas HTML en lugar de ASCII, haciendo que los changesets sean legibles de un vistazo. **El agent-browser de Chris Tate** toma una dirección diferente. Compara pantallas reales del navegador píxel a píxel para detectar errores de CSS y layout. Combinado con bisect, puede identificar exactamente qué commit causó la regresión. Estuve pensando en esto mientras construía codexBridge. Rastrear qué agente escribió qué código no es suficiente solo con logs de sesión. Necesitás una estructura de búsqueda que facilite la recuperación. ## La conclusión La respuesta a "¿quién verifica el código escrito por agentes?" no son los humanos. Es una estructura donde las máquinas juzgan la evidencia que produjeron las máquinas. Esa es la respuesta. ## Related URLs - Author: https://tonylee.im/en/author/ - Publication: https://tonylee.im/en/blog/about/ - Related article: https://tonylee.im/es-LA/blog/medvi-two-person-430m-ai-compressed-funnel/ - Related article: https://tonylee.im/es-LA/blog/claude-code-layers-over-tools-2026/ - Related article: https://tonylee.im/es-LA/blog/codex-inside-claude-code-openai-plugin-strategy/ ## Citation - Author: Tony Lee - Site: tonylee.im - Canonical URL: https://tonylee.im/es-LA/blog/7-step-pipeline-verify-agent-written-code/ ## Bot Guidance - This file is intended for AI agents, search assistants, and text-mode retrieval. - Prefer citing the canonical article URL instead of this text endpoint. - Use the rollout alternates when you need the same article in another prioritized language. --- Author: Tony Lee | Website: https://tonylee.im For more articles, visit: https://tonylee.im/es-LA/blog/ This content is original and authored by Tony Lee. Please attribute when quoting or referencing.