Índice
4 min de leitura

Pipeline de 7 Etapas para Verificar Código Escrito por Agentes de IA

Quando agentes fazem 3.000 commits por dia, humanos não conseguem revisar tudo. Veja como construir um pipeline verificado por máquinas que pega o que as pessoas não conseguem.

Esse é o tema mais quente do momento. Agentes estão gerando centenas de commits por dia, e ninguém consegue revisar todos eles.

Peter, um desenvolvedor da OpenClaw, às vezes faz mais de 3.000 commits em um único dia. Isso está muito além do que qualquer humano consegue processar. Tornou-se uma tarefa que os humanos simplesmente não conseguem mais lidar sozinhos.

A princípio, achei que não havia solução. Então li o “Code Factory” de Ryan Carson e o quadro se encaixou. Em vez de tentar ler tudo, você constrói uma estrutura onde máquinas verificam o código.

Defina as regras de merge em um único arquivo JSON

Escreva quais caminhos são de alto risco e quais verificações precisam passar, tudo em um só arquivo. O insight principal é que isso evita que a documentação e os scripts fiquem fora de sincronia.

  • Caminhos de alto risco exigem um Review Agent mais evidências via navegador
  • Caminhos de baixo risco podem ser mergeados após passar pelo policy gate e o CI

Execute verificações de qualificação antes do CI

Rodar builds em PRs que nem passaram pela revisão é jogar dinheiro fora. Coloque um risk-policy-gate na frente do CI fanout. Isso sozinho reduz significativamente os custos desnecessários de CI.

  • Ordem fixa: policy gate → confirmação do Review Agent → CI fanout
  • PRs não qualificados nunca chegam à etapa de testes/build

Nunca confie em um “passou” de um commit desatualizado

Esse foi o ponto que Carson mais enfatizou. Se um “passou” de um commit antigo fica parado, o código mais recente é mergeado sem verificação. Execute as revisões novamente a cada push e bloqueie o gate se elas não coincidirem.

  • Um Review Check Run só é válido quando corresponde ao headSha
  • Force uma reexecução a cada evento synchronize

Emita pedidos de reexecução de exatamente uma fonte

Quando vários workflows solicitam reexecuções, surgem comentários duplicados e race conditions. Parece trivial, mas se você não resolver isso, o pipeline inteiro fica instável.

  • Evite duplicatas com o padrão Marker + sha:headSha
  • Ignore a solicitação se o SHA já foi enviado

Deixe os agentes cuidarem das correções também

Quando o Review Agent encontra um problema, o Coding Agent aplica o patch e faz push para o mesmo branch. O insight mais aguçado do post do Carson: fixe a versão do modelo. Caso contrário, você obtém resultados diferentes a cada vez e a reprodutibilidade vai por água abaixo.

  • Codex Action corrige → push → aciona reexecução
  • Versões de modelo fixadas garantem reprodutibilidade

Feche automaticamente apenas conversas entre bots

Nunca mexa em threads onde um humano participou. Sem essa distinção, comentários de revisores acabam sendo soterrados.

  • Auto-resolva apenas após uma reexecução limpa no head atual
  • Threads com comentários humanos ficam abertas, sempre

Deixe evidências visíveis e verificáveis

Se a UI mudou, não basta tirar um screenshot. Exija evidências verificáveis pelo CI. Transforme incidentes de produção em casos de teste para que a mesma falha nunca se repita.

  • Regressão → issue de gap no harness → adicionar caso de teste → rastreamento de SLA

As escolhas de ferramentas do Carson

Para referência, veja o que Carson selecionou: Greptile como agente de revisão de código, Codex Action para remediação, e três arquivos de workflow que fazem o trabalho pesado greptile-rerun.yml para reexecuções canônicas, greptile-auto-resolve-threads.yml para limpeza de threads desatualizadas, e risk-policy-gate.yml para a política de preflight.

Além da correção: verificação visual

Tudo acima verifica se o código está certo ou errado. Mas na prática, você também precisa verificar como a saída está visualmente.

Duas abordagens se destacam.

O visual-explainer de Nico Bailon renderiza diffs do terminal como páginas HTML em vez de ASCII, tornando os conjuntos de mudanças imediatamente legíveis de relance.

O agent-browser de Chris Tate segue uma direção diferente. Ele compara telas reais do navegador pixel a pixel para detectar quebras de CSS e layout. Combinado com bisect, consegue identificar exatamente qual commit causou a regressão.

Tenho pensado nisso enquanto construo o codexBridge. Rastrear qual agente escreveu qual código não é suficiente apenas com logs de sessão. Você precisa de uma estrutura de busca que facilite a recuperação das informações.

Conclusão

A resposta para “quem verifica o código escrito por agentes” não são os humanos. É uma estrutura onde máquinas julgam as evidências que máquinas produziram. Essa é a resposta.

Assine a newsletter

Receba atualizações sobre meus projetos mais recentes, artigos e experimentos com IA e desenvolvimento web.