2026년 2월 18일 3 분 소요

작업 성공률 6.7%에서 68.3%로: 모델이 아니라 하네스가 10배 차이를 만들었다

LangChain의 Terminal Bench 결과와 hashline 포맷 실험이 보여준 것. 같은 모델로 리더보드 순위가 뒤집힌 이유는 프롬프트, 도구, 미들웨어 세 가지였다.

ai ai-agents harness benchmark langchain prompt-engineering

Grok Code Fast의 코딩 벤치마크 성공률이 6.7%였습니다. 모델을 바꾸지 않고 편집 포맷 하나를 교체했더니 68.3%가 됐습니다. 모델 파라미터는 한 비트도 건드리지 않은 결과입니다.

연휴 동안 직접 에이전트를 돌리면서 비슷한 경험을 했습니다. 모델 릴리즈 속도가 숨이 찰 정도지만, 실무에서 성능을 극단적으로 가른 건 모델 자체가 아니었습니다. 모델을 감싸는 하네스, 즉 시스템 프롬프트와 도구 구성과 미들웨어의 조합이었습니다.

같은 모델, 다른 순위

LangChain 팀이 자체 코딩 에이전트로 Terminal Bench 2.0을 돌렸습니다. GPT-5.2-Codex를 그대로 두고 시스템 프롬프트, 도구 구성, 미들웨어만 손봤습니다. 점수가 52.8에서 66.5로 올라갔고, 리더보드 30위 밖에서 5위권으로 진입했습니다. 모델 학습에 들어간 비용은 0원입니다.

핵심은 추론 예산 분배였습니다. xhigh를 모든 태스크에 일괄 적용하면 53.9%에 머물렀지만, 태스크 난이도에 따라 xhigh-high-xhigh로 나누자 66.5%까지 올라갔습니다. 시간 초과로 실패하던 문제가 이 분배 전략으로 해결된 겁니다. 같은 모델, 같은 토큰 예산인데 배분 방식만 달랐습니다.

편집 포맷이 가리고 있던 실력

오픈소스 에이전트 개발자가 hashline이라는 편집 방식을 만들었습니다. 파일을 읽을 때 각 줄에 2~3자 해시 태그를 붙이고, 모델이 수정할 때는 그 태그만 참조하는 구조입니다.

기존 방식에서는 모델이 원본 텍스트를 글자 하나 안 틀리고 재현해야 했습니다. 공백 하나 틀려도 실패합니다. 코딩 에이전트를 직접 써봤다면 “String not found” 에러가 반복되는 고통을 알 겁니다. hashline은 이 문제를 구조적으로 우회합니다.

결과가 극적이었습니다. Grok Code Fast가 6.7%에서 68.3%로 뛰었고, Grok 4 Fast는 출력 토큰이 61% 줄었습니다. GPT-4 Turbo는 포맷 변경만으로 26%에서 59%가 됐고, Gemini 3 Flash는 기존 최고 기록을 5pp 넘겼습니다. 모델 학습 비용 없이 편집 인터페이스 하나를 바꾼 것뿐입니다.

검증 루프가 없으면 첫 답에서 멈춘다

가장 흔한 실패 패턴이 있습니다. 에이전트가 코드를 쓰고, 자기가 쓴 코드를 다시 읽고, 괜찮다고 판단합니다. 테스트를 한 번도 돌리지 않고 거기서 끝납니다.

LangChain 팀은 에이전트 종료 직전에 작업 명세 대비 검증을 강제하는 미들웨어를 넣었습니다. 같은 파일을 반복 편집하는 “둠 루프”도 별도 미들웨어로 감지해서 접근 방식 재고를 유도합니다. 이 두 장치가 없었으면 점수 상승 폭이 훨씬 작았을 겁니다. 에이전트에 디렉토리 구조와 사용 가능한 도구를 사전에 주입하고, 시간 예산 경고로 검증 단계 진입을 유도하는 것도 효과가 있었습니다.

싼 모델일수록 하네스에 민감하다

MiniMax M2.5나 Kimi K2.5는 속도가 빠르고 에이전트 도구 사용에 능합니다. 가격도 대형 모델 대비 훨씬 낮습니다. 대신 기본 지식이 미국 대형 모델에 비해 부족합니다. MiniMax는 애초에 에이전트 특화 모델로 학습한 느낌이 강합니다. 리소스가 부족하니 범용 대신 특화 모델을 택한 것이고, 저렴한 가격 덕에 Openclaw 같은 플랫폼에서 사용량이 가파르게 늘고 있습니다.

hashline 벤치마크 결과를 보면 약한 모델일수록 포맷 변경에 의한 성능 변동 폭이 극단적으로 컸습니다. MiniMax는 hashline 적용 후 성공률이 2배 이상 뛰었습니다. 전체 벤치마크 비용은 약 $300이었습니다.

벤치마크가 곧 실무는 아니다

한 가지 주의할 점이 있습니다. Terminal Bench든 hashline 벤치마크든, 통제된 환경에서 측정한 수치입니다. 실제 프로덕션에서는 코드베이스 규모, 의존성 충돌, 모호한 요구사항 같은 변수가 훨씬 많습니다. 벤치마크에서 66.5%를 찍은 에이전트가 10만 줄짜리 레거시 프로젝트에서도 같은 성능을 낼지는 아직 검증되지 않았습니다. 하네스 최적화가 효과적이라는 건 분명하지만, 벤치마크 순위를 곧바로 실무 성능으로 환산하는 건 위험합니다.

그래도 방향은 명확합니다. 모델 선택보다 하네스 설계가 ROI에서 앞서는 구간이 분명히 존재합니다. 지금 우리가 보는 벤치마크 순위의 상당 부분은 모델 실력이 아니라 하네스 품질입니다.

뉴스레터 구독하기

최신 프로젝트, 아티클, AI와 웹 개발 실험에 대한 소식을 받아보세요.