작업 성공률 6.7%에서 68.3%로: 모델이 아니라 하네스가 10배 차이를 만들었다
LangChain의 Terminal Bench 결과와 hashline 포맷 실험이 보여준 것. 같은 모델로 리더보드 순위가 뒤집힌 이유는 프롬프트, 도구, 미들웨어 세 가지였다.
2 posts
LangChain의 Terminal Bench 결과와 hashline 포맷 실험이 보여준 것. 같은 모델로 리더보드 순위가 뒤집힌 이유는 프롬프트, 도구, 미들웨어 세 가지였다.
Manus가 LangChain과의 공동 발표에서 프로덕션 AI 에이전트를 만들며 얻은 핵심 교훈을 공유했습니다. 컨텍스트 부패부터 평가 체계 재설계까지, 실전에서 검증된 원칙들입니다.