# 6.7% से 68.3% सफलता दर: 10x का फ़र्क मॉडल ने नहीं, harness ने बनाया

> Author: Tony Lee
> Published: 2026-02-18
> URL: https://tonylee.im/hi/blog/ai-agent-harness-not-model-10x-performance/
> Reading time: 4 minutes
> Language: hi
> Tags: ai, ai-agents, harness, benchmark, langchain, prompt-engineering

## Canonical

https://tonylee.im/hi/blog/ai-agent-harness-not-model-10x-performance/

## Rollout Alternates

en: https://tonylee.im/en/blog/ai-agent-harness-not-model-10x-performance/
ko: https://tonylee.im/ko/blog/ai-agent-harness-not-model-10x-performance/
ja: https://tonylee.im/ja/blog/ai-agent-harness-not-model-10x-performance/
zh-CN: https://tonylee.im/zh-CN/blog/ai-agent-harness-not-model-10x-performance/
zh-TW: https://tonylee.im/zh-TW/blog/ai-agent-harness-not-model-10x-performance/

## Description

LangChain के Terminal Bench नतीजों और hashline फ़ॉर्मेट प्रयोग ने क्या दिखाया। एक ही मॉडल से leaderboard रैंकिंग क्यों पलट गई: prompt, टूल्स और middleware तीन निर्णायक कारण थे।

## Summary

6.7% से 68.3% सफलता दर: 10x का फ़र्क मॉडल ने नहीं, harness ने बनाया is part of Tony Lee's ongoing coverage of AI agents, developer tools, startup strategy, and AI industry shifts.

## Outline

- एक ही मॉडल, अलग-अलग रैंकिंग
- एडिटिंग फ़ॉर्मेट के पीछे छिपी असली काबिलियत
- validation loop नहीं तो एजेंट पहले जवाब पर ही रुक जाता है
- सस्ते मॉडल harness के प्रति ज़्यादा संवेदनशील होते हैं
- benchmark व्यावहारिक काम नहीं है

## Content

Grok Code Fast की एक कोडिंग बेंचमार्क में सफलता दर 6.7% थी। मॉडल बदले बिना, सिर्फ एक एडिटिंग फ़ॉर्मेट बदला और यह 68.3% हो गई। मॉडल के एक भी पैरामीटर को छुआ नहीं गया।

छुट्टियों के दौरान मैंने खुद एजेंट चलाए और ऐसा ही अनुभव हुआ। मॉडल रिलीज़ की रफ़्तार साँस रोकने वाली है, लेकिन व्यवहार में प्रदर्शन को चरम रूप से अलग करने वाली चीज़ मॉडल खुद नहीं था। वह था मॉडल को लपेटने वाला harness यानी system prompt, टूल कॉन्फ़िगरेशन और middleware का संयोजन।

## एक ही मॉडल, अलग-अलग रैंकिंग

LangChain टीम ने अपने खुद के कोडिंग एजेंट से Terminal Bench 2.0 चलाया। GPT-5.2-Codex को वैसा ही रखते हुए सिर्फ system prompt, टूल कॉन्फ़िगरेशन और middleware बदला। स्कोर 52.8 से 66.5 हो गया और leaderboard में top 30 से बाहर से top 5 में प्रवेश हो गया। मॉडल ट्रेनिंग पर खर्च: शून्य।

मुख्य बात थी reasoning budget का वितरण। सभी tasks पर xhigh एकसमान लगाने से परिणाम 53.9% पर ही रहा, लेकिन task की कठिनाई के अनुसार xhigh-high-xhigh में बाँटने से 66.5% तक पहुँचा। timeout से फ़ेल होने वाली समस्याएँ इसी वितरण रणनीति से हल हुईं। एक ही मॉडल, एक ही token budget, बस allocation अलग था।

## एडिटिंग फ़ॉर्मेट के पीछे छिपी असली काबिलियत

एक open source एजेंट डेवलपर ने hashline नाम का एडिटिंग तरीका बनाया। फ़ाइल पढ़ते समय हर लाइन को 2-3 अक्षरों का hash tag मिलता है, और संशोधन के समय मॉडल सिर्फ उस tag को संदर्भित करता है।

पुराने तरीके में मॉडल को एक भी अक्षर गलत किए बिना मूल टेक्स्ट को फिर से लिखना होता था। एक भी space गलत होने पर fail हो जाता। जिसने कोडिंग एजेंट खुद इस्तेमाल किया हो, वह बार-बार आने वाली "String not found" error की तकलीफ़ जानता है। hashline इस समस्या को संरचनात्मक रूप से दरकिनार करता है।

नतीजे नाटकीय थे। Grok Code Fast 6.7% से 68.3% पर पहुँचा और Grok 4 Fast के output tokens 61% कम हो गए। GPT-4 Turbo सिर्फ फ़ॉर्मेट बदलने से 26% से 59% हो गया और Gemini 3 Flash ने अपना पिछला सर्वोच्च रिकॉर्ड 5 प्रतिशत अंक से पार किया। मॉडल ट्रेनिंग पर कोई खर्च नहीं, बस एक एडिटिंग इंटरफ़ेस बदला।

## validation loop नहीं तो एजेंट पहले जवाब पर ही रुक जाता है

एक बेहद आम failure pattern है। एजेंट कोड लिखता है, लिखा हुआ फिर से पढ़ता है, ठीक लगता है और वहीं रुक जाता है। एक भी test run किए बिना।

LangChain टीम ने एजेंट के बंद होने से ठीक पहले task specification के विरुद्ध validation ज़बरदस्ती करने वाला middleware डाला। एक ही फ़ाइल को बार-बार edit करने वाले "doom loop" को भी एक अलग middleware से detect कर approach पर पुनर्विचार के लिए प्रेरित किया जाता है। इन दोनों उपायों के बिना score में बढ़ोतरी काफ़ी कम होती। एजेंट में directory structure और उपलब्ध tools पहले से inject करना और time budget warning से validation phase में प्रवेश के लिए प्रेरित करना भी प्रभावशाली रहा।

## सस्ते मॉडल harness के प्रति ज़्यादा संवेदनशील होते हैं

MiniMax M2.5 और Kimi K2.5 तेज़ हैं और एजेंट टूल उपयोग में माहिर हैं। कीमत भी बड़े मॉडलों की तुलना में काफ़ी कम है। बदले में, बुनियादी ज्ञान अमेरिकी बड़े मॉडलों से कम है। MiniMax को शुरू से ही एजेंट-विशेष मॉडल के रूप में train किया गया महसूस होता है। कम संसाधनों के कारण सामान्य की जगह विशेष मॉडल चुना गया, और सस्ती कीमत की बदौलत Openclaw जैसे platforms पर इसका उपयोग तेज़ी से बढ़ रहा है।

hashline benchmark के नतीजे देखें तो कमज़ोर मॉडलों में फ़ॉर्मेट बदलाव से performance में उतार-चढ़ाव बेहद चरम था। MiniMax की hashline लागू होने के बाद सफलता दर दोगुने से भी ज़्यादा हो गई। पूरे benchmark की लागत करीब $300 थी।

## benchmark व्यावहारिक काम नहीं है

एक बात ध्यान देने वाली है। Terminal Bench हो या hashline benchmark, ये नियंत्रित वातावरण में मापे गए आँकड़े हैं। असली production में codebase का आकार, dependency conflicts, अस्पष्ट आवश्यकताएँ जैसे कहीं ज़्यादा variables होते हैं। benchmark में 66.5% score करने वाला एजेंट 1 लाख लाइन के legacy project में भी वही प्रदर्शन देगा, यह अभी तक सत्यापित नहीं है। harness optimization प्रभावी है यह स्पष्ट है, लेकिन benchmark रैंकिंग को सीधे व्यावहारिक प्रदर्शन में बदलना जोखिम भरा है।

फिर भी दिशा स्पष्ट है। एक ऐसा दायरा ज़रूर है जहाँ मॉडल चुनाव की जगह harness design ROI में आगे रहता है। आज जो benchmark रैंकिंग हम देख रहे हैं उसका बड़ा हिस्सा मॉडल की काबिलियत नहीं बल्कि harness की गुणवत्ता है।

## Related URLs

- Author: https://tonylee.im/en/author/
- Publication: https://tonylee.im/en/blog/about/
- Related article: https://tonylee.im/hi/blog/eight-hooks-that-guarantee-ai-agent-reliability/
- Related article: https://tonylee.im/hi/blog/medvi-two-person-430m-ai-compressed-funnel/
- Related article: https://tonylee.im/hi/blog/claude-code-layers-over-tools-2026/

## Citation

- Author: Tony Lee
- Site: tonylee.im
- Canonical URL: https://tonylee.im/hi/blog/ai-agent-harness-not-model-10x-performance/

## Bot Guidance

- This file is intended for AI agents, search assistants, and text-mode retrieval.
- Prefer citing the canonical article URL instead of this text endpoint.
- Use the rollout alternates when you need the same article in another prioritized language.

---

Author: Tony Lee | Website: https://tonylee.im
For more articles, visit: https://tonylee.im/hi/blog/
This content is original and authored by Tony Lee. Please attribute when quoting or referencing.