अनुक्रमणिका
4 मिनट पढ़ने में

CLAUDE.md लिखने में आलस किया — और यही सही निकला

नए benchmark data से पता चला कि AGENTS.md और CLAUDE.md context files coding agent की performance असल में घटा देती हैं। कभी-कभी आलस ही सबसे बड़ी engineering होती है।

जब भी timeline पर CLAUDE.md या AGENTS.md को लेकर कोई post आती, मैं मन में सोचता — “बाद में देखूंगा” — और scroll करके आगे बढ़ जाता। लोगों को elaborate AGENTS.md configurations बनाते देख थोड़ी बेचैनी होती थी। कहीं मैं पीछे तो नहीं रह रहा?

फिर हाल ही में कुछ benchmark data सामने आया, और वो बेचैनी एक झटके में गायब हो गई। पता चला कि मेरा आलस दरअसल एक काफी समझदार engineering decision था।

LLM से बनाई गई context files चीज़ें और बिगाड़ देती हैं

“Agent को ज़्यादा context दो तो बेहतर काम करेगा ना?” — यही मैं भी सोचता था।

जब researchers ने SWE-bench Lite पर LLM से auto-generate की गई context को test किया, तो success rate 0.5% गिर गई। AgentBench पर और 2% की गिरावट आई। हाथ से सावधानी से लिखी गई files में भी बस 4% का सुधार दिखा। मैं इसे “context overfitting” कहूंगा।

  • SWE-bench Lite पर LLM-generated context से success rate में 0.5% की गिरावट
  • AgentBench पर अतिरिक्त 2% की गिरावट
  • Inference costs में 20–23% की बढ़ोतरी
  • सकारात्मक असर (2.7%) केवल उन repos में जहाँ documentation बिल्कुल नहीं थी

Gloaguen et al. के paper “Evaluating AGENTS.md” ने इसे confirm किया: context files अक्सर task success rate को घटा देती हैं — बजाय इसके कि कोई repository context न दिया जाए।

Agent instructions इतनी अच्छी तरह follow करता है — और यही असली समस्या है

दिक्कत यह नहीं कि agent आपकी बात नहीं मानता। दिक्कत उल्टी है।

Context file में एक लाइन लिख दो कि uv use करो, और agent उन situations में भी uv install और run करेगा जहाँ इसकी कोई ज़रूरत नहीं — हर बार extra steps जोड़ता जाएगा।

GPT-5.2 के साथ, context files मौजूद होने पर inference tokens में 14–22% की बढ़ोतरी हुई। Agent instructions follow करने में इतना व्यस्त था कि असली काम — problem solve करना — पीछे छूट गया।

  • Unnecessary pytest runs बढ़ गए
  • grep और read tool का इस्तेमाल ज़रूरत से कहीं ज़्यादा फैल गया

”X मत करो” — और agent X के बारे में और ज़्यादा सोचने लगता है

एक पुरानी post में मैंने बताया था कि SKILL.md का body content किस timing पर पढ़ा जाता है — AGENTS.md के साथ भी कुछ ऐसी ही कहानी है।

यह system prompt और user prompt के बीच “developer message” layer में बैठता है। यह position agent की reasoning को बुरी तरह constraint कर देती है।

“इस file को मत छुओ” लिख दो — और agent उस file के बारे में एक बार अतिरिक्त सोचेगा। Researchers ने इसे “pink elephant effect” कहा। किसी से कहो “गुलाबी हाथी के बारे में मत सोचो” — और वही पहले दिमाग में आएगा।

  • Priority order: provider instructions → system prompt → AGENTS.md → user prompt
  • हाथ से manage की गई files code changes के साथ तालमेल नहीं रख पातीं, इसलिए जानकारी जल्दी stale हो जाती है

लिखनी ही हो तो, रखो बेहद छोटी

अगर repo में सच में zero documentation है, तो context files थोड़ी मदद कर सकती हैं — data में उन cases के लिए 2.7% का positive effect दिखा। लेकिन अगर लिख रहे हो, तो volume कम से कम रखो।

एक लाइन — repo-specific build tool के लिए। एक लाइन — उस pattern को ठीक करने के लिए जिसे agent बार-बार गलत करता है।

“कुछ structurally अजीब लगे तो तुरंत बताओ” जैसा hack जोड़ दो, और agent एक codebase vulnerability reporter बन जाता है। इससे आगे, code की structure को ही intuitive बनाना — यह context files लिखने से कहीं ज़्यादा effective है।

  • Unit tests और type checks को मज़बूत करना context files से बेहतर काम करता है
  • अगर file locations confusing हैं, files को move करो — उनके बारे में directions लिखने की ज़रूरत नहीं

अच्छी context files लिखना ज़रूरी नहीं कि skill की निशानी हो। Context files की structure को समझकर उनके इर्द-गिर्द meta-systems design करना — यह skill है। और कभी-कभी “आलसी” होना ही सबसे अच्छा engineering decision होता है।

न्यूज़लेटर से जुड़ें

मेरे नवीनतम प्रोजेक्ट्स, लेखों और AI तथा वेब डेवलपमेंट प्रयोगों के बारे में अपडेट प्राप्त करें।