2026年3月3日 1 分钟阅读 Year 2026

Claude Code 子代理让主会话节省 25 倍 Token

AI 并没有变笨，是主会话超载了。用子代理保持上下文精简，让高质量对话持续超过一小时。

快速摘要

AI 并没有变笨，是主会话超载了。用子代理保持上下文精简，让高质量对话持续超过一小时。

我一直听到同一种抱怨：“用 Claude Code 的时间越长，它就越来越差。”

原因几乎都一样。所有操作——读文件、搜索、探索代码——全都堆在同一个主会话里。随着 token 不断累积，上下文窗口越来越臃肿，AI 能记住开头和结尾的内容，却开始遗漏埋在中间的信息。如果会话依赖简单的消息拼接而非压缩机制，最早的内容甚至会被直接丢弃。

子代理改变了这个局面。把工作分发给独立的代理进程处理，最终落入主会话的 token 可以降到原来的二十五分之一。以前用 30 分钟就开始退化的会话，现在能以同样的质量维持超过一小时。

把这个方法分享给团队之后，那些抱怨就消失了。

主会话里装了什么，决定了回答的质量

直接在主会话里读三个文件，你就往上下文里塞了 15,000 个以上的原始代码 token。把同样的工作交给三个子代理，每个代理只返回一份 200 token 的摘要。合计：主会话里只有 600 个 token。

上下文窗口越大，AI 处理开头和结尾的能力越强——但处理中间信息的能力却越差。斯坦福的研究人员称之为”迷失在中间”（Lost in the Middle）：放在长上下文中间位置的信息，检索准确率会下降 30% 以上。

保持主会话精简，从结构上消除了这个问题。一个以前 30 分钟后就开始质量下滑的同事，现在能流畅运行超过一小时的会话而没有任何问题。

内置的代理类型有四种。

Explore 是只读模式，运行在 Haiku 上——速度快、成本低。Plan 和 General 继承主会话的模型：如果你用的是 Sonnet，它们就用 Sonnet；如果是 Opus，就用 Opus。Bash 专门用于终端命令。

问题就在这里：很多人用 General 来做只需要读取的任务——代码探索、结构分析、模式搜索。很少有人意识到，对于这些任务，Explore 能产出几乎相同的结果，成本却只是一小部分。

独立的任务可以并发执行。一个提示词，比如”分别调查认证系统、数据库结构和 API 路由”，就能同时启动三个 Explore 代理。

我教了一个新团队成员这个方法，他理解整个代码库所花的时间缩短了一半。唯一的规则：永远不要让并行代理修改同一个文件——那会产生冲突。

按下 Ctrl+B，当前代理就移到后台运行。跑完整的测试套件的同时，你可以立即开始构建下一个功能。不用这个的话，你只能盯着进度条干等。

后台代理无法提问，也无法使用 MCP 工具。它们只有文件读写权限——但这对于跑测试和做代码审查已经足够了。

在 .claude/agents/reviewer.md 创建一个文件，加上包含名称、描述和模型的 YAML 前置元数据——Claude Code 会自动识别，并将匹配的任务路由给它。

这种文件格式遵循 agentskills.io 标准，意味着你创建一次的代理，无需修改就能在 Cursor、Copilot、Codex 和 Gemini CLI 上使用。

运行 npx ai-agent-skills install code-review，可以立即下载 47 个预构建的、经过验证的代理。

你的 AI 并没有失去能力。是你的主会话积累了太多上下文，导致它无法清晰地看到全貌。子代理不是为了用更多 AI——而是为了保护 AI 真正思考的那块空间。

获取关于我最新项目、文章以及 AI 和 Web 开发实验的更新。