目录
1 分钟阅读 2026

2026年的Claude Code:层级比工具更重要

我在同一周装了三个主流Claude Code扩展,生产力几乎没有变化。问题从来不在于选哪些工具。

同一周里,我装了gstack、Superpowers和Compound Engineering。三个口碑不错的Claude Code扩展,各自都有自己的拥趸。我的预期是生产力叠加提升。实际得到的是功能重叠、覆盖盲区,以及一种挥之不去的感觉——我在攒工具,却没有一套评估框架。

把三个工具并排跑了几天之后,我发现了真正的问题所在。不是我不会选工具,而是我看不见层级。

层级在实践中是什么样的

AI编程已经把人的角色从写代码转变为协调智能体。协调需要一套心智模型,让我最终想通的那个模型分三层:决策层、流程层、知识层。我看过的每一个工具在某一层表现出色,在其他层表现平平。一旦看透这一点,功能重叠和覆盖盲区都说得通了。

决策层

gstack的/plan-ceo-review从产品视角审视工作,/plan-eng-review从架构视角审视工作。两者都在你写第一行代码之前运行。目的是在早期干掉坏想法。

我原本以为编码阶段才是瓶颈,实际上不是。最大的时间黑洞是在根本不该启动的功能上耗时间。用gstack的门控跑了两周之后,我注意到质量差距与其说来自写出更好的代码,不如说来自少写了不必要的代码。据报道Garry Tan用这套配置在60天内交付了60万行代码。/qa命令会打开真实浏览器,像用户一样点击整个应用,能抓出单元测试完全漏掉的问题。

gstack的短板:没有跨会话的记忆。每次审查都从零开始。

流程层

Superpowers把工作组织成头脑风暴、计划、执行、审查这四个循环。12万个GitHub星标是实至名归的。从”直接让AI去做”过渡到可重复的工作流,对输出一致性的提升是立竿见影的。

我以为这就够了,实际上不够。工作流在单个会话内运行得很流畅,但第二天我开新会话的那一刻,前一天学到的所有东西都消失了。系统内置了基于子智能体的规范审查和代码质量审查,运行效果也不错。但整套系统没有任何部分记录昨天发生了什么,以便为今天提供参考。

知识层

Compound Engineering的/ce:compound命令在你完成任务后运行。五个子智能体并行激活:追溯对话上下文、提取解决方案、检查是否有重复文档、生成预防策略、对结果分类归档。所有内容落入docs/solutions/目录。

开始使用一周之后,我遇到了一个和之前修过的问题类似的报错。在规划阶段,系统找到了之前的记录并把解决方案浮现出来。原本可能要耗几小时的调试,几分钟就解决了。/ce:review至少并行运行六个独立审查者。/ce:plan在提出任何方案之前会先检查git日志和项目历史。

如果说Anthropic的进展文件是工人之间的交班记录,那Compound Engineering的docs/solutions/就是全组每天都在翻阅的操作手册。

找到你的空白层

重点不是你应该装这三个特定的工具。重点是一旦你能看见这三个层级,就能评估任何工具,或者自己搭一套。

我把三个工具并排跑了一周,才意识到冗余集中在流程层,而知识层已经空置了好几个月。识别出这个空白,比这些工具里的任何单项功能都有价值。

审视一下你自己的工作流。有没有一道决策门可以在坏想法变成代码之前把它拦住?有没有一套每次都以相同方式运行的明确流程?有没有一套知识系统能记住你上周学到的东西?先找到空白层,再去填补它,哪怕这意味着自己写一个SKILL.md文件,而不是安装别人的框架。

看见层级的能力,会比这个生态里的任何具体工具都活得更久。

订阅通讯

获取关于我最新项目、文章以及 AI 和 Web 开发实验的更新。