Manus 被 Meta 以三億美元收購,與 LangChain 聯手揭示 AI Agent 開發核心原則
Manus 在與 LangChain 的聯合演講中,分享了打造生產級 AI Agent 的血淚教訓 - 從 Context Rot 到評估方法的全面反思。
Meta 以三億美元收購 Manus 的消息鋪天蓋地,但真正值得關注的,是 Manus 在與 LangChain 的聯合演講中揭露的內容。這場演講赤裸裸地攤開了打造「真正能用」的 AI Agent 背後的核心原則 - 並且劃出了一條清楚的界線:哪些是新創公司常犯的錯,哪些是真正能交出成果的策略。
Context Rot 的矛盾
Agent 需要工具。工具越多,能力越強。但問題來了:Agent 用的工具越多,Context 就越膨脹 - 而效能會因此直接下滑。
Manus 把這種現象稱為 Context Rot。這是 Agent 開發最核心的矛盾:讓你的 Agent 更強大的東西,同時也讓它變得更笨。
解方是 Context Engineering - 只給模型下一步需要的資訊,不多不少。
Manus 具體列出了六種技術:
- Offload(卸載) - 把佔大量 Token 的資料移到檔案系統,而不是留在 Context 裡
- Reduce(精簡) - 積極移除過時的資訊
- Compact(壓縮) - 可逆地壓縮可還原的資料(例如:移除檔案內容但保留路徑)
- Summarize(摘要) - 不可逆地壓縮資訊,但一定透過結構化的 Schema 來做
- Retrieve(檢索) - 透過搜尋按需提供資訊
- Isolate(隔離) - 使用擁有獨立 Context 的子代理
關鍵洞察:Context 管理不是「有做更好」的最佳化,而是決定你的 Agent 能規模化運作、還是會被自身重量壓垮的核心架構決策。
找到 Product-Market Fit 之前,別急著 Fine-Tune
Manus 點名的最常見新創錯誤之一:在找到 Product-Market Fit 之前就去訓練專用模型。
邏輯很直接。通用模型搭配強大的 Context Engineering,能實現更快的迭代週期。太早做 Fine-Tuning,等於把自己鎖死在尚未驗證的使用者行為假設上。
更尖銳的觀點:你改進模型的速度,決定了產品創新速度的天花板。Fine-Tuning 會拖慢這個循環,Context Engineering 則能讓它保持快速。
Fine-Tuning 留到產品被驗證可行之後再做。在那之前,它就是最昂貴的過早最佳化。
多代理模式:兩種截然不同的方法
Manus 歸納出兩種基本的多代理模式,各自適合不同類型的工作:
溝通模式(Communicating Pattern) - 子代理從一張白紙開始。主代理發送聚焦的請求,子代理獨立處理後回傳結果。最適合低 Context 需求、可平行化的任務,例如程式碼搜尋或資料檢索。
共享記憶體模式(Shared Memory Pattern) - 子代理共享完整的對話歷史,但使用不同的提示詞和工具集。最適合複雜、相互依賴的任務,例如深度研究 - 每一步都建立在前面的發現之上。
選擇哪種模式,不是能力問題,而是 Context 需求問題。如果子任務是自成一體的,用溝通模式。如果它需要完整的上下文,用共享記憶體模式。選錯的後果是:要嘛浪費 Token 在不必要的 Context 上,要嘛讓 Agent 缺乏它所需要的資訊。
三層式行動空間,防止工具過載
工具太多會讓模型搞混。Manus 的解法是分層架構,限制模型在任何時刻看到的工具數量:
原子層(Atomic Layer) - 10 到 20 個核心能力:讀取、寫入、Shell、瀏覽器。這些永遠可用,模型直接呼叫。
沙箱工具(Sandbox Utilities) - 預裝的 CLI 工具,例如轉換器、Linter、格式化工具。模型透過 Shell 來叫用它們,而不是把它們當作專用工具。
套件與 API(Packages and APIs) - 帶有預先驗證 API Key 的 Python 腳本。負責處理外部服務互動,而不需要把完整的 API 介面暴露給模型。
這種分層讓模型的決策空間維持在可管理的範圍。它不用從 200 個工具裡做選擇,而是從 15 個核心動作中挑選,其他都透過 Shell 去執行。結果就是更可靠的工具選擇,以及更少的混淆或幻覺式工具呼叫。
重新思考評估指標
GAIA 之類的公開基準測試無法反映真實使用者的偏好。Manus 的立場很直接:黃金標準是使用者對已完成 Session 的評分,1 到 5 分。
三個評估原則浮現出來:
- 執行測試優於問答測試 - Agent 能不能在沙箱中實際完成任務?這比它能不能回答關於任務的問題重要得多。
- 主觀品質需要人工審查 - 視覺精緻度、語氣、整體連貫性無法自動評分。需要一個人實際去看輸出結果。
- 基準測試分數是必要但不充分的 - 它們證明了基本能力,但不能證明產品是好的。
核心教訓
過度工程是最大的敵人。
最大的效能提升不是來自增加複雜度,而是來自移除複雜度。不要讓模型的工作變得更難,讓它變得更簡單。
這或許就是 Meta 願意為 Manus 付出三億美元的原因。不是因為華麗的功能,而是因為一套聚焦於本質的設計哲學:剝除不需要的東西、毫不留情地管理 Context、打造讓模型能專注於任務而不是淹沒在自身狀態中的系統。
在生產環境中能用的 Agent,不是擁有最多能力的那個,而是讓每一項能力都發揮效用的那個。
訂閱電子報
獲取關於我最新專案、文章以及 AI 和 Web 開發實驗的更新。