LLM 與提示工程

大型語言模型、提示工程和基準測試。

11 篇

2026年3月26日

決定AI幫你還是害你的四種情境脈絡

花了一整個週末把100MB的PDF塞進Agent，結果效能反而變差。把輸入資料拆成四類之後，問題才終於看清楚。

2026年3月12日

有人對 LLM 用 Rust 重新實作的 SQLite 做了效能測試。看起來正確和真正正確之間的差距，竟然達到五個數量級。

2026年3月5日

我逆向工程了 Codex 與 Claude Code 處理 context 溢出的方式差異。Codex 透過伺服器端 AES 加密摘要與 session 交接模式保留關鍵資訊，再搭配 KV cache 優化大幅降低延遲與成本。每個設計決策都直接影響長時間開發 session 的品質與可靠性。

2026年2月25日

最新的基準測試數據顯示，AGENTS.md 和 CLAUDE.md 這類 context 檔案其實會讓 coding agent 的表現變差。有時候，懶，就是最好的工程決策。

2026年2月20日

Google Research 用7個模型驗證過的最便宜LLM效能提升方法。不需要額外訓練，不需要提示詞設計，複製貼上就好。

2026年2月18日

LangChain 的 Terminal Bench 結果與 hashline 格式實驗揭示了什麼。同一個模型排名被逆轉，原因只有三個：提示詞、工具和中介軟體。

2026年2月8日

OpenAI 簽下 Cerebras 百億美元大單、Nvidia 收購 Groq、Google TPU 拿下 Anthropic 與 Meta 合約。當推論取代訓練成為主戰場，晶片產業的遊戲規則正在被徹底改寫。

2026年2月8日

當市場對 GPU 產能過剩拉警報時,OpenAI 卻透過官方管道宣告:我們需要更多算力。這場算力軍備競賽的真正瓶頸,其實藏在意想不到的地方。

2026年2月8日

Anthropic的Claude Opus 4.5不只是刷新了跑分。當競爭對手在多模態上分散資源時，全押文字、程式碼和代理的聚焦策略才是真正的贏家。

2026年2月8日

Poetiq 的遞迴元系統成為第一個在 ARC-AGI-2 超越 50% 的系統,這是專為測試真正通用智慧設計的基準測試。看六人團隊如何以一半成本超越 Google 的表現。

2026年2月8日

更大的上下文視窗並不能讓AI更聰明。RLM透過讓LLM撰寫程式碼，從海量文件中選擇性讀取所需內容，徹底翻轉了傳統思維。