LLM 與提示工程

大型語言模型、提示工程同基準測試。

11 篇

2026年3月26日

四種脈絡，決定 AI 幫到你還是浪費你時間

我花了整個週末將逾百MB的PDF塞進代理模型，結果輸出反而愈來愈差。把餵給模型的東西分成四類之後，問題才終於看清楚。

2026年3月12日

有人對 LLM 用 Rust 重寫的 SQLite 進行基準測試。結果揭示了「看起來正確的程式碼」與「真正正確的程式碼」之間，可以相差五個數量級。

2026年3月5日

我逆向工程咗 Codex 嘅 context overflow 處理方式。背後涉及 AES 加密、session 交接模式，同埋 KV cache 優化。

2026年2月25日

最新 benchmark 數據顯示，AGENTS.md 同 CLAUDE.md 呢啲 context 檔案其實會拖低 coding agent 嘅表現。有時候，懶惰先係最正確嘅工程決策。

2026年2月20日

Google Research 用7個模型驗證嘅最平LLM效能提升方法。唔使額外訓練，唔使提示詞設計，複製貼上就得。

2026年2月18日

LangChain 的 Terminal Bench 結果與 hashline 格式實驗所揭示的現象。同一模型排行榜名次逆轉的原因，在於提示詞、工具與中間件三個環節。

2026年2月8日

Nvidia唔再係唯一答案。OpenAI簽咗Cerebras、Nvidia收購Groq、Google TPU鎖定Anthropic - 智能體時代令推理芯片需求爆發，半導體格局徹底改變。

2026年2月8日

當市場憂慮 GPU 產能過剩,OpenAI 反而高調表示需要更多算力。真正樽頸唔係運算能力,而係用戶體驗 - 點樣令人用得切實際需求。

2026年2月8日

Anthropic嘅Claude Opus 4.5唔止係刷新跑分咁簡單。當競爭對手喺多模態度分散資源嘅時候，全押文字、代碼同代理嘅聚焦策略先至係真正嘅贏家。

2026年2月8日

Poetiq 的遞歸元系統成為首個在 ARC-AGI-2 上突破 50% 的系統,這是專為測試真正通用智能而設計的基準測試。一個 6 人團隊如何以一半成本跑贏 Google。

2026年2月8日

更大嘅上下文窗口唔會令AI更聰明。RLM透過畀LLM寫程式碼，從海量文件中選擇性讀取所需內容，徹底顛覆咗傳統思路。