← 目錄
LLM 與提示工程
大型語言模型、提示工程同基準測試。
11 posts
LLM 寫了 57 萬行 Rust 程式,編譯成功,比 SQLite 慢 20,171 倍
有人對 LLM 用 Rust 重寫的 SQLite 進行基準測試。結果揭示了「看起來正確的程式碼」與「真正正確的程式碼」之間,可以相差五個數量級。
Codex 點樣用加密摘要解決 Compaction 問題
我逆向工程咗 Codex 嘅 context overflow 處理方式。背後涉及 AES 加密、session 交接模式,同埋 KV cache 優化。
我懶得寫 CLAUDE.md——結果反而做對了
最新 benchmark 數據顯示,AGENTS.md 同 CLAUDE.md 呢啲 context 檔案其實會拖低 coding agent 嘅表現。有時候,懶惰先係最正確嘅工程決策。
任務成功率從 6.7% 升至 68.3%:讓性能相差 10 倍的是 harness,不是模型
LangChain 的 Terminal Bench 結果與 hashline 格式實驗所揭示的現象。同一模型排行榜名次逆轉的原因,在於提示詞、工具與中間件三個環節。
AI芯片版圖大洗牌 - 2026年智能體改寫咗半導體遊戲規則
Nvidia唔再係唯一答案。OpenAI簽咗Cerebras、Nvidia收購Groq、Google TPU鎖定Anthropic - 智能體時代令推理芯片需求爆發,半導體格局徹底改變。
AI 飛輪悖論:市場擔心 GPU 過剩,OpenAI 卻話要更多算力
當市場憂慮 GPU 產能過剩,OpenAI 反而高調表示需要更多算力。真正樽頸唔係運算能力,而係用戶體驗 - 點樣令人用得切實際需求。
AI大戰勝負已分 - Anthropic Opus 4.5證明「聚焦」先至係致勝之道
Anthropic嘅Claude Opus 4.5唔止係刷新跑分咁簡單。當競爭對手喺多模態度分散資源嘅時候,全押文字、代碼同代理嘅聚焦策略先至係真正嘅贏家。
AI 首次接近人類推理能力 - Poetiq 突破 ARC-AGI-2 五成關口
Poetiq 的遞歸元系統成為首個在 ARC-AGI-2 上突破 50% 的系統,這是專為測試真正通用智能而設計的基準測試。一個 6 人團隊如何以一半成本跑贏 Google。