LLM 與提示工程
大型語言模型、提示工程和基準測試。
11 posts
57 萬行 LLM 程式碼編譯成功,速度卻比 SQLite 慢了 20,171 倍
有人對 LLM 用 Rust 重新實作的 SQLite 做了效能測試。看起來正確和真正正確之間的差距,竟然達到五個數量級。
Codex 如何用不同方式解決 Compaction 問題
我逆向工程了 Codex 與 Claude Code 處理 context 溢出的方式差異。Codex 透過伺服器端 AES 加密摘要與 session 交接模式保留關鍵資訊,再搭配 KV cache 優化大幅降低延遲與成本。每個設計決策都直接影響長時間開發 session 的品質與可靠性。
我懶得寫 CLAUDE.md,結果這反而是對的
最新的基準測試數據顯示,AGENTS.md 和 CLAUDE.md 這類 context 檔案其實會讓 coding agent 的表現變差。有時候,懶,就是最好的工程決策。
任務成功率從 6.7% 到 68.3%:10 倍差距來自 Harness,而非模型
LangChain 的 Terminal Bench 結果與 hashline 格式實驗揭示了什麼。同一個模型排名被逆轉,原因只有三個:提示詞、工具和中介軟體。
AI 晶片版圖重新洗牌 - 智能體改變了 2026 年的半導體戰局
OpenAI 簽下 Cerebras 百億美元大單、Nvidia 收購 Groq、Google TPU 拿下 Anthropic 與 Meta 合約。當推論取代訓練成為主戰場,晶片產業的遊戲規則正在被徹底改寫。
AI 飛輪的矛盾:當市場擔心產能過剩,OpenAI 卻說需要更多算力
當市場對 GPU 產能過剩拉警報時,OpenAI 卻透過官方管道宣告:我們需要更多算力。這場算力軍備競賽的真正瓶頸,其實藏在意想不到的地方。
AI大戰勝負已分 - Anthropic Opus 4.5證明「聚焦」才是致勝之道
Anthropic的Claude Opus 4.5不只是刷新了跑分。當競爭對手在多模態上分散資源時,全押文字、程式碼和代理的聚焦策略才是真正的贏家。
AI 首次接近人類推理能力 - Poetiq 在 ARC-AGI-2 突破 50% 門檻
Poetiq 的遞迴元系統成為第一個在 ARC-AGI-2 超越 50% 的系統,這是專為測試真正通用智慧設計的基準測試。看六人團隊如何以一半成本超越 Google 的表現。