← 目录
LLM 与提示工程
大语言模型、提示工程和基准测试。
11 posts
LLM 写了 57 万行 Rust 代码,编译通过,却比 SQLite 慢了 20171 倍
有人对一个完全由 LLM 生成的 SQLite Rust 重写版本做了性能基准测试。能跑通、能编译、看起来没问题的代码,和真正正确的代码之间,差距竟然达到五个数量级。
Codex 如何用不同方式解决上下文压缩问题
我逆向分析了 Codex 与 Claude Code 处理上下文溢出的差异,答案涉及 AES 加密、会话交接模式以及 KV 缓存技巧,整个架构远比想象中复杂。
任务成功率从 6.7% 到 68.3%:10 倍差距来自 Harness,而非模型
LangChain 的 Terminal Bench 结果与 hashline 格式实验揭示了什么。同一个模型排名被逆转,原因只有三个:提示词、工具和中间件。
AI大战胜负已分 - Anthropic Opus 4.5证明'聚焦'才是制胜之道
Anthropic的Claude Opus 4.5不只是刷新了跑分。当竞争对手在多模态上分散资源时,全押文本、代码和智能体的聚焦策略才是真正的赢家。
AI 首次接近人类推理水平 - Poetiq 突破 ARC-AGI-2 50% 大关
Poetiq 的递归元系统成为首个在 ARC-AGI-2 上突破 50% 的 AI,这是专为测试真正通用智能设计的基准测试。看一个 6 人团队如何以一半成本击败 Google。