LLM 与提示工程

大语言模型、提示工程和基准测试。

11 篇

2026年3月26日

四种上下文决定AI是在帮你还是在浪费你的时间

我花了一个周末把100MB的PDF塞进智能体，结果表现反而更差了。把输入拆分成四类之后，问题一下子就看清楚了。

2026年3月12日

有人对一个完全由 LLM 生成的 SQLite Rust 重写版本做了性能基准测试。能跑通、能编译、看起来没问题的代码，和真正正确的代码之间，差距竟然达到五个数量级。

2026年3月5日

我逆向分析了 Codex 与 Claude Code 处理上下文溢出的差异，答案涉及 AES 加密、会话交接模式以及 KV 缓存技巧，整个架构远比想象中复杂。

2026年2月25日

最新基准测试数据表明，AGENTS.md 和 CLAUDE.md 这类上下文文件实际上会拖累编程智能体的表现。有时候，懒惰才是最好的工程决策。

2026年2月20日

Google Research 用7个模型验证过的最便宜的LLM性能提升方法。不需要额外训练，不需要提示词设计，复制粘贴就行。

2026年2月18日

LangChain 的 Terminal Bench 结果与 hashline 格式实验揭示了什么。同一个模型排名被逆转，原因只有三个：提示词、工具和中间件。

2026年2月8日

从Nvidia一家独大到多芯片组合战略，从训练为王到推理当道 - 智能体时代彻底改写了AI芯片的竞争版图。

2026年2月8日

当市场对GPU产能过剩发出警报时,OpenAI却宣称需要更多算力。AI行业的飞轮效应正在形成,但真正的瓶颈可能并不在算力本身。

2026年2月8日

Anthropic的Claude Opus 4.5不只是刷新了跑分。当竞争对手在多模态上分散资源时，全押文本、代码和智能体的聚焦策略才是真正的赢家。

2026年2月8日

Poetiq 的递归元系统成为首个在 ARC-AGI-2 上突破 50% 的 AI，这是专为测试真正通用智能设计的基准测试。看一个 6 人团队如何以一半成本击败 Google。

2026年2月8日

更大的上下文窗口并不能让AI更聪明。RLM通过让LLM编写代码从海量文档中选择性读取所需内容，彻底颠覆了传统思路。