AI 시대에 결과를 가르는 네 가지 컨텍스트
주말 내내 100MB짜리 PDF를 에이전트에 넣었더니 성능이 오히려 나빠졌습니다. 그 이유를 네 가지 컨텍스트 유형으로 분류하며 찾아냈습니다.
대규모 언어 모델, 프롬프트 엔지니어링, 벤치마킹.
11 개
주말 내내 100MB짜리 PDF를 에이전트에 넣었더니 성능이 오히려 나빠졌습니다. 그 이유를 네 가지 컨텍스트 유형으로 분류하며 찾아냈습니다.
LLM이 작성한 Rust SQLite 재구현체를 벤치마킹한 결과를 살펴봅니다. 올바르게 보이는 코드와 실제로 올바른 코드 사이의 간극이 다섯 자릿수 차이로 나타났습니다.
Claude Code와 비교해 Codex가 컨텍스트 오버플로를 어떻게 처리하는지 역분석했습니다. AES 암호화, 세션 핸드오버 패턴, KV 캐시 활용 방식이 핵심입니다.
최신 벤치마크 데이터에 따르면 AGENTS.md와 CLAUDE.md 같은 컨텍스트 파일이 코딩 에이전트 성능을 오히려 떨어뜨린다. 가끔은 귀찮아서 안 한 게 최선의 엔지니어링 결정이 된다.
Google Research가 7개 모델로 검증한 가장 저렴한 LLM 성능 개선법. 추가 학습도 프롬프트 설계도 필요 없다. 복붙이면 된다.
LangChain의 Terminal Bench 결과와 hashline 포맷 실험이 보여준 것. 같은 모델로 리더보드 순위가 뒤집힌 이유는 프롬프트, 도구, 미들웨어 세 가지였다.
OpenAI의 Cerebras $100억 딜, Nvidia의 Groq 인수, Google TPU 대규모 계약까지. GPU 중심 학습에서 추론 우선 실리콘으로의 구조적 전환이 시작됐습니다.
시장이 GPU 과잉을 경고하는 지금, OpenAI가 '더 많은 컴퓨팅이 필요하다'고 선언했습니다. 진짜 승자는 컴퓨팅 파워가 아니라 사용자 경험의 간극을 좁히는 자가 될 것입니다.
Anthropic의 Claude Opus 4.5는 단순한 벤치마크 갱신이 아닙니다. 경쟁사들이 멀티모달에 분산할 때 텍스트·코드·에이전트에 올인한 집중 전략의 승리입니다.
Poetiq의 재귀적 메타 시스템이 진정한 범용 지능을 테스트하는 벤치마크 ARC-AGI-2에서 최초로 50%를 돌파했다. 6명의 팀이 절반의 비용으로 Google을 능가한 방법을 알아본다.
컨텍스트 윈도우가 커진다고 AI가 똑똑해지지 않습니다. RLM은 LLM이 직접 코드를 작성해 방대한 문서에서 필요한 부분만 선택적으로 읽는 완전히 새로운 접근법입니다.