목록으로
4 분 소요 2026

AI 시대에 결과를 가르는 네 가지 컨텍스트

주말 내내 100MB짜리 PDF를 에이전트에 넣었더니 성능이 오히려 나빠졌습니다. 그 이유를 네 가지 컨텍스트 유형으로 분류하며 찾아냈습니다.

주말 내내 100MB가 넘는 PDF를 파싱했습니다. 가정은 단순했습니다. 에이전트에 더 많은 정보를 넣을수록 더 좋은 결과가 나온다는 것이었습니다. 틀렸습니다.

며칠간 답답한 결과를 반복하다가, 제가 넣고 있던 것들을 네 가지 범주로 나눈 그래프를 그렸습니다. 문제가 바로 보였습니다. 양이 문제가 아니었습니다. 컨텍스트의 종류가 문제였습니다.

모델이 이미 아는 것을 넣으면 오히려 나빠집니다

LLM은 수조 개의 토큰으로 학습을 마칩니다. 같은 정보를 프롬프트에 다시 붙여 넣으면, 그 중복 토큰이 컨텍스트 윈도우를 차지하고 실제로 중요한 부분에 대한 어텐션을 희석시킵니다. 모델을 돕기 위해 추가한 정보가 오히려 모델을 제약하는 상황이 됩니다.

직접 테스트해봤습니다. Python 문법이나 기본 React 패턴을 프롬프트에 집어넣자, 모델이 자체 학습 데이터와 충돌을 일으켜 컨텍스트를 전혀 넣지 않았을 때보다 더 이상한 결과물을 냈습니다. 이런 중복 정보가 쌓이면 ‘컨텍스트 부패’가 발생합니다. 모델의 응답이 점점 저하되는 현상입니다. “입력이 많을수록 결과가 좋아진다”는 직관이 프롬프트 엔지니어링에서 가장 위험한 함정입니다.

환경 컨텍스트만이 모델이 추론할 수 없는 영역입니다

프로젝트 디렉토리 구조, 팀 컨벤션, 내부 API 스키마. 이런 정보는 학습 데이터에 존재하지 않으며, 명시적으로 제공하지 않으면 모델이 추론할 방법이 전혀 없습니다. 컨텍스트가 실질적인 가치를 발휘하는 영역이 바로 여기입니다.

환경 컨텍스트를 포착하는 도구 생태계는 현재 어떤 영역보다 빠르게 진화하고 있습니다. 문서 OCR 분야에서는 국내의 업스테이지와 Korea Deep Learning, 프랑스의 Mistral, 인도의 Sarvam, 중국의 Baidu, 智谱, DeepSeek, 심지어 샤오홍수까지 동시다발적으로 작업이 이루어지고 있습니다. 예전에는 가장 휘발성이 강했던 음성 데이터도 포착되고 있습니다. Granola 같은 회의 노트 도구는 통화가 끝나면 사라지던 대화를 보존합니다. Typeless, Wispr Flow, Willow는 생각을 실시간으로 텍스트로 변환합니다. 브라우저 활동, 주변 시각 입력, 무심코 훑어보는 것들까지 이미 구조화된 컨텍스트로 변환되고 있습니다.

흐름은 분명합니다. 사라지던 정보들이 모델이 쓸 수 있는 형태로 변환되고 있습니다.

알고 있는 것과 실행하는 것 사이의 간극

환경 컨텍스트는 모델에게 무엇이 존재하는지를 알려줍니다. 스킬은 어떻게 해야 하는지, 어떤 순서로, 어떤 수준으로 해야 하는지를 알려줍니다. 지식을 저장하고 검증하는 것은 누구나 할 수 있습니다. 하지만 추론에 기반한 실행 순서를 구조화하기 시작하면, 사람들 사이의 격차가 벌어지기 시작합니다.

좋은 스킬 정의는 단순한 지시 목록이 아닙니다. 여섯 가지 요소를 담고 있습니다. 규율, ‘완료’의 정의, 작업 분해, 결함 패치 방법, 안티패턴, 환경 적응이 그것입니다. 모든 작업을 하나의 스킬에 우겨넣으면 반드시 실패합니다. 작업을 세분화된 스킬로 나누고 AGENTS.md 같은 워크플로우 파일로 구성하는 것이 에이전트가 유연하게 움직일 수 있게 하는 방법입니다. /skill-creator 같은 도구를 쓰면 거친 힌트 수준의 메모도 스킬로 즉시 변환할 수 있습니다.

여기서 설계 관점이 가장 중요합니다. 중간 파일을 저장하는 것, 실행 전에 분석하는 것, 검증 기준을 정의하는 것. 이런 결정이 에이전트의 성공과 실패를 가릅니다. MCP보다 스크립트를 선호하게 된 것은 실제 운영을 통해 얻은 교훈입니다. 스킬은 사용할수록 날카로워집니다. 에이전트에게 비교 예시를 주면 자체 실행을 최적화합니다.

솔직히 말하면, 스킬 설계를 제대로 하는 데 예상보다 훨씬 오래 걸렸습니다. 초기 시도들은 너무 광범위하거나, 너무 경직되어 있었습니다. 전자는 에이전트가 지시의 절반을 무시했고, 후자는 작업의 사소한 변형에 적응하지 못했습니다. 충분히 구체적이면서도 유연하게 적응할 수 있는 균형점을 찾는 데는 실제 반복 작업이 필요했습니다.

동일한 환경에서 다른 결과가 나오는 이유

10년 넘게 사람들이 일하는 것을 지켜보며 반복해서 발견한 패턴이 있습니다. 지식을 수집하고 검증하는 것은 누구나 합니다. 일반 지식은 이제 AI가 어떤 사람보다 더 많이 보유하고 있습니다. 스킬은 반복을 통해 쌓입니다. 그런데 동일한 모델을 쓰는 사람들이 여전히 완전히 다른 결과물을 냅니다.

바이브 코딩 결과물을 보면 알 수 있습니다. 어떤 사람의 결과물은 “어떻게 만든 거야?”라는 반응을 이끌어냅니다. 다른 사람의 결과물에는 침묵이 돌아옵니다. 차이는 AI의 기본 미감을 그대로 받아들이는 사람과 특정 비전을 위해 밀어붙이는 사람 사이에 있습니다. 정보를 빠르게 포착하는 것과 특정 의도를 통해 필터링하는 것은 완전히 다른 능력입니다. 두 번째 능력은 독자의 관점과 주변 맥락 전체를 고려해야 하는, 더 높은 차원의 사고를 요구합니다.

모델은 당신이 무엇을 원하는지 모릅니다. 당신이 표현할 수 있어야 합니다. AI 시대에 지식보다 취향이 중요한 이유가 여기 있습니다.

자동화하기 어려울수록 그 뒤에 있는 사람의 가치가 높아집니다

일반 지식은 이미 AI가 보유하고 있습니다. 프롬프트에 더 넣는 것은 오히려 성능을 저하시킵니다. 환경 컨텍스트는 OCR과 음성 도구들이 점점 빠르게 포착하고 있습니다. 스킬은 반복과 구조를 통해 만들어지고, 에이전트에 위임할 수 있습니다. 의도와 취향만이 자동화에 완전히 저항하는 영역으로 남아 있습니다.

AI 도구와 정보를 모으는 것은 의미 있습니다. 하지만 진짜 레버리지는 거기에 있지 않습니다. 프롬프트에 더 많은 컨텍스트를 채우는 것보다, 자신이 원하는 것을 더 정확하게 아는 것이 낫습니다. AI 시대에 당신의 가치는 취향에 있습니다.

뉴스레터 구독하기

최신 프로젝트, 아티클, AI와 웹 개발 실험에 대한 소식을 받아보세요.