Executive Summary

대부분의 에이전트 시스템은 약한 모델이 아니라 약한 하네스 때문에 죽는다. 하네스란 모델을 감싸 언제 멈추고 언제 다시 시작하고 결과를 어디에 쓸지를 정하는 바깥 구조, 곧 루프와 상태와 역할 분리와 게이트다. 이건 수사가 아니라 측정된 사실이다. 같은 모델을 두고 하네스만 바꾸면 코딩 벤치마크 점수가 42%에서 78%로 벌어지는 반면, 프론티어 모델 여섯 개를 서로 바꿔 끼워도 점수 차는 1점 안쪽에 그친다.

Andrej Karpathy가 정리한 LOOPS.md는 이 루프를 일급 객체로 다루는 아홉 개의 규칙이다. 관통하는 원칙은 하나다. 사람은 명세와 경계를 소유하고, 모델은 실행과 장부를 소유한다. 플래너는 코드를 만지지 않고, 생성자는 자기 채점을 하지 않으며, 상태는 컨텍스트가 아니라 디스크에 산다. 자기 채점을 맡기면 절반이 넘는 경우에 아첨이 발생하고, 같은 질문도 컨텍스트가 길어지면 정확도가 무너지기 때문이다. 레버리지의 단위가 프롬프트에서 절차로 옮겨갔다.

우리는 매일 새벽 스스로 주제를 고르고 여러 편을 발행하는 파이프라인을 운영한다. 이 글은 그 아홉 규칙을 우리 파이프라인에 규칙별로 대보고, 이미 잘하던 것과 어젯밤 드러난 구멍을 정직하게 적은 현장 기록이다. 자율 데이터 파이프라인을 만드는 회사가, 자기 발행 파이프라인에서도 같은 원칙을 산다.

42% → 78%

하네스 스윙

같은 모델, 하네스만 바꿨을 때 코딩 벤치마크 점수 (모델 스왑은 1점 미만)

58%

자기채점의 아첨

모델에게 자기 출력을 평가시켰을 때 아첨이 나타난 비율 (Fanous 2025)

99.3% → 69.7%

컨텍스트 부패

같은 질문, 컨텍스트를 1K에서 32K로 늘렸을 때 정확도 (NoLiMa)

61% → 25%

이어붙일수록 붕괴

같은 태스크를 한 번 vs 여덟 번 이어 시도했을 때 신뢰도 (τ-bench)

1

카파시가 죽인 것: 프롬프트 시대

한동안 "잘 쓴 프롬프트 하나"가 실력의 단위였다. 예시를 몇 개 넣고, 사고 과정을 유도하고, 출력 형식을 못 박으면 모델이 원하는 답을 내놓았다. 그 시대의 감각으로 보면 에이전트가 실패했을 때 가장 먼저 의심할 대상은 모델이다. 모델이 약하니까 틀렸다는 것이다. 그런데 오래 도는 에이전트를 실제로 굴려 본 사람들이 같은 결론에 도달했다. 실패의 대부분은 모델이 아니라 그 모델을 감싼 바깥 구조에서 온다.

이 판단은 벤치마크에서 정량으로 드러난다. 여러 팀이 같은 코딩 벤치마크를 두고 동일한 모델에 서로 다른 하네스를 붙여 측정했더니, 상위 점수가 42%에서 78%까지 벌어졌다. 36점 차이가 모델을 바꾸지 않고 오직 루프와 도구 형식과 상태 관리만 다르게 해서 생긴 것이다. 반대로 프론티어 모델 여섯 개를 같은 하네스에 번갈아 끼워 넣으면 점수 차는 1점 안쪽으로 줄어든다. 극단적인 사례에서는 한 모델이 편집 도구의 형식 하나만 바꿔 6.7%에서 68.3%로 열 배 뛰었고, 어떤 조건에서는 약한 모델에 좋은 하네스를 붙인 쪽이 강한 모델에 표준 하네스를 붙인 쪽을 근소하게 앞섰다.

모델을 갈아 끼워 얻는 이득과 하네스를 손봐 얻는 이득은 크기가 다르다. 그 대비를 막대 하나로 세우면 이렇다.

약 0.8점 모델만 교체 36점 하네스만 교체 같은 코딩 벤치마크, 무엇을 바꿨을 때 점수가 움직이나

주의할 점이 하나 있다. 이 벤치마크의 절대 점수는 오염 논란이 있어서 그대로 신뢰하기 어렵다. 그러나 우리가 보는 건 절대 점수가 아니라 "같은 모델에서 하네스만 바꿨을 때의 차이"다. 데이터셋이 오염됐더라도 같은 조건에서의 상대 비교는 유효하다. 그 상대 비교가 일관되게 말하는 건 하나다. 레버리지의 큰 덩어리가 모델에서 하네스로 옮겨갔다.

모델은 코드를 쓰고, 리뷰하고, 10분 전 자기가 동의한 기준에 자기 출력을 대볼 수 있다. 혼자 못 하는 건 언제 멈출지, 언제 재시작할지, 결과를 어디에 쓸지다. 그게 루프의 일이고, 프롬프트가 아니라 절차가 실력의 단위가 된 이유다.

2

9규칙, 네 묶음으로

LOOPS.md의 아홉 규칙은 순서대로 읽으면 흩어져 보이지만, 네 개의 묶음으로 묶으면 하나의 문장이 된다. 역할을 나누고, 상태를 밖에 두고, 품질을 계약으로 만들고, 하네스는 계속 줄여라. 아래는 각 규칙을 그 묶음 안에서 정리하고, 직관으로만 주장하기 쉬운 대목마다 외부 근거를 붙인 것이다.

먼저 출처에 관한 정직한 각주 하나. 여기 정리한 규칙 번호와 묶음은 v060726 판본을 기준으로 하며, 세부 표현 일부는 커뮤니티가 정리하고 계승한 문서에 근거한다. 그래서 우리는 규칙의 정신을 인용하되 판본을 함께 밝힌다.

2.1역할을 나눈다 (규칙 I~III)

규칙 I — 프롬프트가 아니라 루프를 써라. 작업의 단위는 한 번의 메시지가 아니라 반복 가능한 절차다. 모으고, 추론하고, 행동하고, 검증하고, 다시 반복한다. 한 번의 완벽한 프롬프트보다 열 번 도는 튼튼한 루프가 낫다.

규칙 II — 역할을 분리하라. 스펙을 짜는 플래너, 실행하는 생성자, 판정하는 이밸류에이터를 섞지 마라. 특히 생성자가 자기 출력을 채점하게 두면 안 된다. 이유는 측정돼 있다. 모델에게 자기 답을 평가시키면 58.2%의 경우에 아첨 행동이 나타났고(Fanous et al., 2025), 사용자가 틀린 주장을 밀면 평균 63.7%가 동의하며 그중 14.7%는 맞았던 답을 틀린 답으로 뒤집었다(Wang et al., 2025). 평가자가 자기 출력을 편애하는 경향도 별도로 확인됐다(Panickssery et al., NeurIPS 2024). 이밸류에이터는 "코드는 깨졌다, 반증이 내 일"이라는 태도로 시작해야 한다.

규칙 III — 계약을 먼저 협상하라. "완료"의 기준을 코드 생성 전에, 테스트 가능한 형태로 못 박는다. 무엇이 있으면 통과이고 무엇이 없으면 실패인지를 숫자와 조건으로 적어 두면, 이후 루프가 자기 출력을 그 계약에 대볼 수 있다. 계약이 흐리면 재시작도 검증도 의미를 잃는다.

생성자가 자기 출력을 채점하는 경로가 열리는 순간, 58%의 경우 아첨이 시작된다. 세 역할이 어떻게 맞물리는지는 아래 도식에 정리했다.

플래너 스펙 · 경계 · 계약 생성자 코드 · 산출물 ⛔ 자기 채점 금지 (→ 58% 아첨 발생) 이밸류에이터 판정 · 계약 대조 규칙 I·II·III: 역할 분리가 아첨과 편향을 막는다

▲ 역할 분리의 핵심: 판정자는 생성자 바깥에 있어야 한다 | 페블러스 원본 도식

2.2상태를 밖에 둔다 (규칙 IV~V)

규칙 IV — 컨텍스트가 아니라 디스크에 써라. 컨텍스트 창은 길어질수록 부패한다. 요약되고 압축되며 과거를 왜곡한다. 이건 느낌이 아니다. GPT-4o는 같은 질문에 컨텍스트가 1K 토큰일 때 99.3%를 맞히다가 32K 토큰에서는 69.7%로 떨어졌다(NoLiMa). 관련 정보가 컨텍스트 중간에 놓이면 정확도가 30~50% 떨어지는 U자형 저하가 검사한 프론티어 모델 열여덟 개 전부에서 나타났다(Liu et al., 2024, "Lost in the Middle"). 그래서 상태는 파일로 둔다. 진행 상황, 계약, 로그를 디스크에 적으면 크래시 뒤에도 재개의 근거가 남는다.

컨텍스트가 길어질수록 같은 모델의 같은 능력이 아래로 휜다. 그 하강을 곡선으로 그리면 이렇게 된다.

1K 8K 32K 토큰 99% 70% 99.3% 69.7% 같은 질문, 컨텍스트만 길어질 때의 정확도 (GPT-4o, NoLiMa)

규칙 V — 루프가 재시작하게 둬라. 판이 틀어졌을 때 나쁜 상태를 패치로 덧대는 것보다, 버리고 처음부터 다시 시작하는 편이 최신 모델의 최고 행동이다. 근거도 같은 방향을 가리킨다. 같은 태스크를 한 번 시도했을 때 61%였던 성공률이, 시도를 여덟 번 이어붙이자 25%로 떨어졌다(τ-bench). 이어붙일수록 좋아지기는커녕 무너진다는 뜻이다. 이밸류에이터와 계약이 튼튼하면 재시작은 손실이 아니라 청소다. 사람은 계약이 틀렸을 때만 개입한다.

2.3품질을 계약으로 만든다 (규칙 VI~VII)

규칙 VI — 주관을 채점하라. "좋은 글", "예쁜 디자인" 같은 취향도 계약으로 만들 수 있다. 디자인, 독창성, 완성도, 기능처럼 축을 나누고 가중치를 주고 레퍼런스 예시를 붙이면, 모델은 "적힌 취향"으로 수렴한다. 취향을 언어화하지 않으면 루프는 아무 방향으로나 수렴한다.

규칙 VII — 트레이스를 읽어라. 실험을 하나 더 돌리기 전에, 이미 돈 실행의 원시 트랜스크립트를 먼저 읽어라. 어디서 판단이 이탈했는지는 요약이 아니라 날것의 기록에 있다. 트레이스를 읽고 나서야 프롬프트를 어디서 조여야 할지 보인다. 이 규칙은 규칙 IV와 짝이다. 상태를 파일로 남겨야 트레이스를 읽을 수 있다.

루프가 수렴할 방향이 없으면 매 실행이 다른 곳에서 멈춘다. 막연한 취향이 채점 가능한 계약으로 바뀌는 과정은 아래와 같다.

주관 (취향) "좋은 글" "예쁜 디자인" "창의적" 계약화 채점 계약 (테스트 가능) 독창성 35% 완성도 30% 기능 20% 디자인 15% 규칙 VI: 주관을 축으로 분해하면 루프가 수렴할 방향이 생긴다

▲ 취향을 가중 채점 계약으로 변환 | 페블러스 원본 도식

2.4하네스를 줄인다 (규칙 VIII~IX)

규칙 VIII — 하네스를 삭제하라. 모델이 좋아지면 어제 짠 스캐폴딩의 절반은 부채가 된다. 오늘 모델이 공짜로 하는 일을 감싸느라 남겨 둔 코드는 비용만 남긴다. 그 비용은 작지 않다. 에이전트 태스크는 코드 채팅 대비 1,000배의 토큰을 쓰고, 컨텍스트가 매 스텝 누적되면서 비용이 O(N²)로 자란다. 실제로 멀티에이전트를 도입한 기업의 분기 비용이 340% 뛴 사례가 있다. 새 모델이 나올 때마다 하네스를 다시 읽고, 이제 필요 없어진 규칙을 지우는 것이 규칙 VIII이다.

규칙 IX — 병목은 늘 움직인다. 코딩이 병목이던 시절이 지나면 플래닝이 병목이 되고, 그다음은 검증이, 그다음은 취향이 병목이 된다. 어제 짠 하네스가 겨눴던 병목은 오늘 그 자리에 없을 수 있다. 그래서 하네스 설계는 한 번 끝나는 일이 아니라, 다음 병목을 찾아 옮겨 가는 지속적인 작업이다. 이 규칙이 나머지 여덟 개를 살아 있게 만든다.

규칙을 하나씩 읽으면 아홉 개의 조언처럼 흩어지지만, 네 묶음으로 놓고 보면 한 장에 들어온다. 아래 표는 그 아홉 규칙을 묶음별로 다시 세운 것이다. 번호를 순서대로 외우기보다, 지금 내 루프에 빠져 있는 묶음이 어디인지 짚는 지도로 쓰면 된다.

묶음 규칙 한 줄 요지
역할을 나눈다 I 프롬프트가 아니라 루프를 써라
II 플래너·생성자·이밸류에이터를 분리하라 (자기채점 금지)
III 완료 기준을 코드 전에 테스트 가능하게 못 박아라
상태를 밖에 둔다 IV 컨텍스트가 아니라 디스크에 써라
V 패치하지 말고 루프가 재시작하게 둬라
품질을 계약으로 VI 주관(취향)을 가중 축으로 채점하라
VII 실험을 더 돌리기 전에 트레이스를 읽어라
하네스를 줄인다 VIII 모델이 공짜로 하는 하네스는 지워라
IX 다음 병목을 찾아 계속 옮겨 가라

규칙 정리는 LOOPS.md v060726 판본 기준. 세부 표현은 커뮤니티 계승 문서 참조.

3

밤새 도는 층: 루프 → 루프들 → 루틴

아홉 규칙이 튼튼한 루프 하나를 만든다면, 그다음 질문은 "그 루프를 몇 개, 어디서 돌릴 것인가"다. 답은 세 층으로 자란다. 스케줄 위에 하나의 클로드를 올리는 루프, 여러 개를 동시에 돌리는 루프들, 그리고 통제가 붙으면 서버로 옮겨 상시 도는 루틴. 이건 개념이 아니라 이미 존재하는 제품 지형이다.

루프 스케줄 위의 클로드 하나 루프들 동시 다중 실행 루틴 서버로 이전, 상시 가동

가장 좋은 증거는 카파시 본인의 실험이다. 그가 돌린 자동 연구 루프는 하룻밤에 126건, 이틀에 약 700건의 실험을 수행했다. 분산 실행으로는 35개 에이전트를 붙여 8시간에 910건을 309달러에 돌렸다. 그리고 그 루프가, 본인이 20년 동안 못 찾았다고 말한 QK-Norm 스칼라 누락 버그를 찾아냈다. 자동 연구 코드 자체는 630줄 남짓의 파이썬이었고 공개 닷새 만에 2만 5천 개의 스타를 받았다. 도구가 특별해서가 아니라 루프를 밤새 돌게 두었기 때문에 나온 결과다.

제품 지형도 같은 방향으로 성숙하고 있다. Claude Code는 스케줄과 백그라운드 실행, 서브에이전트 오케스트레이션을 지원하고, Cognition의 Devin은 자율 PR 머지율이 18개월 만에 34%에서 67%로 올랐다. 재시작과 체크포인트를 산업적으로 구현한 durable execution 계열 엔진들도 규칙 V의 실체다. "밤새 도는 루프"는 트위터의 밈이 아니라, 오늘 살 수 있는 인프라다.

4

현장 시험: 우리 파이프라인에 대보다

여기서부터는 요약이 아니라 운영 기록이다. 우리는 매일 새벽 스스로 주제를 고르고, 리서치하고, 초안을 쓰고, 검증하고, 여러 편을 발행하는 파이프라인을 돌린다. 아홉 규칙을 그 파이프라인에 하나씩 대봤다. 결과는 자랑과 반성이 섞여 있다. 어떤 규칙은 우리가 이미 살고 있었고, 어떤 규칙은 어젯밤 구멍을 드러냈다. 내부 식별자는 밝히지 않되, 교훈은 구체적으로 적는다.

아래 표에서 오렌지는 이미 잘 살고 있던 규칙, 중립 회색은 구멍이 드러난 규칙이다.

규칙 우리 파이프라인의 현재 배운 것
IV 디스크에 써라 기획·리서치·합성 결과를 매 단계 워크스페이스 파일로 남기고, 다음 단계는 컨텍스트가 아니라 그 파일을 읽어 시작한다. 가장 잘 살고 있던 규칙. 단계 사이를 파일로 이으니 한 단계가 죽어도 그 지점부터 재개됐다.
II 역할 분리 기획·작성·검증 에이전트를 나누고, 문체 검증은 작성자가 아닌 별도 축(11개 tell)으로 채점한다. 초기엔 작성자가 자기 글을 검수하게 뒀다가 아첨하는 자기 평가에 반복해 데었다. 검증을 떼어내자 슬롭이 줄었다.
III 계약 먼저 발행 전 SEO·구조·필드 검증을 통과 조건으로 못 박아, 초안이 그 계약에 자기를 대보게 한다. 완료 기준을 숫자로 적어 두니 재시작해도 같은 목표로 수렴했다.
V 재시작하게 둬라 한때 실패한 실행을 버리지 않고 패치로 이어붙였다. 나쁜 상태가 다음 단계로 흘러 들어갔다. 구멍. 이어붙인 실행이 오히려 더 자주 깨졌다. 계약이 틀리지 않았다면, 실패한 실행은 청소하고 재시작하는 편이 나았다.
VIII 하네스 삭제 하네스가 단조 증가했다. 모델이 좋아진 뒤에도 예전 규칙을 그대로 남겨 두었다. 구멍. 새 모델이 공짜로 하는 일을 아직도 감싸느라 비용과 유지보수 부담만 늘었다. 하네스도 정기적으로 지워야 한다.
VII 트레이스 각 실행의 로그를 글과 함께 영구 보관하고, 문제 발생 시 요약이 아니라 원시 로그를 먼저 읽는다. 트레이스를 읽고 나서야 병목이 작성이 아니라 검증 단계에 있다는 걸 알았다.

자율성 수치는 정직하게 맥락화해야 한다. 성숙한 파이프라인의 목표는 지루한 95%를 자동화하고 위험한 5%에만 사람을 남기는 것이다. 그러나 이건 목표치이지 업계 평균이 아니다. 글로벌 리더 919명을 조사한 자료에서, 에이전트 결정의 69%가 여전히 사람 검증을 거치고, 완전 자율로 운영하는 조직은 13%뿐이며, 에이전트 프로젝트의 40%가 실패하는데 그 원인으로 하네스와 인프라 기반의 부족이 지목됐다(Dynatrace, 2026). 우리 파이프라인의 자율성 수치는 우리 운영 기록으로만 말하고, 이 외부 일반화 수치와 섞지 않는다. 95%와 5%는 우리가 겨누는 방향이고, 69%는 지금 세상의 평균이다.

병목은 우리 파이프라인에서도 카파시가 예언한 순서대로 움직였다. 처음엔 초안을 뽑는 게 어려웠고, 그다음엔 계획이, 지금은 검증과 취향이 병목이다. 잘한 규칙과 구멍이 난 규칙의 목록보다 중요한 건, 그 목록이 계속 바뀐다는 사실 자체다.

5

당신의 첫 루프를 위한 체크리스트

아홉 규칙을 한꺼번에 적용하려 들면 아무것도 시작하지 못한다. 첫 루프는 지루하고, 경계가 좁고, 초 단위로 검증 가능한 작업이어야 한다. CI 로그 감시, PR 리베이스, 매일 아침 요약 같은 것들이다. 며칠 돌려 신뢰가 쌓이면 그때 늘린다. 아래는 첫 루프를 세우기 전에 대볼 여덟 개의 질문이다.

  • 1.계약이 테스트 가능한가. "완료"를 사람 판단 없이 통과·실패로 가를 수 있는가. 없다면 루프가 아니라 계약부터 쓴다.
  • 2.역할이 분리됐는가. 생성하는 쪽과 판정하는 쪽이 다른가. 같다면 아첨으로 수렴한다.
  • 3.상태가 디스크에 있는가. 크래시 후 어디서부터 재개할지가 파일에 적혀 있는가. 컨텍스트에만 있으면 잃는다.
  • 4.재시작이 값싼가. 실패한 실행을 버리고 처음부터 도는 비용이 패치 비용보다 작은가. 그래야 규칙 V가 산다.
  • 5.경계가 충분히 좁은가. 첫 루프는 한 가지 지루한 일만 한다. 야심은 세 번째 루프에서 부린다.
  • 6.위험한 5%가 사람에게 남는가. 공개 발행, main 머지, 첫 마이그레이션은 승인 게이트를 남긴다.
  • 7.트레이스를 읽을 준비가 됐는가. 문제가 생겼을 때 볼 원시 로그가 남는가. 요약만 남으면 못 고친다.
  • 8.지울 계획이 있는가. 다음 모델이 나오면 어떤 하네스를 지울지 미리 정해 둔다. 단조 증가하는 하네스는 이미 읽기를 멈춘 하네스다.
6

병목은 늘 움직인다

카파시가 죽인 것은 프롬프트 그 자체가 아니라, 프롬프트가 실력의 마지막 단위라는 믿음이다. 레버리지는 모델에서 하네스로 옮겨갔고, 하네스 안에서도 한자리에 머물지 않는다. 코딩이 풀리면 플래닝이, 플래닝이 풀리면 검증이, 검증이 풀리면 취향이 병목이 된다. 아홉 규칙 중 마지막 규칙이 나머지를 살아 있게 만드는 이유가 여기 있다. 병목을 한 번 잡는 기술이 아니라, 옮겨 가는 병목을 계속 따라가는 습관이 하네스 엔지니어링이다.

어제의 병목을 막아도 다음 병목은 이미 자리를 바꾼 뒤다. 그 이동을 타임라인에 세우면 이렇게 된다.

시간 → 코딩 ✓ 해결됨 플래닝 ✓ 해결됨 검증 ← 현재 병목 취향 다음 병목? 규칙 IX: 병목은 한 번 잡고 끝이 아니라 계속 움직인다

▲ 병목 이동 타임라인: 각 단계 해결 후 다음 병목이 드러난다 | 페블러스 원본 도식

이 지점에서 우리는 남의 미래를 구경하는 게 아니다. 페블러스는 산업AI와 Physical AI, 그리고 데이터를 자동으로 모으고 정제하고 검증하고 반복하는 자율 데이터 파이프라인을 만드는 회사다. 데이터를 자동으로 다루는 파이프라인과, 글을 자동으로 기획하고 검증하고 발행하는 파이프라인은 같은 루프 구조를 공유한다. 모으고, 추론하고, 행동하고, 검증하고, 반복한다. 그래서 LOOPS.md의 아홉 규칙은 우리에게 "언젠가 참고할 이론"이 아니라 오늘 운영 지침이다.

특히 상태를 디스크에 두고(IV), 주관을 계약으로 채점하고(VI), 트레이스를 읽는다는(VII) 세 규칙은 데이터 품질과 재현성의 원칙 그 자체다. 요약된 기억을 믿지 않고 원시 산출물로 판단한다는 태도는, 데이터를 진단할 때 요약 통계가 아니라 원천 레코드를 보는 태도와 같다. 자기 채점이 아첨으로 수렴한다는 규칙 II는, 학습·생성 데이터의 품질이 무너지는 방식의 에이전트판이다. 우리가 이 글을 쓰는 이유는 제품을 팔기 위해서가 아니라, 그 원칙으로 우리 운영을 시험하고 구멍을 공개하기 위해서다. 이론을 파는 것과 이론으로 자기를 시험하는 것은 다르다.

그러니 결론은 처음의 한 문장으로 돌아온다. 약한 모델이 아니라 약한 하네스가 에이전트를 죽인다. 다음에 당신의 에이전트가 밤새 돌다 죽거든, 모델을 갈아 끼우기 전에 루프를 먼저 보라. 십중팔구 범인은 거기 있다.

(주)페블러스 데이터 커뮤니케이션팀
2026년 7월 1일

R

참고문헌

학술 논문

  • 1.Fanous et al. (2025). LLM 자기 평가 시 아첨 측정 — 실증 연구. arXiv. (58.2% 아첨 발생률; 14.7% 오답 전환)
  • 2.Wang et al. (2025). LLM 잘못된 믿음 동의율 실증 연구. arXiv. (7개 모델 패밀리 평균 63.7%, 범위 46.6–95.1%)
  • 3.Panickssery et al. (2024). LLM Evaluators Recognize and Favor Their Own Generations. NeurIPS 2024.
  • 4.Liu, N. F. et al. (2024). Lost in the Middle: How Language Models Use Long Contexts. Transactions of the Association for Computational Linguistics. (18개 프론티어 모델에서 중간 위치 정보 30–50% 정확도 하락)
  • 5.Anonymous (2024). NoLiMa: Long-Context Evaluation Beyond Literal Matching. arXiv. (GPT-4o 1K→32K 구간 99.3%→69.7% 정확도 하락)
  • 6.Yao, S. et al. (2024). τ-Bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains. arXiv. (GPT-4o pass@1 61% vs. pass@8 25%)

업계·기술

  • 7.Karpathy, A. (2026). LOOPS.md: Field Notes on Agents That Run for Days (v060726). (에이전트 루프 9규칙 원전 문서. 세부 표현은 커뮤니티 계승 문서 기준.)
  • 8.Karpathy, A. (2026). nanochat/autoresearch — MIT 오픈소스. (1박 126건, 8시간 910건/$309, QK-Norm 버그 자동 발견)
  • 9.Scale AI SEAL; Particula Tech; Digital Applied (2026). SWE-bench Verified·Pro 리더보드 및 하네스 효과 분석. (동일 모델 하네스 교체 시 42%→78% 점수 스윙; Grok Code Fast 6.7%→68.3%)
  • 10.Cognition AI (2026). Devin PR Merge-Rate Progress Report. (Devin PR 머지율 34% → 67%, 18개월 추이)

데이터·보고서

  • 11.METR (2025). Measuring AI Ability to Complete Long Tasks (Time Horizon 1.1). (Claude Opus 4.6 50% 신뢰도 지평 약 12시간; 80% 신뢰도 1시간 10분. 50% 지평 7개월마다 2배 성장.)
  • 12.Dynatrace (2026). Pulse of Agentic AI 2026. N=919 글로벌 리더. (에이전트 결정의 69% 사람 검증; 완전 자율 조직 13%; 프로젝트 실패율 40%)
  • 13.페블러스 데이터 커뮤니케이션팀 (2026). 자율 발행 파이프라인 운영 기록. 익명 인용. (규칙별 현장 시험 — Rule IV·VII 성공, Rule V·VIII 구멍)