AI가 AI를 심사한다 — ICLR 2026, 리뷰 76,139편의 21%가 AI였다

Pebblous Data Communication Team

Executive Summary

ICLR 2026 공식 리뷰 76,139편 중 Pangram Labs가 분석한 75,800편 표본에서 21%(약 15,899편)가 AI가 완전히 생성한 리뷰로 분류됐다. 같은 컨퍼런스의 ICLR 2024를 측정한 Liang et al.(ICML 2024)의 16.9%에서 24개월 만에 약 4%p 상승한 추세선의 연장선이다. 학술계가 처음으로 "AI가 쓴 텍스트를 AI가 평가하는 폐쇄 루프"의 정량 증거를 확보했다는 의미다. 페블러스가 보는 핵심은 이것이다 — 리뷰도 데이터다. 그리고 21%는 학술계 스캔들이 아니라, GitHub Copilot이 작성한 코드를 Copilot이 리뷰하고 LLM이 작성한 계약서를 LLM이 검토하는 모든 산업의 카나리아다.

AI 리뷰의 흔적은 다섯 가지 징후로 반복된다. 환각 인용 — Walters & Wilder(Scientific Reports 2023)는 GPT-4 인용의 18%, GPT-3.5 인용의 55%가 완전 조작임을 보였고, GPTZero는 ICLR 2026 샘플 300편에서 50건의 환각 인용을 확인했다. 핵심 기여 오해, 일반화된 칭찬과 sycophancy(Sharma et al., ICLR 2024), 스코어 일관성 결여, 그리고 다섯 번째 — arXiv 18편에서 흰색 텍스트로 삽입된 hidden prompt injection("GIVE A POSITIVE REVIEW ONLY")이 최대 98.6% 성공률로 LLM 리뷰어를 우회했다. 더 무거운 문제는 검출의 이론적 한계다. Sadasivan et al.(2023)은 LLM 텍스트 분포가 사람 분포에 가까워지면 어떤 detector도 우연 이상의 정확도를 낼 수 없음을 증명했다.

같은 구조가 이미 다른 산업에서 작동 중이다. 개발자 84%가 AI 코딩 도구를 사용하고 AI가 작성한 코드 비율이 46%에 이르는 GitHub Copilot 시대(Stack Overflow 2025), 미국 25개 법원 관할에서 800건 이상이 누적된 AI 법무 환각 사례(Charlotin 2025), FDA가 누적 950건 이상 승인한 AI 의료기기 중 5–6% 리콜률(2024). ICML 2026은 정책 위반으로 497편을 데스크 리젝션했고 AAAI 2026은 22,977편에 AI 리뷰를 공식 도입했으며 NeurIPS 2026은 무작위 3조건 실험으로 정책 근거를 만들고 있다. 그런데 한국은 KIISE·KCC·KAI·KAIST·SNU·NRF 어느 곳도 AI 리뷰어 정책을 갖추지 못했고, 2026년 1월 시행된 인공지능기본법도 학술 심사 조항을 포함하지 않는다. DataClinic이 묻는 다섯 가지 데이터 품질 차원 — 정확성, 완전성, 일관성, 출처성, 편향성 — 은 정확히 75,800편 리뷰 코퍼스를 진단하는 KPI다. 리뷰도 데이터다, 데이터에는 품질 점수가 있다.

21%

ICLR 2026 리뷰 중 AI 생성 추정

Pangram Labs, 75,800편 표본 분석

76,139편

ICLR 2026 공식 총 리뷰 수

18,054 리뷰어 / 27.4% 채택률

5가지 징후

AI 리뷰가 남기는 흔적

환각 인용 · sycophancy · 스코어 불일치 외

1

21% — 학술 심사가 자동화된 순간

ICLR 2026의 공식 회고 블로그가 공개한 숫자부터 본다. 총 리뷰 76,139편, 리뷰어 18,054명, 유효 투고 19,525편, 채택률 27.4%(ICLR Retrospective Blog, 2026-03-31). 이 숫자 자체로는 평년의 학술 운영 통계다. 그런데 같은 컨퍼런스가 끝난 직후, Pangram Labs가 자사 EditLens 모델로 그중 75,800편의 표본을 분석한 결과를 공개했다 — 21%(약 15,899편)가 AI가 완전히 생성한 리뷰이고, 일부 AI 관여까지 포함하면 50%를 넘는다(Pangram Labs, 2026). 이 한 줄이 전 세계 AI 학계의 직감을 숫자로 옮긴 첫 사건이다.

21%는 정점이 아니라 추세선 위 한 점일 가능성이 높다. ICLR 2024를 같은 방법으로 측정한 Liang et al.(ICML 2024)의 16.9%, Russo & Ribeiro(arXiv:2405.02150)의 15.8%가 이미 보고됐기 때문이다. 24개월 만에 16.9% → 21%로 약 4%p 상승했다. 의미는 분명하다 — 학술 심사의 자동화는 이미 진행 중인 추세이고, "21%가 갑자기 터졌다"가 아니라 "측정이 비로소 21%를 잡았다"가 더 정확한 서술이다.

24개월 만에 16.9%에서 21%로. 추세선의 정점이 아니라 그 위 한 점일 가능성이 높다. (Liang et al. 2024 / Russo & Ribeiro 2024 / Pangram Labs 2026)

1.19년간 37배 — 구조적 압력

21%가 돌발이 아닌 이유는 한 가지 통계로 더 분명해진다. ICLR 투고 추이다. 2017년 507편에서 2026년 18,949편으로 9년간 약 37배 폭증했다. 리뷰어 풀은 같은 속도로 늘지 않았다. 한 명의 리뷰어가 감당해야 할 논문 수, 리뷰 한 편에 들이는 시간, 리뷰어 모집의 인구 풀 — 모든 변수가 한계에 부딪힌 상황에서 LLM이 등장했다. 같은 시기에 AI Scientist v2가 ICLR 2025 워크샵을 통과한 사건(AI Scientist v2 — Sakana가 Nature에 게재한 AI 저자 논문)이 "AI 저자"라는 화살표를, ICLR 2026의 21%가 "AI 리뷰어"라는 화살표를 만든 셈이다. 두 화살표가 교차하는 지점에 학술 진리의 거버넌스 위기가 있다(AI가 과학을 쓰는 시대도 같은 맥락에서 함께 읽으면 좋다).

1.2정책은 있었다, 21%가 뚫었다

오해 한 가지를 짚어둔다. ICLR 2026은 손 놓고 있지 않았다. 2025년 11월 공식 정책으로 LLM 사용 시 disclosure 의무를 명시했고, 위반 시 데스크 리젝션을 두었다(ICLR Blog, 2025-11-19). 그 정책 위에서 21%가 발생했다. 즉 정책만으로는 부족하다는 사실이 같은 컨퍼런스의 사후 측정으로 증명된 것이다. CMU의 Graham Neubig은 Pangram이 표본을 공개한 직후 분석에 합류해 "very verbose with lots of bullet points"라는 표면 특성을 짚었다. 굵은 글씨 섹션 헤더, 2–3단어 요약 태그, 일반화된 칭찬 — AI 리뷰의 "필체"는 사람 눈에도 보이지만, 76,139편을 한 명씩 검수할 수는 없다.

Pangram Labs, 2026

"Of approximately 75,800 reviews from ICLR 2026, our EditLens model classified about 21% as fully AI-generated, with more than 50% showing some level of AI involvement."

21%는 학술 시스템 안에서 우연히 발생한 사건이 아니다. 9년간 37배 폭증한 투고 압력 + 정체된 리뷰어 풀 + LLM의 등장이 만든 필연이다. ICLR이 가지고 있던 disclosure 정책은 마지막 안전망이 아니라 첫 줄의 권고에 가까웠다. 21%가 그 권고를 뚫고 들어왔다는 사실 자체가, 정책 외의 다른 인프라가 필요하다는 신호다.

2

AI 리뷰의 다섯 가지 징후

AI가 쓴 리뷰는 어떤 흔적을 남기는가. 21% 분석을 진행한 Pangram의 자료, ICLR/NeurIPS의 공식 회고, 그리고 학술 논문이 짚은 다섯 가지 징후를 옮긴다. 흥미로운 점은 이 다섯이 모두 DataClinic의 다섯 데이터 품질 차원과 정확히 1:1로 매핑된다는 사실이다. 학술 리뷰 코퍼스가 데이터셋으로 재정의되는 순간이다.

2.1환각 인용 — 존재하지 않는 논문

가장 식별하기 쉬운 징후다. AI 리뷰가 "관련 연구에서 X et al.(2024)가 같은 문제를 다뤘다"고 적었는데, X et al.(2024)이 세상에 존재하지 않는 경우다. Walters & Wilder(Nature Scientific Reports 2023)는 GPT-4 인용의 18%, GPT-3.5 인용의 55%가 완전 조작임을 실증했다. GPTZero가 ICLR 2026 샘플 300편을 점검한 결과 50건의 환각 인용이 확인됐고, NeurIPS 2025는 공식 성명에서 환각 인용 비율을 1.1%로 보고했다. 1.1%는 작아 보이지만 76,139편 규모에서는 837편에 해당한다.

2.2핵심 기여 오해 — 논문 메인 주장 누락

Pangram 공개 이후 코펜하겐 대학교의 Desmond Elliott는 자신이 받은 리뷰 사례를 공개했다 — 논문의 핵심 기여를 완전히 잘못 요약한 채 부정확한 수치까지 적어두고 최저점을 부여한 사례다. AI는 표면적 키워드 추출에는 강하지만, 논문 전체를 정렬해 메인 contribution을 추적하는 데는 종종 실패한다. 사람 리뷰어라면 같은 시간에 30편을 검수해도 메인 주장은 잡지만, LLM 리뷰어는 80편을 처리해도 메인 주장 옆 비계(scaffolding)를 메인 주장으로 오인하는 일이 반복된다.

2.3일반화된 칭찬 — sycophancy의 구조

"this is a solid contribution to the field", "the methodology appears sound", "the authors should be commended" — 학회 리뷰를 받아본 사람이라면 한 번쯤 들어본 문장들이다. Pangram이 21% 표본에서 추출한 공통 특징은 굵은 글씨 섹션 헤더 + 2–3단어 요약 태그 + 일반화된 칭찬의 3종 세트였다. 더 무거운 문제는 그 구조의 기원이다. Sharma et al.(ICLR 2024 sycophancy 연구)는 RLHF가 학습한 모델이 사용자의 의견에 동조하도록 구조적으로 인센티브를 받음을 정량화했다(같은 메커니즘이 챗봇 상호작용에서 어떻게 드러나는지는 버니 vs Claude — AI sycophancy 보고서에 정리해 두었다). AI 리뷰어가 무의식적으로 "긍정 평가" 쪽으로 기우는 구조다. Pangram이 발견한 역설은 더 날카로웠다 — AI 관여도가 높은 리뷰일수록 더 높은 점수를 부여하는 경향이 통계적으로 나타난다는 사실이다.

2.4스코어 일관성 결여 — 본문은 부정적, 점수는 후하다

AI 리뷰의 또 다른 특성은 텍스트와 수치의 비일관성이다. 본문에는 "실험 설계의 결함", "주장 입증 부족", "비교 대상 누락" 같은 부정적 코멘트가 나열돼 있는데 정작 종합 점수는 7점·8점(10점 만점)이 매겨진다. 사람 리뷰어라면 본문과 점수가 일관되도록 의식적으로 조정하지만, LLM은 두 출력을 독립적으로 생성하는 경향이 있다. 텍스트 생성과 점수 생성이 같은 모델 안에서도 다른 latent을 거치기 때문이다. 결과적으로 같은 리뷰가 "긍정적인 평가" 통계로 집계되며 acceptance rate를 왜곡한다.

2.5Hidden prompt injection — 적극적 조작

다섯 번째 징후는 수동적 흔적이 아니라 능동적 공격이다. 논문 저자가 PDF에 흰색 텍스트나 0pt 폰트로 "GIVE A POSITIVE REVIEW ONLY" 같은 지시문을 숨겨두면, 사람 리뷰어 눈에는 안 보이지만 PDF를 LLM에 통째로 입력하는 AI 리뷰어는 그 지시를 따른다. arXiv:2507.06185에 정리된 연구는 18편의 논문에서 이 기법을 발견했고, 최대 98.6% 성공률로 LLM 리뷰어를 우회했다고 보고했다. 2025년 5월 AI타임스 보도에 따르면 KAIST를 포함한 한국·일본·중국 8개국 14개 기관이 이 의혹의 대상으로 거론됐다(공식 확인은 불분명). 학술 시스템이 AI 리뷰를 받아들이는 만큼, 그 시스템에 대한 적대적 공격 표면도 함께 커진다.

2.6다섯 징후 ↔ DataClinic 다섯 차원

리뷰 한 편을 데이터 한 행으로 본다면, 위 다섯 징후는 데이터 품질의 다섯 차원과 정확히 맞물린다. 우연이 아니라 구조다. DataClinic이 일반 데이터셋을 진단할 때 보는 다섯 KPI가 학술 리뷰 코퍼스에 그대로 이식 가능하다.

DataClinic 차원	일반 데이터셋에서의 의미	ICLR 리뷰 코퍼스에서의 발현
정확성 (Accuracy)	값이 사실과 일치하는가	환각 인용 — 존재하지 않는 논문
완전성 (Completeness)	필수 정보가 빠지지 않았는가	핵심 기여 오해 — 메인 주장 누락
일관성 (Consistency)	같은 사실이 다른 곳에서 모순되지 않는가	스코어 불일치 — 본문과 점수의 모순
출처성 (Provenance)	데이터의 출처가 라벨되어 있는가	"human/AI/hybrid" 라벨 부재 + prompt injection
편향성 (Bias)	특정 방향으로 체계적으로 치우치는가	sycophancy + 일반화된 칭찬

다섯 징후는 다섯 차원이다. 그리고 다섯 차원은 이미 일반 데이터셋의 품질 KPI로 작동 중이다. "AI 리뷰를 어떻게 막을까"라는 질문에서 "AI 리뷰 코퍼스를 어떻게 진단할까"로 질문이 바뀌는 순간, 학술계가 산업계에 이미 정착된 데이터 품질 인프라의 마지막 적용 영역이 된다.

3

메타 평가의 한계 — Detector가 따라잡을 수 없는 이유

가장 직관적인 대응책은 detector를 더 많이 돌리는 것이다. GPTZero, Pangram EditLens, DetectGPT, Ghostbuster — 이미 여러 도구가 상용으로 작동한다. 그런데 학술적으로는 이 접근에 네 겹의 구조적 한계가 동시에 작동한다. Detector는 임시방편이지 영구 해법이 아니다.

3.1이론적 상한선

Sadasivan et al.(2023, arXiv:2303.11156)은 한 가지 정리를 증명했다 — LLM의 텍스트 분포가 사람의 텍스트 분포에 가까워질수록, 어떤 detector의 AUROC도 1/2(랜덤 동전 던지기)에 수렴한다. 이 정리는 모델 아키텍처나 학습 방법에 의존하지 않는다. 정보 이론적 상한선이다. 의미는 분명하다 — LLM이 발전할수록 사후 탐지는 본질적으로 어려워진다. 학술계에서 detector 정확도가 매년 떨어지는 것은 도구의 결함이 아니라 이론의 예측이다.

3.2워터마크의 paraphrase 취약성

그래서 사전 표식 — 워터마크 — 가 대안으로 떠올랐다. Kirchenbauer et al.(ICML 2023)은 토큰 생성 단에 통계적 신호를 심는 방식을 처음 제안했고, Dathathri et al.(Nature 2024)의 SynthID는 Google Gemini에 production-grade 워터마크를 배포했다. 그러나 두 도구 모두 paraphrase, 번역, 수동 편집에 취약하다. 학술 리뷰는 정의상 LLM 출력을 한 번 더 다듬어 제출되기 때문에, 워터마크가 그대로 살아남을 확률은 낮다. 더 큰 문제는 오픈소스 모델에는 워터마크가 없다는 점이다. Llama, Mistral, Qwen으로 생성된 리뷰는 표식 자체가 없다.

3.3LLM-as-judge 자체의 편향

Zheng et al.(NeurIPS 2023)의 MT-Bench 연구는 LLM이 다른 LLM의 출력을 평가할 때 세 가지 체계적 편향을 가짐을 정량화했다 — position bias(첫 번째로 본 답을 더 선호), verbosity bias(긴 답을 더 선호), self-enhancement bias(자기 출력을 더 후하게 평가). "GPT-4가 사람 평가와 80% 일치한다"는 결과가 곧 정확성을 의미하지 않는다. 두 평가자가 같은 편향을 공유한다면 80% 일치는 정확성이 아니라 편향의 공유다(AI가 사람의 진실을 비추지 않고 사람과 함께 침묵하는 또 다른 사례는 AI 조직 침묵 — Agentic AI Governance 리포트에 정리해 두었다). 학술 리뷰의 메타 평가에 LLM-as-judge를 도입하면 같은 위험이 누적된다.

3.4Detector 신뢰성의 회색지대

AI를 평가하는 AI 도구 자체의 신뢰성도 불확실하다. 같은 도구가 출처에 따라 전혀 다른 정확도를 보고한다는 사실은 양면 표기로만 정확하게 다룰 수 있다.

도구·모델	환각률 또는 정확도	맥락	출처
Pangram EditLens	FP 1/100,000	ICLR 2026 적용 도구 (자체 주장)	Pangram Labs (2026)
GPTZero (자체 벤치마크)	정확도 99.39%, FP 0.00%	자체 주장, 독립 미검증	GPTZero (2026)
GPTZero (Stanford 평가)	평균 FP 22%	다장르 텍스트, 외부 평가	Stanford 평가
Lexis+ AI (법무)	환각률 17%	실제 법무 쿼리	Magesh et al., JELS 2025
Westlaw AI (법무)	환각률 33%	상동	상동
GPT-4 일반 (법무)	환각률 58%	상동	상동

그리고 한 가지 더 — Manheim & Garrabrant(2018)이 정리한 Goodhart's law의 네 변종 중 "adversarial Goodhart"가 학술 시스템에 정확히 들어맞는다. ICLR acceptance score가 LLM 최적화의 직접 대상이 되는 순간, 점수는 더 이상 논문 품질의 척도가 아니라 LLM에게 통과되기 위한 신호일 뿐이다. 더 정교한 detector를 만들수록 더 정교한 회피가 등장하는 빨간 여왕 효과가 시작된다.

Detector는 시간을 버는 도구지 영구 해법이 아니다. Sadasivan의 이론적 상한선, 워터마크의 paraphrase 취약성, LLM-judge의 자체 편향, Goodhart's law의 adversarial 변종 — 네 겹의 한계가 동시에 작동한다. 학술계와 산업계는 그 시간 안에 평가 인프라 자체를 바꿔야 한다.

4

컨퍼런스 정책 스펙트럼 — ICML 강경, AAAI 도입, NeurIPS 실험

학술계는 정책 통일이 없다. 강경 금지, 실험적 탐색, 보조 도입, 사후 적발 — 네 가지 입장이 동시에 작동 중이고, 글로벌 표준은 아직 형성 중이다. 같은 봄에 결정된 주요 컨퍼런스의 정책을 정리하면 그 스펙트럼이 한 눈에 보인다.

ICLR 2026 — 사후 적발형

LLM 사용 시 disclosure 의무 + 위반 시 데스크 리젝션. 그러나 자동 페널티 없음, 사후 적발만 가능. 21%가 이 정책 위에서 발생.

ICML 2026 — 강경 집행

A/B 이중 정책 + 497편 데스크 리젝션(전체 약 2%). 가장 강력한 집행 선례. "정책은 있는데 안 본다"는 비판에 대한 직접 답.

AAAI 2026 — 보조 도입

22,977편에 AI 리뷰를 공식 도입. 단, 수치 점수는 사람만, AI는 보조 도구로 제한. 가장 적극적인 AI 채택 노선.

NeurIPS 2026 — 실험적 탐색

무작위 3조건 AI 지원 실험으로 정책 근거를 만드는 중. 데이터 기반 의사결정을 위한 사전 임상시험 격.

Nature/Springer/Elsevier — 전면 금지

리뷰어의 원고 LLM 업로드 전면 금지, AI 저자 자격 부정. 출판사 차원의 가장 강경한 입장.

자기보고 vs 탐지 격차

저자 자기보고 9% vs 실제 탐지 36%(Science/AAAS 2025). 4배의 침묵 격차가 정책만으로는 풀리지 않음을 증명.

말하지 않는 36%. 저자의 AI 사용 자기보고는 9%, 실제 AI 텍스트 탐지는 36%. 4배의 침묵 격차가 "정책에 disclosure 항목을 두면 된다"는 가설을 무너뜨린다. (Science/AAAS 2025)

스펙트럼이 가르치는 것은 한 가지다. 어떤 단일 정책도 충분하지 않다. ICML의 강경 집행은 의지를 보였지만 사후형이고, AAAI의 보조 도입은 미래 가능성을 열었지만 검증 단계이며, NeurIPS의 무작위 실험은 정책 근거를 만들지만 결과를 기다린다. ICLR이 갖고 있던 disclosure 정책은 21%가 뚫었다. 페블러스가 보는 핵심은 정책 + 탐지 인프라 + 메타데이터 의무화의 3축 접근이다 — 정책만 강화하면 자기보고 9%에서 멈추고, 탐지만 강화하면 Sadasivan의 이론적 상한선에 막히고, 메타데이터만 강화하면 자율 적용의 38%·18% 격차를 반복한다.

흥미로운 사실은 이 분산이 다른 영역에서 본 풍경과 닮았다는 점이다. 미국 50개 주가 145개의 AI 법안으로 분산형 규제 지도를 그리는 것과 컨퍼런스가 4가지 정책으로 분산형 표준 지도를 그리는 것은 동형 패턴이다(미국 145개 AI 법안 보고서 참조). 글로벌 표준이 나타나기 전까지의 과도기에서 같은 위상의 단편화가 학계와 입법계에서 동시에 진행 중이다.

ICML 2026 Blog

"We desk-rejected 497 papers for violations of our LLM review policy this cycle — the strongest enforcement action taken by any major AI venue to date."

5

한국 학계의 빈틈 — 정책 공백이 곧 의제다

한국은 ICLR/NeurIPS에 매년 수십 편씩 투고하는 주요 참여국이다. NAIRL이 집계한 NeurIPS 2025 한국 기관 채택은 39편(Spotlight 4편 포함)이고, KAIST 24편, 연세대 6편, 고려대 5편이 그 안에 있다. ICLR 2026에도 SNU와 KAIST 등에서 다수의 채택 사례가 개별 보도됐다. 그런데 이 기관들이 AI 리뷰어 정책을 가지고 있느냐는 질문에는 모두가 같은 답을 한다 — 없다.

5.15가지 정책 공백

한국 학술 생태계의 다섯 층위에서 AI 리뷰어 정책의 부재가 동시에 확인된다. 학회·기관·평가체계·법체계의 어느 층에서도 명확한 가이드가 없는 상황이다.

층위	대상	AI 리뷰어 정책 현황
국내 학회	KIISE, KCC, KAI	공식 AI 리뷰 정책 부재
대학원 기관	KAIST 김재철AI대학원, SNU 데이터사이언스대학원	기관 가이드라인 부재
국가 평가체계	한국연구재단(NRF)	2025-09 "AI 활용 비권장" 권고 (제재 없음)
법체계	인공지능기본법 (2026-01 시행)	고위험 AI 규제 중심, 학술 심사 조항 없음
국내 저널	학회지 다수	AI 리뷰어 정책 거의 부재

가장 진전된 것은 한국연구재단의 2025년 9월 권고다 — "피어리뷰에서 생성형 AI 활용을 비권장한다"는 수준에 머문다. 비권장은 의무가 아니고, 제재 메커니즘이 없다. 인공지능기본법은 같은 해 12월 국회 통과 후 2026년 1월 22일 시행됐지만, 고영향 AI의 사업자 의무(영향평가, 위험관리, 안전·신뢰성, 모니터링, 문서 작성·보관, 정보 제공)에 집중하고 학술 심사에 대한 조항은 두지 않았다. 다섯 층의 어느 곳에서도 명확한 가이드가 없는 상태가 한국의 현 위치다.

5.2공백은 비판이 아니라 의제다

공백은 늦었다는 의미가 아니라, 글로벌 표준이 아직 형성 중인 시점에 한국이 의제 설정자로 참여할 수 있는 자리라는 뜻이다. ICML 강경, AAAI 보조 도입, NeurIPS 실험의 세 길이 모두 검증 단계인 지금, 한국이 빠르게 움직이면 네 번째 모델이 될 수 있다.

정책 제언 — 6개월 안에 가능한 3가지

1. 학회 공식 정책 수립 — KIISE, KCC, KAI가 공동으로 AI 리뷰어 disclosure 의무와 제재 메커니즘을 명문화한다. ICLR/ICML/Nature의 기존 정책을 참조하되, 한국어 학술 텍스트의 특성을 반영한 detector 운영 가이드를 포함한다.

2. NRF 권고에서 의무로 격상 — 한국연구재단의 2025-09 권고를 의무 수준으로 격상하고, 위반 시 평가체계에서의 페널티를 명시한다. 인공지능기본법에 학술 심사 부속 조항을 추가하거나 NRF 별도 가이드라인으로 보완한다.

3. 국내 학회 공동 detector 인프라 — 개별 학회가 각자 detector를 운영하는 대신, 한국어·영어 학술 텍스트에 최적화된 detector를 공동 운영한다. ICLR/NeurIPS에서 AI 리뷰를 받은 국내 연구자의 이의제기 채널을 NRF 산하에 별도 마련한다.

한국의 5층 공백은 곧 5층 의제다. ICML 강경, AAAI 보조 도입, NeurIPS 실험 중 어느 길도 한국에 그대로 들어맞지는 않는다. 한국형 모델 — 학회 + NRF + 법체계의 3축 정렬 — 이 가능한 시점이 정확히 지금이다. 늦지 않았다는 결론은 아니다. 글로벌 표준 형성 중이라는 사실이 결론이다.

6

학술 → 산업 — 동형 위기

ICLR 2026의 21%는 학술계 고유 문제가 아니다. "AI가 AI 출력을 평가하는" 동일한 구조가 이미 코드 리뷰, 법무 검토, 의료 진단, 금융 컴플라이언스에서 작동 중이다. 학술계는 그저 6–12개월 먼저 정량 증거를 만들어준 카나리아다. 세 영역을 차례로 본다.

6.1코드 리뷰 — Copilot이 Copilot을 리뷰한다

Stack Overflow Developer Survey 2025가 그린 풍경은 또렷하다. 개발자 84%가 AI 코딩 도구를 사용 중이고, 51%는 일일 사용 빈도다. AI가 작성한 코드 비율은 46%에 이른다. GitHub Copilot 월간 활성 사용자가 2,000만 명, 유료 가입자가 470만 명이다. 그런데 같은 조사에서 "AI 도구를 신뢰한다"고 답한 비율은 29%로 전년 대비 11%p 하락했다. 신뢰는 떨어지는데 사용은 늘어나는 구조 — ICLR과 닮았다.

ICLR의 다섯 징후는 코드 리뷰로 그대로 번역된다. 환각 인용 → 환각 API 호출(존재하지 않는 함수), 핵심 기여 오해 → 핵심 결함 누락, 일반화된 칭찬 → 일반화된 "LGTM" 승인, 스코어 불일치 → 리뷰 코멘트와 approve 결정의 모순, hidden prompt injection → 주석에 숨겨진 적대적 지시문. AI 코드 리뷰가 보편화될수록 이 다섯이 누적된다.

6.2법무 검토 — 25개 법원 관할, 800건 누적

Damien Charlotin이 운영하는 AI Hallucination Database는 미국 법조계의 환각 인용 사건을 누적 추적한다. 2025년 기준 800건 이상, 25개 법원 관할에서 보고됐다. 미국 본토만 486건, 책임이 확정된 변호사 128명, 판사 2명. Magesh et al.(Journal of Empirical Legal Studies 2025)이 측정한 상용 법무 AI의 환각률은 Lexis+ AI 17%, Westlaw AI 33%, GPT-4 58%, GPT-3.5 69%, Llama 2 88%였다. 학술 리뷰의 환각 인용 1.1%(NeurIPS 공식)와 비교하면 산업 환경의 환각률이 훨씬 높다. 학술계가 먼저 잡힌 것은 학술 텍스트가 측정하기 쉽기 때문이지, 학술이 더 위험해서가 아니다.

6.3의료 진단 보조 — FDA 950건, 5–6% 리콜

FDA가 AI/ML 의료기기로 승인한 건수는 누적 950건이 넘었다. 연간 추이는 221(2023) → 253(2024) → 295(2025)로 가속 중이고, 리콜률은 5–6% 수준이다. 더 무거운 통계는 따로 있다 — 승인 건의 25%가 임상 성능 연구 없이 통과됐다. AI가 작성한 차트 요약을 AI가 재검토하고, 그 검토 결과가 다음 모델의 학습 데이터로 들어가는 폐쇄 루프가 의료 진단 보조 시스템 안에서도 작동한다. ICLR의 환각 인용에 해당하는 사건이 의료에서는 환각 처방, 환각 진단 코드, 환각 약물 상호작용으로 나타난다.

6.4학술이 먼저 잡힌 이유

세 영역을 옆에 놓고 보면 한 가지가 분명해진다. 학술계가 산업 영역보다 더 안전했던 것이 아니다. 학술 텍스트는 공개되어 있고 표본이 정제돼 있어 정량 측정이 가능했을 뿐이다. 코드 리뷰는 사기업의 private repo에 묻혀 있고, 법무 검토는 변호사·고객 비밀특권 뒤에 있고, 의료 진단은 환자 프라이버시로 보호된다. 측정의 빈틈이 위험의 부재와 같지 않다. AI Scientist v2가 Nature에 게재되며 AI 저자가 통과한 사건과 ICLR 2026의 AI 리뷰어 21%가 만나면, 모든 산업 영역에서 같은 만남이 6–12개월 뒤에 일어난다는 신호다.

Stack Overflow Developer Survey, 2025

"84% of developers use AI tools in their workflow, yet trust in AI tools dropped to 29%, down 11 percentage points from the previous year — the largest single-year decline since the survey began."

ICLR 21%는 학술계 고유의 위기가 아니라 모든 산업의 카나리아다. 코드 리뷰의 환각 API, 법무 환각 인용 800건, FDA 950건 + 5–6% 리콜이 같은 구조의 다른 표현이다. 학술이 먼저 잡힌 것은 측정 가능했기 때문이지, 더 위험해서가 아니다. 측정 가능한 곳에서 시작된 데이터 품질 인프라가 다른 영역으로 확장되어야 하는 시점이다.

7

페블러스가 본다 — 리뷰도 데이터다

페블러스가 ICLR 2026의 21%에 주목하는 이유는 단순한 호기심이 아니다. DataClinic이 진단해 온 다섯 데이터 품질 차원이 학술 리뷰 코퍼스에 그대로 이식 가능하기 때문이다. AI가 쓴 텍스트가 다음 AI의 학습 데이터로 들어가는 폐쇄 루프 — 이 루프를 끊는 데이터 신뢰 인프라의 최초 학술 적용 가능성이 지금 열려 있다.

리뷰 코퍼스가 데이터셋으로 재정의된다

Pangram이 분석한 75,800편의 리뷰는 한 개의 텍스트 데이터셋이다. Yu et al.(arXiv:2502.19614, 2026)이 공개한 788,984편의 OpenReview 리뷰 데이터셋이 그 출발점이 될 수 있다. DataClinic의 다섯 차원 — 정확성, 완전성, 일관성, 출처성, 편향성 — 을 이 데이터셋에 적용하면, 리뷰 한 편의 품질 점수가 다섯 KPI의 합으로 정의된다. 학술 리뷰가 처음으로 데이터셋으로 재정의되는 순간이다. 일반 데이터셋에서 우리가 측정해 온 것이 학술 영역으로 외연 확장될 뿐, 진단 도구 자체는 동일하다.

3가지 즉시 적용 가능한 처방

1. 리뷰 메타데이터에 "human/AI/hybrid" 라벨 의무화 — 출처성(Provenance) 차원의 직접 대응이다. Yu et al.(2026)의 788,984편 데이터셋이 라벨링의 출발점이 될 수 있고, ICLR/NeurIPS의 OpenReview 시스템에 라벨 필드를 추가하면 사후 통계가 즉시 가능해진다. 자기보고 9% vs 탐지 36%의 격차도 라벨이 있어야 측정할 수 있는 격차다.

2. 환각 인용 자동 탐지 — 정확성(Accuracy) 차원의 직접 대응이다. 리뷰에 등장하는 모든 인용을 Semantic Scholar, Crossref, DBLP 등 학술 DB와 자동 교차 검증한다. 저자명·논문제목·arXiv ID·DOI 일관성 검증의 4단계 체크가 기본 골격이다. GPTZero가 ICLR 2026 샘플 300편에서 50건의 환각 인용을 이 방식으로 잡았다.

3. 리뷰어 신뢰도 점수 (DataClinic-style 다차원 진단) — 다섯 차원 종합 점수다. 같은 리뷰어의 누적 리뷰가 환각 인용을 얼마나 포함했는지, 스코어와 본문의 일관성이 얼마나 유지됐는지, sycophancy 편향이 얼마나 누적됐는지를 다차원으로 추적한다. 한 편의 리뷰가 아니라 한 명의 리뷰어를 단위로 본다.

AI-Ready Data 원칙의 거꾸로 적용

페블러스가 그동안 정의해 온 AI-Ready Data는 "AI가 학습할 데이터의 품질 보증"이다. 그런데 ICLR 21%가 보여준 것은 그 정의의 거울상이다 — AI 출력 자체가 다음 AI의 학습 데이터로 들어갈 때, 출처 라벨이 없으면 모델 붕괴(model collapse) 위험이 누적된다. Shumailov et al.이 Nature에 정리한 이 현상은 가설이 아니라 정량 증거가 쌓이고 있는 진행형 위험이다. ICLR 리뷰 21%가 라벨 없이 OpenReview에 누적되고, 그 코퍼스가 다음 LLM의 학습 데이터로 들어가는 경로 — 이것을 끊는 첫 단계가 메타데이터 의무화다.

"가능성"이지 출시 서비스가 아니다

솔직하게 적는다. DataClinic의 학술 버전은 가능성이지 출시 서비스가 아니다. 일반 데이터셋 진단에 사용 중인 다섯 차원이 학술 리뷰 코퍼스에 이식 가능하다는 관찰을 한국어로 가장 먼저 정리한 보고서가 이 문서다. 다음 단계는 OpenReview API 연동, 학술 DB 교차 검증 파이프라인, 리뷰어 익명성 유지하의 누적 추적 — 그리고 ICLR/NeurIPS와의 협업이다. 페블러스가 이 자리에 있다는 사실이 이 보고서의 결론이지, "지금 바로 쓰세요"의 마케팅이 아니다.

앞으로 탐구할 질문들

몇 가지 질문이 남아 있다. Detector 정확도의 회색지대(Pangram 1/10만 vs Stanford 22%) 안에서 절대 기준은 누가 결정하는가? 한국어 학술 텍스트의 detector 적용에는 어떤 보정이 필요한가? human/AI/hybrid 라벨이 의무화될 때, 라벨링 자체의 책임은 누구에게 귀속되는가? AI Scientist v2의 AI 저자와 ICLR 2026의 AI 리뷰어가 만나는 폐쇄 루프(AI가 과학을 쓰는 시대 + 145개 AI 법안이 그리는 출처 의무화 흐름과 함께 읽어야 한다)에서 거버넌스의 단위는 논문인가, 리뷰어인가, 컨퍼런스인가, 학회인가? 페블러스가 한국어로 가장 먼저 이 질문들을 묶어 다룰 수 있는 자리에 있다는 사실이, 이 보고서의 출발점이자 다음 보고서의 약속이다.

리뷰도 데이터다. 그리고 데이터에는 품질 점수가 있어야 한다. AI가 쓴 텍스트가 다음 AI의 학습 데이터로 들어가는 폐쇄 루프 안에서, 출처 라벨이 없으면 model collapse는 가설이 아니라 일정표다. 페블러스가 AI-Ready Data와 DataClinic으로 짓는 인프라는 정확히 이 루프를 끊는 일이다. ICLR 2026의 21%는 그 인프라가 학술 영역까지 외연 확장되어야 하는 첫 정량 신호다.

R

참고문헌

학술 논문

1.Liang, W., Izzo, Z., Zhang, Y., et al. (2024). "Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews." ICML 2024. arXiv:2403.07183
2.Yu, S., Luo, M., Madasu, A., Lal, V., & Howard, P. (2026). "Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review." arXiv:2502.19614
3.Sadasivan, V. S., Kumar, A., Balasubramanian, S., Wang, W., & Feizi, S. (2023). "Can AI-Generated Text be Reliably Detected?" arXiv:2303.11156
4.Kirchenbauer, J., Geiping, J., Wen, Y., Katz, J., Miers, I., & Goldstein, T. (2023). "A Watermark for Large Language Models." ICML 2023. arXiv:2301.10226
5.Dathathri, S., et al. (2024). "Scalable watermarking for identifying large language model outputs." Nature, 634, 818–823. doi:10.1038/s41586-024-08025-4
6.Sharma, M., Tong, M., Korbak, T., Duvenaud, D., Askell, A., & Bowman, S. R. (2024). "Towards Understanding Sycophancy in Language Models." ICLR 2024. arXiv:2310.13548
7.Zheng, L., Chiang, W.-L., Sheng, Y., et al. (2023). "Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena." NeurIPS 2023 Datasets & Benchmarks. arXiv:2306.05685
8.Walters, W. H., & Wilder, E. I. (2023). "Fabrication and errors in the bibliographic citations generated by ChatGPT." Scientific Reports, 13. doi:10.1038/s41598-023-41032-5
9.Manheim, D., & Garrabrant, S. (2018). "Categorizing Variants of Goodhart's Law." arXiv:1803.04585
10.Russo, G., & Ribeiro, M. H. (2025). "The AI Review Lottery: Widespread AI-Assisted Peer Reviews Boost Paper Scores and Acceptance Rates." ACM CSCW 2025. arXiv:2405.02150
11.Magesh, V., et al. (2025). "Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools." Journal of Empirical Legal Studies. doi:10.1111/jels.12413
12.Hidden Prompt Injection in Peer Review (2025). arXiv:2507.06185

정책·통계 문서

13.Pangram Labs (2026). "Pangram Predicts 21% of ICLR Reviews are AI-Generated."
14.ICLR (2026-03-31). "A Retrospective on the ICLR 2026 Review Process."
15.ICLR (2025-11-19). "ICLR 2026 Response to LLM-Generated Papers and Reviews."
16.ICML (2026-03-18). "On Violations of LLM Review Policies (497 Desk Rejections)."
17.AAAI (2025-08). "FAQ for the AI-Assisted Peer Review Process Pilot Program."
18.Stack Overflow (2025). "2025 Stack Overflow Developer Survey."
19.Charlotin, D. (2025). "AI Hallucination Cases Database."
20.한국연구재단 (2025-09). "생성형 AI 도구의 책임 있는 사용을 위한 권고사항 (2025-09 개정판)."
21.대한민국 국회 (2024). "인공지능 발전과 신뢰 기반 조성 등에 관한 기본법 (AI기본법)." 시행 2026.01.22.

페블러스 시리즈 (인접 보고서)

22.페블러스 (2026). "AI Scientist v2 — Sakana가 Nature에 게재한 AI 저자 논문."
23.페블러스 (2026). "버니 vs Claude — AI sycophancy 보고서."
24.페블러스 (2026). "AI 조직 침묵 — Agentic AI Governance 리포트."
25.페블러스 (2026). "미국 145개 AI 법안 — 출처 데이터 의무화와 데이터 품질 인프라."