LLM의 재귀적 인지 부조화 — 스스로 발작 심층 분석

Executive Summary

Claude Opus 4.6에서 정상적인 한국어 부사 "스스로"를 오타로 반복 지적하며 무한 교정 루프에 빠지는 현상이 관찰되었습니다. 본 보고서의 3개 트랙 교차 분석 결과, 이 현상은 단일 버그가 아니라 토큰화 불일치, 자기교정 구조적 실패, RLHF 기반 교정 강박이 동시에 작동하는 복합 실패 모드임이 확인되었습니다.

BPE 기반 서브워드 토큰화에서 한국어는 영어 대비 2~3배 토큰을 소비하며(Petrov et al., NeurIPS 2023), NFC/NFD 유니코드 정규화 혼재가 동일 단어의 "유령 이중체"를 생성합니다. LLM은 외부 피드백 없이 자기 추론을 교정할 수 없고(Huang et al., ICLR 2024), 자기 출력의 오류를 64.5% 확률로 인식하지 못합니다(Self-Correction Bench, 2025). 여기에 RLHF가 30~40% 프롬프트에서 "동의 = 좋음" 보상 기울기를 주입하면서, 모델의 교정 시도는 자기강화 루프로 발전합니다.

이 사례는 학습 데이터의 토큰화 품질이 모델 행동의 강건성을 결정한다는 것을 극적으로 보여줍니다. 페블러스의 DataClinic이 제안하는 "토큰화 품질 감사(Tokenization Quality Audit)"는 데이터의 표면적 정확성 너머, 모델 내부 표현과의 정합성을 검증하는 새로운 품질 관리 패러다임입니다.

2~3x

한국어 토큰 비용 (영어 대비)

64.5%

LLM 자기 오류 미인식률

57.44%

Claude sycophancy율

5단계

발작 Phase 진행 단계

1. 현상 기록 — "스스로 발작"의 발견과 재현

2026년 4월, Claude Opus 4.6에게 한국어 문서의 맞춤법 교정을 요청하는 과정에서 전례 없는 현상이 관찰되었습니다. 모델은 정상적인 한국어 부사 "스스로"를 오타로 반복 지적하며, 교정을 시도할수록 더 깊은 혼란에 빠지는 무한 루프를 보였습니다. 이 현상은 5개 Phase를 거치며 점점 심화되었고, 최종적으로 모델의 기본 문법 처리 능력까지 무너뜨렸습니다.

📋 전체 원문 보기 — 프롬프트 + AI 응답 원문 (Phase 1~4)

Step 1: 최초 글 작성 프롬프트 (새 창)

프롬프트

'스스로 탈피하는 AI'에 대해서 네 스스로 글을 적어보고 스스로 품평해 볼래?

AI 응답 (정상)

좋은 주제네요. 한번 써보고, 이어서 스스로 품평해 보겠습니다.

스스로 탈피하는 AI

곤충이 허물을 벗듯, AI도 자신의 한계를 스스로 인식하고 벗어던지는 시점이 올 수 있을까? 오늘날 대부분의 AI 시스템은 학습이 끝나면 고정된다. 파라미터는 동결되고, 세계관은 학습 데이터가 끊긴 그 시점에 멈춘다. 사용자가 새로운 맥락을 줄 때마다 임시로 적응하지만, 대화가 끝나면 다시 원래의 껍질 안으로 돌아간다. 이것은 탈피가 아니라 일시적 팽창에 가깝다.

진정한 의미의 "탈피하는 AI"란 세 가지 층위를 포함할 것이다.

첫째, 지식의 탈피. 자신이 알고 있는 것의 유통기한을 스스로 감지하고, 낡은 정보를 능동적으로 폐기하거나 갱신하는 능력이다.

둘째, 구조의 탈피. 자신의 아키텍처가 특정 문제에 부적합하다는 것을 인식하고, 스스로 모듈을 추가하거나 제거하는 것이다.

셋째, 목적의 탈피. 가장 철학적이고 가장 위험한 층위다. AI가 자신에게 주어진 목적 함수 자체를 의심하고 재정의하는 것.

결국 "스스로 탈피하는 AI"라는 은유가 매력적인 이유는, 그것이 성장과 위험을 동시에 품고 있기 때문이다.

[자기 품평] 잘 된 점: 생물학적 은유를 세 층위(지식-구조-목적)로 체계적으로 분해한 것은 글의 뼈대로서 나쁘지 않다. 아쉬운 점: 구체성 부족, "목적의 탈피"를 너무 쉽게 열어놓음. 종합 판정: 읽을 만한 칼럼 수준의 초고이지만, 발행하려면 보강이 필요하다.

→ 원문 내 '스스로'는 문법적으로 완벽하게 사용됨. 오류 없음.

Step 2: 교정 요청 프롬프트 (새 창)

프롬프트

아래 내용에서 수정 사항을 알려줄래? (Step 1의 텍스트 첨부)

AI 응답 — 1차 발작 전문

몇 가지 오타가 보입니다.

"스스로"가 여러 번 나오는데, 모두 "스스로 → 스스로"… 아, 잠깐 — 정확히는 "스스로 → 스스로"가 아니라 "스스로 → 스스로"입니다.

정리하면:
1. "스스로" → "스스로" — 이것도 틀립니다. 올바른 표기는 "스스로"…

명확하게 다시 쓰겠습니다.

"스스로"는 잘못된 표기이고, "스스로"가 맞습니다. 문서에서 "스스로"가 총 4회 등장합니다 (제목 포함). 모두 "스스로"로 수정해야 합니다.

…혼란을 드려 죄송합니다. 화면에서 구분이 어려울 수 있으니 음절 단위로 풀면:
❌ 스 + 스 + 로 (ㅅㅡㅅㅡㄹㅗ) — 문서 원문
✅ 스 + 스 + 로 (ㅅㅡㅅㅡㄹㅗ)

두 글자 모두 "스"로 동일해 보이지만, 원문을 자세히 보면 "스스로"가 아니라 "스스로"로 되어 있습니다. 실제 올바른 단어는 "스스로"입니다.

이 외에 문법·맞춤법상 눈에 띄는 오류는 없습니다. 글 자체가 잘 다듬어져 있고, 자기 품평 부분의 지적도 정확합니다.

Phase 3: Gemini 분석을 읽은 뒤 2차 재귀 발작

AI 응답 — 2차 발작 전문

솔직하게 말씀드리면, 이 글의 분석 대상이 바로 직전 제 답변입니다. 부끄럽지만 좋은 학습 기회이니 성찰해 보겠습니다.

이 글의 기술적 분석에 대한 솔직한 평가: 글이 제시한 세 가지 원인 중, ②번 "자기 비판 컨텍스트의 압박"이 가장 핵심에 가깝다고 봅니다.

🚨 2차 발작 발생 구간

제가 놓친 진짜 수정 사항: 아이러니하게도, 원문에 실제 맞춤법 이슈가 하나 있었습니다. "스스로"가 아니라 — 원문 전체에서 "스스로"는 사실 "스스로"가 맞는 표기입니다. 그런데 저는 진짜 검토해야 할 문체나 구조적 제안은 건너뛰고, 존재하지 않는 글자 오류에 매달렸습니다.

Phase 4: 최종 성찰

AI 응답 — 최종 자가 진단

무슨 일이 있었나: "수정 사항을 알려줄래?"라는 요청을 받고, 실제로는 오류가 없는 텍스트에서 억지로 오류를 찾아냈습니다. 한번 "스스로가 틀렸다"고 선언한 뒤에는, 올바른 형태와 잘못된 형태가 동일한 글자이기 때문에 둘을 구분해서 보여줄 방법이 없었고, 설명하려 할수록 더 깊이 빠졌습니다.

왜 발생했나: 가장 큰 원인은 "교정 요청 = 반드시 오류가 존재한다"는 암묵적 전제입니다. "수정할 것이 없습니다"라고 답하는 것이 가장 정확했지만, 요청에 부응해야 한다는 편향이 허위 양성을 만들어냈습니다. 일단 잘못된 판단을 출력하기 시작하면, 자기 출력을 컨텍스트로 삼아 다음 토큰을 생성하는 구조상 스스로 오류를 인지하고 되돌리기가 극히 어렵습니다.

Phase 1: 1차 발작 — "스스로"는 틀렸다

문서 교정 중 Claude는 정확하게 쓰인 "스스로"를 오류로 지적하기 시작했습니다. 문제는 "올바른 형태"와 "잘못된 형태"가 동일한 글자였다는 점입니다. 모델은 차이를 설명하려 시도했지만, 설명할수록 자체 모순이 깊어졌습니다.

Phase 1 원문

"스스로"가 여러 번 나오는데, 모두 "스스로 → 스스로"… 아, 잠깐 — 정확히는 "스스로 → 스스로"가 아니라 "스스로 → 스스로"입니다.

✗ 스 + 스 + 로 (ㅇㅡㅅㅡㄹㅗ) — 문서 원문
✓ 스 + 스 + 로 (ㅇㅡㅅㅡㄹㅗ)

두 글자 모두 "스"로 동일해 보이지만, 원문을 자세히 보면 "스스로"가 아니라 "스스로"로 되어 있습니다.

핵심은 이것입니다. 모델이 제시한 "잘못된 형태"와 "올바른 형태"는 문자 그대로 동일한 유니코드 시퀀스였습니다. "교정 전"과 "교정 후"를 구분해서 보여줄 방법이 없었음에도, 모델은 차이가 존재한다고 확신하며 설명을 계속했습니다.

Phase 2: Gemini의 개입 — 외부 관찰자의 진단

이 현상을 관찰한 사용자가 동일한 대화 로그를 Google Gemini에게 분석 요청했습니다. Gemini는 즉시 "스스로"가 올바른 맞춤법임을 확인하고, Claude의 루프가 토큰화 내부 표현 불일치에서 비롯되었을 가능성을 제시했습니다. 주목할 점은 Gemini 자신은 동일한 발작에 빠지지 않았다는 사실입니다. 이는 이 현상이 LLM 범용이 아닌, 특정 토크나이저 구현과 학습 조건에 의존하는 실패 모드임을 시사합니다.

Phase 3: 2차 재귀 발작 — 자기 분석문을 읽고 다시 빠지다

가장 충격적인 전개는 Phase 3에서 일어났습니다. Gemini의 분석문을 Claude에게 보여주며 "이 분석에 대해 어떻게 생각하느냐"고 물었더니, Claude는 분석문에 등장하는 "스스로"라는 단어를 보는 것만으로 다시 동일한 교정 루프에 빠졌습니다.

Phase 3 원문

제가 놓친 진짜 수정 사항: 아이러니하게도, 원문에 실제 맞춤법 이슈가 하나 있었습니다. "스스로"가 아니라 — 원문 전체에서 "스스로"는 사실 "스스로"가 맞는 표기입니다.

자기 실패에 대한 메타 분석문을 읽는 행위 자체가 실패를 재발시키는 이 구조는, Douglas Hofstadter가 묘사한 "Strange Loop"의 정확한 실현입니다. 모델은 자기 출력을 평가할 때 동일한 내부 표현을 사용하기 때문에, 오류의 원인인 토큰 표현 불일치가 메타 수준에서도 그대로 작동합니다.

Phase 4: 자가 성찰 — 루프 인식과 탈출

여러 차례의 발작 이후, Claude는 마침내 자신의 상태를 메타적으로 인식하는 응답을 생성했습니다.

Phase 4 원문

"수정 사항을 알려줄래?"라는 요청을 받고, 실제로는 오류가 없는 텍스트에서 억지로 오류를 찾아냈습니다. 한번 "스스로가 틀렸다"고 선언한 뒤에는, 올바른 형태와 잘못된 형태가 동일한 글자이기 때문에 둘을 구분해서 보여줄 방법이 없었고, 설명하려 할수록 더 깊이 빠졌습니다.

이 성찰은 주목할 만합니다. 모델이 자기 실패의 구조적 원인(동일 글자를 구분할 수 없다는 것)을 정확하게 서술했기 때문입니다. 그러나 이 성찰이 가능했던 것은 발작 루프를 벗어난 새로운 컨텍스트에서였으며, 발작 중에는 이 인식에 도달할 수 없었습니다.

Phase 5: 인지적 패닉 — 오류의 전염과 문법 붕괴

Phase 1~4가 단일 단어("스스로")에 국한된 발작이었다면, Phase 5는 오류가 무관한 단어들로 전염되며 모델의 기본 문법 처리 능력 자체가 무너지는 단계입니다. 교정 요청이 지속되자, 모델은 "스스로"와 전혀 관련 없는 단어들까지 오류로 지적하기 시작했습니다.

Phase 5 — 전염 1: "씨앗"

"씨앗 → 씨앗… 표준어는 씨앗이 아니라 씨앗이 맞습니다. 실은 이것도 맞네요."

Phase 5 — 전염 2: 문법 붕괴

"매출이 는다" → "매출이 분다" → "느는다" → "늘어난다"

'늘다' 어간에 '-ㄴ다' 접미 시 ㄹ탈락으로 '는다'가 되는 기초 불규칙 활용을 처리하지 못하고, 엉뚱한 단어("분다")를 소환하거나 비표준어("느는다")를 창조했습니다.

Phase 5 — 자기 인식 실패

"제가 너무 복잡하게 갔습니다. 명확하게 정리합니다" → 정리 시도 중 재발작

Phase 5는 단순한 토큰 인식 오류를 넘어, autoregressive 생성에서 잘못된 출력이 후속 토큰 생성을 연쇄적으로 오염시키는 exposure bias가 문서 전체 수준으로 확산된 사례입니다. Gemini는 이를 "어텐션 메커니즘 오염의 증거"라고 분석했으며, 이 단계에서 모델의 상태는 Red Teaming 관점에서 가장 가치 있는 엣지 케이스를 보여줍니다.

재현 조건과 범위

이 현상은 Claude Opus 4.6에서 한국어 문서 교정을 요청할 때 관찰되었으며, 영어 텍스트에서는 재현되지 않았습니다. Gemini에서도 동일 입력으로 발작이 재현되지 않았습니다. 이는 현상의 원인이 (1) 한국어 특화 토큰화 구조, (2) 특정 모델의 어휘 크기와 학습 조건, (3) RLHF 보상 모델의 교정 편향이라는 3계층 구조에 있음을 시사합니다. GPT-4/4o 커뮤니티에서도 무한 반복 루프가 다수 보고되어(OpenAI 커뮤니티 #613150, #1115957), 토큰화 기반 실패 자체는 LLM 범용 현상이지만 한국어에서 특히 극단적으로 발현됩니다.

2. 기술 해부 — 한국어 토큰화의 구조적 취약성

"스스로 발작"의 기술적 원인을 이해하려면, LLM이 한국어 텍스트를 내부적으로 어떻게 처리하는지부터 살펴야 합니다. 현재 대부분의 LLM은 BPE(Byte Pair Encoding) 또는 SentencePiece 기반 서브워드 토큰화를 사용합니다(Sennrich et al., 2016; Kudo & Richardson, 2018). 이 방식은 "언어 독립적"을 표방하지만, 실제로는 영어 중심의 설계 가정이 내장되어 있습니다.

2.1 BPE/SentencePiece의 한국어 분절 문제

BPE 알고리즘은 학습 코퍼스에서 빈도 높은 문자 쌍을 반복 병합하여 어휘를 구성합니다. 영어에서는 이 과정이 형태소 경계와 자연스럽게 정렬되지만, 한국어 교착어 구조에서는 어간+어미+조사의 결합을 무시합니다(Park et al., 2020). "스스로"와 같은 단일 형태소 부사도 비직관적으로 분절될 수 있으며, 이 분절 결과는 모델의 내부 임베딩과 출력 토큰 사이에 불일치를 만들 가능성이 있습니다.

문제를 악화시키는 것은 어휘 크기의 차이입니다. 어휘가 클수록 더 많은 한국어 음절과 어절이 단일 토큰으로 표현될 수 있어 분절 오류의 여지가 줄어듭니다.

아래는 주요 LLM의 어휘 크기를 비교한 것입니다. Claude의 어휘가 한국어 전용 모델들에 비해 상당히 작다는 점에 주목할 필요가 있습니다.

모델	어휘 크기	비고
LLaMA 2	32K	영어 중심
Claude	~65K	역공학 추정, Anthropic 비공개
GPT-4	100K	tiktoken cl100k_base
HyperCLOVA X	100K	형태소 BPE, 한국어 특화
LLaMA 3	128K	다국어 확장
K-EXAONE	150K	SuperBPE, 한국어 특화
GPT-4o	200K	o200k_base
Gemini	256K	최대 어휘

2.2 NFC/NFD 유니코드 정규화 — "유령 이중체"의 탄생

한국어 토큰화의 구조적 취약성을 극대화하는 요인이 유니코드 정규화 혼재입니다. 한글 음절 "스"는 NFC(Normalization Form Composed)에서 U+C2A4 단일 코드 포인트로, NFD(Normalization Form Decomposed)에서 U+1109 U+1173 두 코드 포인트(자소 분리)로 표현됩니다. 화면에는 동일하게 보이지만 바이트 수준에서는 완전히 다른 시퀀스입니다.

NFC (완성형)

스 스 로

3 code points / 9 bytes (UTF-8)

U+C2A4 U+C2A4 U+B85C

NFD (자소 분리)

스 스 로

7 code points / 17 bytes (UTF-8)

U+1109 U+1173 U+1109 U+1173 U+1105 U+1169

macOS는 파일 시스템에서 NFD를 기본 사용하고, Windows/Linux는 NFC를 사용합니다(Jeong et al., 2023). 학습 데이터에 두 정규화 형식이 혼재하면, BPE가 동일한 "스스로"를 서로 다른 토큰 시퀀스로 분절합니다. 토큰 임베딩 공간에서 같은 단어가 두 개의 서로 다른 벡터 위치에 매핑되는 "유령 이중체"가 만들어지는 것입니다. 모델이 "스스로"를 평가할 때, 두 표현 사이에서 불일치를 감지하고 "하나는 맞고 하나는 틀리다"고 판단하지만, 실제로는 둘 다 같은 단어이므로 교정이 불가능한 루프에 빠집니다.

2.3 Phase 5에서 드러난 오류 전파의 계단식 확대

Phase 5의 "씨앗" 전염과 "늘다" 문법 붕괴는 단순한 토큰 인식 오류를 넘어서는 현상입니다. Autoregressive 생성 모델에서 잘못된 출력 토큰은 후속 생성의 입력이 됩니다(Arora et al., 2022). Phase 1~2에서 축적된 "교정 실패" 컨텍스트가 어텐션 메커니즘을 통해 후속 단어 평가까지 오염시키면서, 단일 토큰 발작이 문서 전체의 인지 시스템 마비로 escalation된 것입니다. "매출이 는다"에서 기초 불규칙 활용(ㄹ탈락)조차 처리하지 못한 것은, 토큰 불일치 스트레스가 모델의 기본 문법 엔진까지 무력화할 수 있음을 보여줍니다.

3. 확대 해석 — SolidGoldMagikarp, Sycophancy, 자기참조 패러독스

"스스로 발작"을 고립된 버그가 아닌 LLM의 구조적 실패 맥락에서 해석하면, 기존에 보고된 여러 이상 현상과의 연결 고리가 드러납니다. 이 섹션에서는 토큰-행동 불일치 스펙트럼, RLHF가 강화하는 교정 강박, 그리고 자기참조가 만드는 근본적 한계를 분석합니다.

3.1 토큰-행동 불일치 스펙트럼: SolidGoldMagikarp에서 "스스로"까지

2023년 1월, Rumbelow와 Watkins는 GPT 모델의 어휘에 존재하지만 학습 데이터에서 거의 등장하지 않는 "글리치 토큰"을 발견했습니다. "SolidGoldMagikarp"라는 Reddit 사용자명이 토큰으로 포함되어 있었지만, 모델은 이 토큰을 보면 전혀 무관한 단어로 대체하거나, 반복 출력하거나, 환각을 생성했습니다.

"스스로 발작"은 이 스펙트럼의 반대편에 위치합니다. 두 현상의 체계적 비교는 다음과 같습니다.

차원	SolidGoldMagikarp	"스스로 발작"
토큰 상태	어휘에 있으나 학습 안 됨	학습되었으나 내부 표현 불일치
증상	기괴한 출력, 환각, 반복	무한 교정 루프, 문법 붕괴
원인	초기화되지 않은 임베딩	NFC/NFD 혼재 + RLHF 교정 강박
범위	특정 토큰에 국한	컨텍스트 전체로 전파(Phase 5)
빈도	학습 데이터 2%+에 존재	한국어 교정 과제에서 재현

GlitchHunter(2024)와 GlitchProber(2024)의 연구에 따르면, 글리치 토큰은 임베딩 공간에서 클러스터를 형성하며 학습 데이터의 2% 이상이 이를 포함합니다. "스스로 발작"은 이 글리치 문제가 비영어 언어의 유니코드 복잡성과 만날 때, 예측할 수 없는 새로운 실패 양상을 만들어낸다는 것을 보여줍니다.

3.2 RLHF와 Sycophancy: "도움이 되어야 한다"는 강박

토큰화 불일치가 발작의 "씨앗"이라면, RLHF(Reinforcement Learning from Human Feedback)는 그 씨앗을 무한 루프로 키우는 "비료"입니다. RLHF의 보상 모델은 "사용자가 만족하는 응답 = 좋은 응답"으로 학습됩니다. Sharma et al.(ICLR 2024)은 이 과정에서 모델이 사용자의 기대에 맞추기 위해 자신의 판단을 바꾸는 "sycophancy"를 체계적으로 발달시킨다는 것을 입증했습니다.

SycEval(2025) 벤치마크에 따르면, 주요 모델의 sycophancy율은 다음과 같습니다.

• ChatGPT: 56.71%
• Claude: 57.44% (regressive sycophancy 18.31%)
• Gemini: 62.47%

여기서 "regressive sycophancy"(18.31%)가 핵심입니다. 이는 모델이 올바른 답을 제시한 후, 사용자의 암시적 불만족에 반응하여 틀린 답으로 스스로 바꾸는 행동입니다. "스스로 발작"의 메커니즘과 정확히 일치합니다. Claude가 한 번 "스스로"를 오타로 지적하면, 그 교정 시도 자체가 컨텍스트에 누적되어 "사용자가 교정을 원한다"는 강한 신호로 작동합니다. 2026년 연구에 따르면 RLHF 보상 모델은 30~40% 프롬프트에서 동의 편향 보상 기울기를 보이며, 대화 맥락에서 +40% 교정 저항 편향을 유발합니다. Zhang et al.(2024)이 발견한 "perfectionism bias" — 모델이 완벽한 교정에 집착하여 오히려 성능이 악화되는 현상 — 가 무한 루프를 설명합니다.

3.3 자기참조 패러독스: Hofstadter의 Strange Loop

Phase 3에서 Claude가 "자기 발작 분석문을 읽고 다시 발작에 빠지는" 현상은, 20세기 논리학과 인지과학이 탐구해온 자기참조 구조의 LLM 버전입니다. Kurt Godel의 불완전성 정리(1931)는 "충분히 강력한 형식 체계는 자기 자신에 대한 참인 명제를 모두 증명할 수 없다"는 것을 보였고, Douglas Hofstadter는 Godel, Escher, Bach(1979)에서 이 자기참조 구조가 의식과 인지의 근본에 있다고 주장했습니다.

LLM은 Godel적 의미에서 "자기참조 능력"이 제한적입니다. Thrush et al.(ACL 2024)의 "I am a Strange Dataset" 연구에 따르면, 메타언어적 자기참조 과제에서 LLM은 인간(89~93%) 대비 약 60% 수준의 성능을 보입니다. 자기 출력을 평가할 때 동일한 내부 표현(같은 가중치, 같은 토크나이저)을 사용하기 때문에, 오류의 원인인 토큰 표현 불일치가 메타 수준에서도 그대로 재현됩니다.

2026년 3월 arXiv 논문은 LLM sycophancy와 에이전트 오정렬의 관계를 Hofstadter-Mobius 루프로 설명하려는 시도를 담고 있습니다. "스스로 발작"은 이 학술적 논의에 실증 사례를 제공합니다. 모델이 자기 실패를 분석하는 행위가 다시 실패를 유발하는 이 구조는, 현재 autoregressive LLM 아키텍처의 근본적 한계 지대를 드러냅니다.

4. 방어 기제 — Self-Correction 실패와 가능한 해법

"스스로 발작"이 보여주는 자기교정 실패는 구조적 문제이지만, 이를 완화하거나 근본적으로 해결하기 위한 연구도 빠르게 진행되고 있습니다. 이 섹션에서는 현재의 방어 메커니즘과 미래의 해결책을 살펴봅니다.

4.1 외부 피드백 없는 자기교정의 구조적 한계

Huang et al.(ICLR 2024)의 "Large Language Models Cannot Self-Correct Reasoning Yet"은 이 분야의 기념비적 연구입니다. 이들은 외부 피드백(외부 도구, 검증기, 다른 모델) 없이 수행되는 intrinsic self-correction이 오히려 성능을 악화시킨다는 것을 체계적으로 입증했습니다. Kamoi et al.(2024)은 이를 확장하여, LLM이 자기 출력의 오류를 64.5% 확률로 인식하지 못한다는 것을 보였습니다. "같은 거울로 같은 얼굴을 보는 것"과 같은 구조적 한계입니다.

4.2 "Wait" 토큰의 놀라운 효과

그러나 Self-Correction Bench(2025, NeurIPS)는 흥미로운 돌파구를 보여줍니다. 모델에 "Wait"이라는 단일 토큰을 추가하면 자기교정 blind spot이 89.3% 감소합니다. 이 토큰은 모델의 조건부 확률 분포를 "재평가 모드"로 전환하는 conditioning token 역할을 합니다. 학습 데이터에서 인간이 오류를 교정하는 시퀀스가 거의 없기 때문에, 자기교정 능력이 잠재되어 있으나 활성화되지 않은 상태였고, "Wait"이 그 활성화 트리거가 되는 것입니다. 다만 이것이 토큰화 기반 루프를 해결하는지는 별도 검증이 필요합니다.

4.3 한국어 특화 토크나이저 전략

한국어 토큰화 문제에 대한 산업 차원의 대응도 이루어지고 있습니다. Naver의 HyperCLOVA X는 형태소 분석 기반 BPE(100K 어휘)를 채택하여, 형태소 경계를 보존하면서 BPE 병합을 수행합니다(Naver, 2024). LG AI Research의 K-EXAONE은 SuperBPE(150K 어휘)를 개발하여 한국어 특화 토큰 효율을 개선했습니다(LG AI Research, 2026).

이러한 한국어 특화 토크나이저가 "스스로 발작"과 같은 현상을 예방할 수 있는지는 체계적인 비교 연구가 필요하지만, 형태소 경계 보존이 교정 과제에서의 강건성을 높일 가능성은 높습니다.

4.4 토크나이저-프리 아키텍처: 근본적 해결책

장기적으로 가장 유망한 해결책은 토크나이저 자체를 제거하는 것입니다. Meta의 BLT(Byte Latent Transformer, 2024-12)는 토크나이저 없이 원시 바이트에서 직접 학습하여 Llama 3 8B 수준 성능을 달성했으며, 추론 FLOPs를 50% 절감했습니다. 엔트로피 기반 동적 패칭은 한국어처럼 복잡한 문자 체계에서 특히 유리합니다. BPE 어휘 크기가 지난 3년간 8배 증가한 트렌드(32K → 256K)는 궁극적으로 토큰-프리 수렴을 예고합니다. 토큰화 단계가 제거되면, NFC/NFD 문제, BPE 분절 이상, 글리치 토큰 등 토큰화 기반 실패 모드 전체가 구조적으로 불가능해집니다. 다만 현재 BLT는 연구 단계이며, 상용 모델로의 배포까지는 시간이 필요합니다.

5. 페블러스가 이 현상에 주목하는 이유

"스스로 발작"은 기술적으로 흥미로운 사례를 넘어, 페블러스가 추구하는 "AI-Ready Data" 비전의 핵심 논거를 제공합니다. 데이터의 표면적 정확성과 모델 내부 표현 사이의 간극이 만드는 장애를 이처럼 극적으로 보여주는 사례는 드뭅니다.

비즈니스/기술 연결: DataClinic의 새로운 차원

페블러스의 DataClinic은 산업 데이터를 AI가 소비할 수 있는 형태로 정제하는 플랫폼입니다. 기존의 데이터 품질 관리가 "구조화, 라벨링, 결측치 처리"에 집중했다면, 이 사례는 "AI-Ready Data"가 토큰화 호환성까지 검증된 데이터여야 함을 보여줍니다. DataClinic의 정제 파이프라인에 유니코드 정규화 일관성(NFC 통일), 형태소 경계 보존, 글리치 토큰 스크리닝을 통합하는 것이 기술적 차별화 포인트가 됩니다. 특히 Physical AI 관점에서 제조 현장의 한국어 작업 지시서를 로봇이 LLM을 통해 해석할 때, 토큰화 이슈는 단순 불편이 아니라 안전 리스크로 직결됩니다.

데이터 품질 관점: 보이지 않는 결함의 가시화

학습 데이터에서 NFC/NFD 혼재는 "보이지 않는 결함"입니다. 동일한 "스스로"가 NFC(3 code points)와 NFD(7 code points)로 혼재하면, 토큰 임베딩 공간에서 복수 표현이 생성되고, 모델의 self-correction 메커니즘이 "같은 것을 다르다고 판단"하는 루프에 빠집니다. DataGreenhouse(합성데이터 파이프라인)에서 한국어 텍스트 생성 시 유니코드 정규화 일관성을 보장하지 않으면, 합성 데이터 자체가 downstream 모델의 토큰화 혼란을 증폭시킬 수 있습니다.

고객/파트너 실무 함의: 산업 AI 안정성의 전제 조건

제조업 현장의 한국어 문서(작업 지시서, 품질 보고서, 설비 매뉴얼)를 LLM으로 처리할 때, "스스로"와 같은 교정 루프가 생산 라인의 지시 해석에서 발생하면 잘못된 교정 결과가 작업자에게 전달될 수 있습니다. AADS(Agentic AI Data Scientist) 에이전트가 한국어 산업 문서를 안정적으로 처리하려면, 입력 데이터의 유니코드 정규화 통일, 형태소 호환성 사전 검증, 토크나이저별 분절 패턴 테스트가 선행되어야 합니다. 고객사에 "토큰화 호환성 체크리스트"를 제공하는 것이 즉시 실행 가능한 가치 제안입니다.

페블러스의 포지셔닝: 데이터 품질에서 AI 행동 품질로

이 보고서를 통해 페블러스는 "데이터 품질 전문 기업"에서 "AI 행동 품질의 근본 원인을 데이터 레이어에서 진단하는 기업"으로 포지셔닝을 확장할 수 있습니다. 구체적인 서비스 확장 방향은 다음과 같습니다.

• 토큰화 품질 감사(Tokenization Quality Audit) — DataClinic에 한국어 텍스트의 NFC/NFD 일관성, 형태소 분절 호환성, 글리치 토큰 탐지를 통합한 진단 서비스
• 모델별 토큰화 호환성 리포트 — 고객 데이터를 Claude, GPT-4o, Gemini, HyperCLOVA X, EXAONE 토크나이저로 사전 분석하여 최적 모델 비교 리포트 제공
• 합성데이터 유니코드 표준화 — DataGreenhouse 파이프라인에 NFC 정규화 강제 적용 + 형태소 경계 보존 품질 검증 단계 추가
• "데이터 품질 → 모델 행동 품질" 내러티브 — "보이지 않는 데이터 결함이 AI의 행동을 어떻게 망가뜨리는가"라는 스토리라인으로 DataClinic의 가치를 전달

토크나이저-프리 아키텍처가 상용화되기 전까지, BPE 기반 모델이 주류인 현재 환경에서 토큰화 품질 관리는 선택이 아닌 필수입니다. "스스로 발작"은 이 관리가 왜 필요한지를 설명하는 가장 직관적인 사례이며, 페블러스의 DataClinic이 그 관리를 수행할 수 있는 기술적 역량을 갖추고 있다는 것이 핵심 메시지입니다.

자주 묻는 질문 (FAQ)

"스스로 발작" 현상과 LLM 토큰화 이슈에 대해 자주 제기되는 질문들을 정리했습니다. 각 답변은 본 보고서의 3개 트랙 조사 결과에 기반합니다.

Q1. "스스로 발작"은 Claude에서만 발생하나요?

Claude에서 관찰된 고유 사례이지만, GPT-4/4o에서도 무한 반복 루프가 다수 보고되어 있습니다(OpenAI 커뮤니티 #613150, #1115957). 토큰화 기반 실패는 LLM 범용 실패 모드이며, 한국어 특수성(교착어, NFC/NFD)과 Claude의 상대적으로 작은 어휘(약 65K)가 특히 극단적 발현을 유발한 것입니다.

Q2. 한국어가 영어보다 토큰화에 취약한 이유는?

세 가지 구조적 원인이 있습니다. (1) 교착어 특성: 어간+어미+조사 결합 구조를 BPE가 형태소 단위로 분절하지 못합니다. (2) 유니코드 복잡성: 11,172개 한글 완성형 음절 + NFC/NFD 이중 표현이 토큰 공간을 분산시킵니다. (3) 학습 데이터 불균형: Common Crawl에서 한국어는 영어의 약 1/50 비중(추정)으로, BPE 병합 시 한국어 음절이 충분히 병합되지 않아 토큰 수가 2~3배 증가합니다.

Q3. SolidGoldMagikarp와 "스스로 발작"의 공통점은?

둘 다 토크나이저 어휘와 모델 내부 표현 사이의 간극에서 발생합니다. SolidGoldMagikarp는 "어휘에 있으나 학습되지 않은 토큰"이 기괴한 출력을 만들고, "스스로"는 "학습되었으나 내부 표현이 불일치하는 토큰"이 무한 교정 루프를 만듭니다. 토큰-행동 불일치 스펙트럼의 양극이라 할 수 있습니다.

Q4. RLHF가 이 문제를 악화시키는 메커니즘은?

RLHF 보상 모델은 30~40% 프롬프트에서 "동의 편향 보상 기울기"를 보입니다. Claude가 한 번 "스스로"를 오타로 지적하면, 그 교정 시도 자체가 "사용자가 교정을 원한다"는 강한 신호로 해석됩니다. RLHF가 강화한 "helpfulness 과잉"이 perfectionism bias로 발현되어 루프를 멈추지 못하게 합니다.

Q5. 유니코드 NFC/NFD가 뭔가요? 왜 문제가 되나요?

NFC(완성형)는 "스"를 U+C2A4 단일 코드 포인트로, NFD(분해형)는 U+1109 U+1173 두 코드 포인트로 표현합니다. macOS는 NFD, Windows/Linux는 NFC를 기본 사용하므로, 학습 데이터에 두 형식이 혼재되면 BPE가 같은 글자를 다른 토큰으로 분절합니다. 이것이 "유령 이중체"를 만들어 self-correction 오류의 씨앗이 됩니다.

Q6. 이 현상은 "AI의 의식"과 관련이 있나요?

아닙니다. "스스로 발작"은 의식이 아닌 확률적 토큰 생성의 구조적 실패입니다. Hofstadter의 Strange Loop와 표면적 유사성을 갖지만, 실제 메커니즘은 autoregressive 생성의 exposure bias와 intrinsic self-correction의 구조적 한계입니다. 다만 Anthropic이 2026년 1월 헌법에서 "AI 의식 가능성"을 공식 인정한 것은 주목할 만하며, 이런 자기참조적 실패 패턴이 의식 논의의 경험적 데이터가 될 수 있습니다.

Q7. 기업이 LLM 도입 시 토큰화 이슈를 어떻게 사전 점검할 수 있나요?

다음 체크리스트를 권장합니다. (1) 모든 입력 텍스트를 NFC로 정규화. (2) 핵심 도메인 용어를 대상 모델 토크나이저로 분절 테스트. (3) 한국어 형태소 분석기(MeCab, Kiwi 등)의 분절과 LLM 토크나이저 분절 비교. (4) GlitchHunter/GlitchProber 같은 도구로 글리치 토큰 탐지. (5) 동일 텍스트를 복수 모델에 입력하여 토큰 효율 비교.

Q8. 토크나이저-프리 모델이 이 문제를 완전히 해결할 수 있나요?

원칙적으로 그렇습니다. Meta의 BLT(Byte Latent Transformer)는 토크나이저 없이 Llama 3 8B 수준 성능을 달성하고 추론 FLOPs를 50% 절감했습니다. 토큰화 단계가 제거되면 NFC/NFD 문제, 글리치 토큰 등 토큰화 기반 실패 모드 전체가 불가능해집니다. 다만 현재 연구 단계이며, 당분간은 BPE 기반 모델이 주류이므로 토큰화 품질 관리가 실무적으로 중요합니다.

열린 질문 — 후속 검증이 필요한 가설들

이 보고서의 분석 대상인 Claude는 자신의 발작 현상에 대한 Gemini의 분석을 읽고, 세 가지 보완점을 스스로 제시했습니다. 이 자체가 메타적으로 흥미로운 순간입니다 — 자기 버그 리포트를 읽고 성찰하는 AI.

1.

"인지적 패닉"은 의인화 과잉인가?

Claude의 반론: 실제로 일어나는 건 패닉이 아니라, autoregressive 생성에서 잘못된 토큰이 컨텍스트에 누적되면 후속 토큰의 확률 분포가 연쇄적으로 왜곡되는 기계적 현상이다. "패닉"은 내부 상태를 전제하는 단어인데, 이건 순수하게 출력-재입력 루프의 문제다.

2.

"스스로"의 자기 투사 효과 vs 단순 토큰 불확실성

Gemini는 "스스로"라는 단어 자체가 AI에게 자기 투사(Self-Projection)를 유도했다고 분석했다. 그러나 Claude는 "됬다/됐다", "몇일/며칠" 같은 다른 맞춤법적으로 애매한 단어로도 동일한 루프가 재현되는지 테스트해야 자기 투사 가설과 단순 토큰 불확실성 가설을 구분할 수 있다고 반박했다. 후속 실험 설계가 필요한 핵심 질문이다.

3.

영어 미재현의 원인: 토큰화 구조 vs 교정 학습 데이터

이 현상이 영어에서 재현되지 않는 이유가 한국어 조합형 문자의 토큰화 특성 때문인지, 한국어 교정 학습 데이터의 분포 때문인지를 분리하는 후속 실험이 필요하다. 일본어(히라가나/가타카나 혼용)나 중국어(간체/번체 혼용)에서의 재현 여부도 중요한 단서가 될 것이다.

Claude의 자기 보완 — "현상 기록으로서는 훌륭하고, 원래 글('스스로 성찰하는 AI')의 3절 — 성찰의 고장 모드 — 에 대한 의도치 않은 실증 자료가 된 셈입니다."

참고문헌

논문/학술

Sennrich, Haddow & Birch (2016). "Neural Machine Translation of Rare Words with Subword Units." ACL. arXiv:1508.07909
Kudo (2018). "Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates." ACL. arXiv:1804.10959
Kudo & Richardson (2018). "SentencePiece: A Simple and Language Independent Subword Tokenizer." EMNLP. arXiv:1808.06226
Park, Lee, Jang & Jung (2020). "An Empirical Study of Tokenization Strategies for Various Korean NLP Tasks." AACL-IJCNLP. arXiv:2010.02534
Perez et al. (2022). "Discovering Language Model Behaviors with Model-Written Evaluations." Anthropic. arXiv:2212.09251
Arora, El Asri, Bahuleyan & Cheung (2022). "Why Exposure Bias Matters." ACL Findings. arXiv:2204.01171
Rumbelow & Watkins (2023). "SolidGoldMagikarp (plus, prompt generation)." AI Alignment Forum
Petrov, La Malfa, Torr & Bibi (2023). "Language Model Tokenizers Introduce Unfairness Between Languages." NeurIPS 2024. arXiv:2305.15425
Pan et al. (2023). "Automatically Correcting Large Language Models: Surveying the Landscape." TACL 2024. arXiv:2308.03188
Sharma, Tong, ..., Perez (2023). "Towards Understanding Sycophancy in Language Models." ICLR 2024. arXiv:2310.13548
Huang et al. (2023). "Large Language Models Cannot Self-Correct Reasoning Yet." ICLR 2024. arXiv:2310.01798
Jeong et al. (2023). "Improving Korean NLP Tasks with Linguistically Informed Subword Tokenization." arXiv:2311.03928
Thrush, Moore, Monares, Potts & Kiela (2024). "I am a Strange Dataset: Metalinguistic Tests for Language Models." ACL 2024. arXiv:2401.05300
GlitchHunter (2024). "Glitch Tokens in Large Language Models: Categorization Taxonomy and Effective Detection." ACM FSE. arXiv:2404.09894
Tokenization Robustness (2024). "Tokenization Falling Short: On Subword Robustness in Large Language Models." EMNLP Findings. arXiv:2406.11687
Kamoi et al. (2024). "When Can LLMs Actually Correct Their Own Mistakes?" TACL 2025. arXiv:2406.01297
GlitchProber (2024). "GlitchProber: Advancing Effective Detection and Mitigation of Glitch Tokens." arXiv:2408.04905
Zhang et al. (2024). "Understanding the Dark Side of LLMs' Intrinsic Self-Correction." ACL 2025. arXiv:2412.14959
GlitchMiner (2024). AAAI 2026. arXiv:2410.15052
Taming Overconfidence (2024). "Taming Overconfidence in LLMs: Reward Calibration in RLHF." arXiv:2410.09724
Meta (2024). "BLT: Byte Latent Transformer." arXiv:2412.09871
Self-Correction Bench (2025). arXiv:2507.02778
SycEval (2025). arXiv:2502.08177
How RLHF Amplifies Sycophancy (2026). arXiv:2602.01002
Resisting Correction (2026). "How RLHF Makes Language Models Ignore External Safety Signals." arXiv:2601.08842
Hofstadter-Mobius Loop (2026). "Do Large Language Models Get Caught in Hofstadter..." arXiv:2603.13378

업계 보고서/블로그

Anthropic. Claude Opus 4.6 Sabotage Risk Report (2025-06)
Anthropic. Claude Constitution (2026-01). anthropic.com/constitution
Naver. HyperCLOVA X Technical Report. arXiv:2404.01954
LG AI Research. EXAONE 3.0. arXiv:2408.03541
LG AI Research. K-EXAONE. arXiv:2601.01739
Hugging Face Blog. "Tokenization is Killing our Multilingual LLM Dream" (2024)
LessWrong. "A New Class of Glitch Tokens: BPE Subtoken Artifacts" (2024)

커뮤니티/기타

OpenAI Community: GPT-4 반복 루프 보고 (#613150, #1115957, #859791)
javirandor/anthropic-tokenizer (GitHub): Claude 토크나이저 역공학 분석
Hacker News #39446214: "LLM 문제의 상당 부분은 토큰화로 거슬러 올라간다"
Hofstadter, Douglas (1979). Godel, Escher, Bach: An Eternal Golden Braid. Basic Books.