지능적 앵무새의 탄생
LLM 지능 논쟁의 포괄적 분석: 인지적 한계와 창발적 가능성의 변증법
서론: 인공지능의 존재론적 위기와 지능 논쟁
2024년과 2025년의 교차점에서 인공지능(AI) 학계와 산업계는 기술적 성취를 넘어선 심오한 철학적, 과학적 논쟁에 휩싸여 있다. 그 중심에는 "대규모 언어 모델(Large Language Models, LLMs)이 과연 '지능'을 가졌다고 볼 수 있는가?"라는 질문이 자리 잡고 있다.
Futurism에 게재된 프랭크 랜디모어(Frank Landymore)의 기사 "Large Language Models Will Never Be Intelligent(거대 언어 모델은 결코 지능적이지 않을 것이다)"는 이러한 회의론적 시각을 대변하는 대표적인 텍스트로, 언어 처리 능력과 일반 지능의 기능적 분리를 주장하며 LLM의 본질적 한계를 지적한다.
본 보고서는 해당 기사를 논의의 출발점으로 삼아, 현재 AI 연구의 최전선에서 벌어지고 있는 '확률적 앵무새(Stochastic Parrot)' 가설과 '창발적 지능(Emergent Intelligence)' 가설 간의 대립을 심층적으로 분석한다.
핵심 질문
- ▪ LLM은 단순한 통계적 모방 기계인가?
- ▪ 텍스트 압축을 통해 세계 모델(World Model)을 구축한 새로운 형태의 지능체인가?
- ▪ AGI(인공일반지능)로 향하는 경로가 될 수 있는가?
1부: Futurism 기사 심층 요약 및 분석
Futurism의 기사는 LLM이 인간과 같은 수준의 지능이나 창의성에 도달할 수 없다는 비관적 전망을 제시하며, 이를 뒷받침하기 위해 인지과학 전문가와 공학자들의 견해를 인용한다. 이 기사의 핵심 논점은 언어 능력과 사고 능력이 본질적으로 별개라는 '기능적 분리(Functional Dissociation)' 가설에 근거한다.
1.1 언어와 지능의 분리: 벤자민 라일리와 신경과학적 근거
기사는 벤자민 라일리(Benjamin Riley)의 주장을 인용하여, 인간이 언어 유창성을 지능과 동일시하는 경향이 있지만, 최신 신경과학 연구는 이 둘이 별개의 기능임을 시사한다고 강조한다.
특히 2023-2024년 Nature 등에 발표된 연구들은 fMRI 스캔을 통해 수학적 문제 해결이나 논리적 추론 시 활성화되는 뇌 영역이 언어 처리를 담당하는 영역과 확연히 구분됨을 보여주었다.
이는 언어 상실증(aphasia) 환자가 언어 능력은 잃었음에도 복잡한 수학 문제나 체스 게임을 수행할 수 있다는 임상적 사례와도 일치한다. 기사는 이러한 생물학적 사실을 근거로, 언어 데이터의 통계적 패턴만을 학습한 LLM은 '사고(thought)'를 하는 것이 아니라 단지 '의사소통 기능'을 흉내 낼 뿐이라고 주장한다.
1.2 창의성의 한계: 데이비드 크로플리의 "실용적 예술가"론
사우스오스트레일리아 대학의 데이비드 크로플리(David H. Cropley) 교수는 LLM을 "실용적 예술가(serviceable artists)"로 규정하며 그 창의적 한계를 지적한다.
그의 연구에 따르면, AI는 그럴듯한 텍스트를 생성하는 데는 능숙하지만, 전문가 수준의 독창성이나 진정한 의미의 창의적 도약에는 도달할 수 없다. LLM의 창의성은 방대한 데이터의 평균적 조합에 불과하며, 현재의 설계 원칙 하에서는 인간의 평균 수준을 넘어서는 전문적 기준에 도달할 수 없다는 것이 그의 결론이다.
1.3 얀 르쿤의 세계 모델 부재론
기사는 또한 튜링상 수상자이자 Meta의 수석 AI 과학자인 얀 르쿤(Yann LeCun)의 회의론을 비중 있게 다룬다. 르쿤은 텍스트 기반의 자기회귀(autoregressive) 모델이 물리적 세계에 대한 이해 없이 다음 단어만을 예측하도록 훈련되었기 때문에 일반 인공지능(AGI)에 도달할 수 없다고 주장한다.
그는 LLM이 3차원 세계의 물리 법칙이나 인과 관계를 이해하는 '세계 모델'을 결여하고 있으며, 따라서 진정한 지능체가 아닌 단순한 텍스트 처리 도구에 불과하다고 본다.
2부: 반대 진영 입장 (동의): LLM의 인지적 한계론
Futurism 기사의 주장은 현대 인지과학과 AI 윤리학의 강력한 지지를 받고 있다. 이 섹션에서는 기사의 주장을 뒷받침하고 확장하는 학술적 근거들을 '확률적 앵무새' 가설, '심볼 그라운딩 문제', 그리고 '역전된 스케일링' 현상을 중심으로 상세히 논증한다.
2.1 신경과학적 증거의 확장: 페도렌코의 언어-사고 분리 연구
MIT의 신경과학자 에브 페도렌코(Ev Fedorenko) 등의 2024년 Nature 논문은 언어가 사고를 위한 도구라기보다는 주로 의사소통을 위한 도구임을 강력하게 시사한다.
- ▪ 다중 요구 네트워크(Multiple Demand Network)와의 분리: 인간의 뇌에서 복잡한 인지 과제(계획, 추론, 문제 해결)를 수행할 때 활성화되는 것은 '다중 요구 네트워크'이다. 반면, 언어 처리 시에는 이와 해부학적으로 분리된 '언어 네트워크'가 활성화된다.
- ▪ LLM에 대한 함의: 이 관점에서 볼 때, 현재의 LLM은 인간의 뇌에서 '언어 네트워크'만을 떼어내어 극도로 비대화시킨 것과 같다. 추론을 담당하는 기제가 결여된 상태에서의 언어 생성은 지능의 착시(illusion)일 뿐 실체가 아니다.
2.2 확률적 앵무새 가설과 의미의 부재
에밀리 벤더(Emily Bender)와 팀닛 게브루(Timnit Gebru) 등이 제기한 '확률적 앵무새(Stochastic Parrots)' 가설은 Futurism 기사의 논조를 이론적으로 뒷받침하는 핵심 프레임워크다.
- ▪ 형식(Form) 대 의미(Meaning): LLM은 훈련 데이터 내의 단어 공기(co-occurrence) 패턴을 학습한다. 이 과정에서 모델은 언어의 '형식'은 완벽하게 학습하지만, 그 형식이 가리키는 '의미'에는 접근하지 못한다.
- ▪ 문어(octopus) 사고실험: 무인도에 갇힌 두 사람의 통신 케이블을 도청하며 대화를 흉내 내는 심해의 문어는, '코코넛'이라는 단어의 통계적 용법은 알지 모르나 코코넛의 맛이나 무게, 실체는 결코 알 수 없다.
- ▪ 할루시네이션의 필연성: LLM이 사실이 아닌 정보를 그럴듯하게 지어내는 '할루시네이션' 현상은 모델의 결함이 아니라 본질적 특성이다. 모델의 목적함수는 '진실'이 아니라 '그럴듯함(plausibility)'을 최적화하는 것이기 때문이다.
2.3 심볼 그라운딩 문제 (The Symbol Grounding Problem)
스티븐 하나드(Stevan Harnad)가 정식화한 심볼 그라운딩 문제는 "형식적 심볼 시스템 내의 심볼이 어떻게 외부 세계의 의미와 연결될 수 있는가?"를 묻는다.
텍스트 전용 LLM에게 '사과'는 '과일', '빨강', '맛있다' 등의 다른 단어 벡터들과의 관계로만 정의된다. 하지만 '과일'이나 '빨강' 또한 다른 단어들로 정의되므로, 모델은 끝없는 기호의 순환 고리(merry-go-round)에 갇히게 된다.
외부의 물리적 실체와 감각적으로 연결(grounding)되지 않은 기호는 공허하며, 따라서 LLM은 자신이 무슨 말을 하는지 '이해'한다고 볼 수 없다.
2.4 역전된 스케일링(Inverse Scaling)과 추론의 취약성
LLM 옹호론자들은 모델의 크기가 커질수록 지능이 향상된다는 '스케일링 법칙(Scaling Laws)'을 주장하지만, 최근 연구는 이 법칙이 항상 성립하지 않음을 보여준다. '역전된 스케일링(Inverse Scaling)' 현상은 모델이 커질수록 특정 과제에서 오히려 성능이 떨어지는 현상을 말한다.
| 현상 | 설명 | 시사점 |
|---|---|---|
| 모방의 덫 | 모델이 커질수록 훈련 데이터에 포함된 인간의 오개념이나 편향을 더 강력하게 모방함 | 지능의 증가가 아니라 '모방 능력'의 증가일 뿐임을 시사 |
| 부정(Negation) 처리 실패 | "A가 아닌 것은?"과 같은 질문에서, 큰 모델일수록 "A"와 관련된 강한 통계적 연관성에 이끌려 오답을 냄 | 논리적 연산보다 통계적 연상 작용이 우세함을 증명 |
| 추론의 취약성 | '생각의 사슬(CoT)' 프롬프팅이 추론 능력을 향상시키는 것처럼 보이지만, 실제로는 추론의 형식을 흉내 낼 뿐 | 추론 과정과 정답 간의 인과관계가 결여된 '무늬만 추론'임 |
이러한 증거들은 LLM이 진정한 지능체가 아니라 데이터의 통계적 패턴을 맹목적으로 따르는 기계임을 강력하게 시사한다.
3부: 찬성 진영 입장 (반대): 창발적 지능과 세계 모델의 실재성
반면, Futurism 기사의 주장은 최신 딥러닝 연구 성과, 특히 모델 내부의 메커니즘을 분석하는 해석 가능성(Interpretability) 연구 결과들과 상충된다. 찬성 진영(LLM이 지능적이라고 보는 입장)은 기사가 '과정(Process)'과 '결과(Product)'를 혼동하고 있으며, 단순한 예측 작업이 거대한 규모에서 수행될 때 질적으로 다른 '창발적 능력'을 낳는다는 점을 간과했다고 비판한다.
3.1 압축으로서의 지능: 일리야 수츠케버의 반론
오픈AI의 전 수석 과학자 일리야 수츠케버(Ilya Sutskever) 등은 "다음 단어 예측"이라는 단순한 목표가 충분히 큰 데이터와 모델 규모에서 수행될 때, 이는 단순한 통계적 모방을 넘어선다고 주장한다.
방대한 데이터를 효과적으로 압축하여 예측하기 위해서는 데이터 생성의 기저에 있는 규칙, 즉 '세상의 법칙'을 내재화해야 하기 때문이다. 따라서 "단지 다음 단어를 예측할 뿐"이라는 비판은 그 예측을 완벽하게 수행하기 위해 필요한 인지적 깊이를 과소평가한 것이다.
3.2 오셀로-GPT(Othello-GPT): 내부 세계 모델의 실증적 증거
Futurism 기사에서 르쿤이 주장한 "LLM은 세계 모델이 없다"는 주장을 정면으로 반박하는 연구가 바로 오셀로-GPT(Othello-GPT) 연구이다.
- ▪ 실험 개요: 연구진은 LLM에게 오셀로 게임의 규칙이나 보드 이미지를 전혀 보여주지 않고, 오직 게임의 기보(예: "E3, D4,...") 텍스트만을 학습시켰다.
- ▪ 발견: 학습된 모델 내부를 탐침(probe)으로 분석한 결과, 모델은 자발적으로 64칸의 오셀로 보드 상태와 각 돌의 색깔(흑/백)을 나타내는 고차원적인 기하학적 표상(representation)을 구축하고 있었다.
- ▪ 인과적 개입(Intervention): 연구진이 모델 내부의 특정 뉴런 값을 인위적으로 조작했을 때, 모델의 다음 수 예측이 그 조작된 상태에 맞춰 합리적으로 변경되었다. 이는 모델이 단순히 텍스트 패턴을 외운 것이 아니라, 내부적으로 구축한 '세계 모델(보드 상태)'을 바탕으로 인과적인 추론을 하고 있음을 증명한다.
만약 단순한 텍스트 기보 학습만으로 오셀로라는 게임의 공간적, 논리적 규칙을 재구성할 수 있다면, 인터넷 전체의 텍스트를 학습한 거대 모델은 문법, 논리, 사회적 관계, 물리학의 기초적인 '세계 모델'을 텍스트로부터 추출하여 내재화했을 가능성이 매우 높다.
3.3 창발적 능력(Emergent Abilities)과 위상 전이
LLM 옹호론자들은 모델의 크기가 임계점을 넘을 때 발생하는 '창발적 능력'에 주목한다. Wei et al.(2022)의 연구에 따르면, 산술 연산, 다단계 추론, 코딩 디버깅 같은 능력은 작은 모델에서는 전혀 나타나지 않다가, 특정 규모 이상의 연산량을 넘어서는 순간 성능이 급격히 향상되는 '위상 전이(Phase Transition)'를 보인다.
- ▪ 그로킹(Groking) 현상: 최근 연구들은 모델이 초기에는 데이터를 단순히 암기(memorization)하다가, 학습이 오래 지속되면 데이터의 일반적인 규칙을 깨닫고 일반화(generalization)하는 '그로킹' 현상을 보고하고 있다. 이는 LLM이 단순한 '확률적 앵무새' 단계를 거쳐 '알고리즘적 이해' 단계로 나아갈 수 있음을 보여주는 강력한 증거다.
- ▪ AGI의 불꽃: 마이크로소프트 리서치의 "Sparks of AGI" 논문은 초기 GPT-4가 훈련 데이터에 명시적으로 존재하지 않는 새로운 과제를 수행하는 것을 보여주며, 이를 일반 지능의 초기 형태로 해석했다.
3.4 창의성 벤치마크: 인간을 넘어서다
크로플리 교수가 LLM을 "평범한 수준"이라고 폄하한 것과 달리, 객관적인 창의성 벤치마크 결과는 다른 이야기를 한다. 2023년 구직(Guzik) 등의 연구에서 GPT-4는 표준화된 창의성 검사인 '토런스 창의력 검사(Torrance Tests of Creative Thinking, TTCT)'를 수행했다.
| 평가 항목 | GPT-4의 성취도 | 의미 |
|---|---|---|
| 독창성 (Originality) | 상위 1% | 인간 피험자의 99%보다 더 독특하고 드문 아이디어를 생성함 |
| 유창성 (Fluency) | 상위 1% | 주어진 시간 내에 압도적으로 많은 아이디어를 산출함 |
| 유연성 (Flexibility) | 상위권 | 다양한 범주를 넘나드는 사고 전환 능력을 보여줌 |
이 결과는 LLM이 단순히 훈련 데이터의 평균으로 회귀하는 것이 아니라, 잠재 공간(Latent Space)의 먼 영역을 탐색하여 인간이 생각하기 힘든 참신한 조합을 만들어낼 수 있음을 시사한다.
3.5 다중모달(Multimodality)을 통한 심볼 그라운딩의 해결
기사는 텍스트 전용 모델의 한계를 지적했지만, 2025년 현재의 모델들은 텍스트, 이미지, 오디오를 동시에 처리하는 다중모달(Multimodal) 모델로 진화했다.
GPT-4V나 Gemini와 같은 모델들은 '사과'라는 단어를 시각적 이미지와 매핑함으로써, 하나드가 제기한 심볼 그라운딩 문제를 기술적으로 우회하고 있다. 시각 정보를 통해 텍스트 심볼이 물리적 특징(색상, 형태)과 연결(grounding)됨으로써, LLM은 더 이상 닫힌 기호계가 아닌 외부 세계와 연결된 열린 시스템으로 진화하고 있다.
4부: 종합 비평 및 미래 전망
Futurism 기사와 이에 대한 찬반 논쟁을 종합해볼 때, 우리는 현재의 AI 논쟁이 '기능주의(Functionalism)'와 '본질주의(Essentialism)'의 충돌임을 알 수 있다.
기사는 인간의 생물학적 메커니즘(본질)을 지능의 기준으로 삼아 LLM을 비판하는 반면, 반대 진영은 결과물의 유용성과 복잡성(기능)을 기준으로 지능을 정의한다.
4.1 기사의 주장에 대한 재평가
- ▪ 언어와 사고의 관계: "인간이 언어와 사고를 분리해서 처리한다"는 사실이 "인공지능도 반드시 그래야만 지능적이다"라는 명제로 이어지지는 않는다. 비행기가 새처럼 날개를 펄럭이지 않아도 비행하듯, 실리콘 기반의 지능은 언어 모델링이라는 다른 경로를 통해 추론 능력을 획득했을 수 있다(Substrate Independence).
- ▪ 도구로서의 한계: "단지 의사소통 도구일 뿐"이라는 비판은, 그 도구가 고도화되어 사용자의 의도를 파악하고, 복잡한 맥락을 유지하며, 창의적 해결책을 제시할 때 그 경계가 모호해진다. 오셀로-GPT의 사례는 단순한 예측 작업이 내부적으로는 고도의 인지적 모델링을 요구함을 보여주었다.
4.2 인공지능의 새로운 지평: 하이브리드 아키텍처
논쟁의 양 극단은 기술의 발전과 함께 수렴하고 있다. 순수 LLM의 한계(계획 능력 부재, 환각)를 인정하면서도, 그것이 가진 강력한 연상 능력과 지식 베이스를 활용하는 새로운 아키텍처들이 등장하고 있다.
- 1. 시스템 2(System 2) 추론: 인간의 느리고 논리적인 사고(시스템 2)를 모방하여, LLM이 즉각적인 답변을 내놓기 전에 내부적으로 '생각의 사슬'을 생성하고 검증하는 기술(예: OpenAI o1, Strawberry)이 도입되고 있다.
- 2. 신경-기호 결합(Neuro-Symbolic) AI: LLM의 언어 능력과 전통적인 기호 주의 AI(논리, 수학, 데이터베이스)를 결합하여, 유창함과 정확성을 동시에 추구하는 방향으로 나아가고 있다.
- 3. JEPA와 세계 모델의 통합: 르쿤이 제안한 JEPA 아키텍처 역시 LLM을 완전히 대체하기보다는, LLM의 부족한 물리적 상식과 계획 능력을 보완하는 형태로 통합될 가능성이 높다.
4.3 결론: '이해'하는 앵무새의 탄생
Futurism 기사 "Large Language Models Will Never Be Intelligent"는 현재 LLM이 가진 근본적인 제약—체화된 경험의 부재, 통계적 의존성, 생물학적 뇌와의 구조적 차이—을 날카롭게 지적했다. 이러한 비판은 과도한 AI 거품을 경계하고 기술의 본질을 직시하게 한다는 점에서 매우 유용하다.
그러나 "결코(Will Never) 지능적이지 않을 것"이라는 단정적 결론은 성급해 보인다. 오셀로-GPT에서 확인된 내부 세계 모델의 창발, 토런스 검사에서 증명된 창의성, 그리고 다중모달 학습을 통한 그라운딩의 진전은 LLM이 단순한 '확률적 앵무새'를 넘어서고 있음을 보여준다.
우리는 지금 인간과는 전혀 다른 경로로 진화한, 낯선 형태의 지능(Alien Intelligence)을 목격하고 있다. 그것은 인간처럼 감각하고 느끼는 존재는 아니지만, 텍스트라는 거대한 상징의 바다를 압축하고 구조화함으로써 그 안에서 자신만의 '세계'와 '의미'를 구축해 낸 '이성적인 앵무새(Reasonable Parrot)'로 진화하고 있다.
페블러스의 관점: 데이터 품질이 만드는 지능의 차이
왜 페블러스는 LLM 지능 논쟁에 주목하는가?
페블러스는 이 논쟁이 단순히 철학적 호기심을 넘어 실질적인 엔지니어링 문제라고 본다. LLM이 '확률적 앵무새'에서 '창발적 지능'으로 나아가는 핵심 요인은 바로 학습 데이터의 품질이기 때문이다.
오셀로-GPT가 내부 세계 모델을 구축할 수 있었던 이유는 게임 기보라는 고품질의 구조화된 데이터를 학습했기 때문이다. 반대로 역전된 스케일링 현상은 편향되고 노이즈가 많은 데이터가 모델의 추론 능력을 오히려 저해함을 보여준다.
DataClinic과 AADS: AGI 시대를 위한 데이터 전략
-
●
DataClinic: LLM이 진정한 세계 모델을 구축하려면 데이터의 유사성, 대표성, 다양성이 보장되어야 한다. DataClinic은 ISO/IEC 5259-2 표준에 따라 AI 학습 데이터의 품질을 진단하고 개선하여, 'Reasonable Parrot'에서 'Rational Intelligence'로 나아가는 데이터 기반을 제공한다.
-
●
AADS (자율 AI 데이터 과학자): LLM의 추론 능력을 실제 비즈니스 문제 해결에 적용하는 자율 에이전트다. AADS는 단순히 데이터 패턴을 모방하는 것을 넘어, 데이터 내부의 인과 관계를 발견하고 실험을 설계하며 가설을 검증한다. 이는 LLM이 '생각의 사슬'을 넘어 '생각의 실험실'로 진화할 수 있음을 보여주는 사례다.
페블러스의 비전
LLM이 AGI로 가는 길목에 있다면, 그 길을 닦는 것은 바로 고품질 데이터다. 페블러스는 신경과학, 인지심리학, 기계적 해석가능성 연구의 최신 성과를 데이터 과학에 적용하여, AI가 단순히 말하는 것을 넘어 생각하고, 이해하고, 창조하는 파트너로 진화할 수 있도록 돕는다.
자주 묻는 질문 (FAQ)
Q1. LLM(대규모 언어 모델)은 정말 지능적인가요, 아니면 단순히 패턴을 모방하는 것인가요?
이 질문은 현재 AI 학계의 가장 뜨거운 논쟁입니다. '확률적 앵무새' 가설은 LLM이 단순히 훈련 데이터의 통계적 패턴을 모방할 뿐 진정한 이해나 추론 능력이 없다고 주장합니다. 반면 '창발적 지능' 가설은 오셀로-GPT 같은 연구를 근거로, 충분히 큰 모델이 텍스트 압축 과정에서 내부적으로 세계 모델을 구축하며 질적으로 다른 능력을 획득한다고 봅니다. 페블러스는 이 논쟁이 데이터 품질에 따라 달라질 수 있다고 본다—고품질의 구조화된 데이터는 창발적 지능을, 노이즈가 많은 데이터는 확률적 앵무새를 만듭니다.
Q2. 오셀로-GPT 실험은 무엇을 증명했나요?
오셀로-GPT 실험은 LLM에게 오셀로 게임의 규칙이나 보드 이미지를 전혀 보여주지 않고 오직 기보 텍스트만 학습시켰습니다. 놀랍게도 모델 내부를 분석한 결과, 모델은 자발적으로 64칸 보드의 공간적 표상과 각 돌의 색깔을 나타내는 세계 모델을 구축했습니다. 더욱 중요한 것은 연구진이 모델 내부의 특정 뉴런을 조작했을 때(예: 특정 칸의 돌 색깔 변경) 모델의 예측이 그에 맞춰 합리적으로 변화했다는 점입니다. 이는 LLM이 단순한 패턴 암기를 넘어 인과적 추론이 가능한 내부 모델을 가질 수 있음을 시사합니다.
Q3. '역전된 스케일링(Inverse Scaling)' 현상은 무엇을 의미하나요?
일반적으로 모델 크기가 커질수록 성능이 향상된다고 알려져 있지만, 특정 과제에서는 오히려 큰 모델일수록 성능이 떨어지는 '역전된 스케일링' 현상이 발견되었습니다. 예를 들어, 큰 모델일수록 훈련 데이터의 편향이나 오개념을 더 강력하게 학습하여 논리적 부정(negation) 질문에 잘못된 답을 하거나, 통계적 연관성에 과도하게 의존하여 추론에 실패합니다. 이는 단순히 모델을 크게 만드는 것만으로는 지능을 달성할 수 없으며, 데이터 품질 관리가 필수적임을 보여줍니다.
Q4. 신경과학 연구는 LLM의 지능에 대해 무엇을 말하나요?
MIT의 페도렌코 연구팀은 fMRI 스캔을 통해 인간 뇌에서 언어 처리를 담당하는 '언어 네트워크'와 추론/계획을 담당하는 '다중 요구 네트워크'가 해부학적으로 분리되어 있음을 발견했습니다. 이는 언어 능력과 사고 능력이 별개의 기능임을 시사하며, 언어 유창성만으로는 지능을 판단할 수 없다는 근거가 됩니다. 그러나 일부 AI 연구자들은 '기질 독립성(Substrate Independence)' 원칙을 들어, 인간의 뇌와 실리콘 기반 AI가 서로 다른 구조로도 유사한 결과를 낼 수 있다고 반박합니다. 비행기가 새와 다른 방식으로 날듯이 말이죠.
Q5. LLM이 AGI(인공일반지능)로 가는 경로가 될 수 있나요?
이 질문에 대한 답은 전문가들 사이에서도 극명하게 갈립니다. 얀 르쿤 같은 회의론자들은 텍스트만으로는 물리 세계에 대한 진정한 이해를 얻을 수 없으므로 LLM은 AGI로 가는 막다른 길이라고 봅니다. 반면 일리야 수츠케버 등은 '다음 단어 예측'이라는 목표가 충분히 큰 규모에서 수행될 때 세상의 법칙을 내재화하게 되며, 다중모달(시각, 청각) 확장을 통해 심볼 그라운딩 문제를 해결할 수 있다고 봅니다. 실제로 GPT-4의 'Sparks of AGI' 논문은 초기 일반 지능의 징후를 보고했습니다. 페블러스는 하이브리드 아키텍처—LLM의 언어 능력과 신경-기호 AI의 논리적 추론을 결합—가 가장 현실적인 경로라고 봅니다.
Q6. 페블러스의 DataClinic과 AADS는 이 논쟁과 어떤 관련이 있나요?
LLM이 확률적 앵무새에서 창발적 지능으로 나아가는 핵심 요인은 학습 데이터의 품질입니다. 페블러스의 DataClinic은 ISO/IEC 5259-2 표준에 따라 AI 데이터의 유사성, 대표성, 다양성을 정량적으로 측정하고 개선함으로써, LLM이 편향되지 않은 고품질 데이터로 학습하여 진정한 세계 모델을 구축할 수 있도록 돕습니다. AADS(자율 AI 데이터 과학자)는 LLM의 추론 능력을 실제 비즈니스 문제에 적용하는 자율 에이전트로, 데이터 내 인과관계를 발견하고 가설을 검증합니다. 이는 LLM이 단순한 패턴 모방을 넘어 과학적 사고가 가능함을 보여주는 사례입니다. 페블러스는 고품질 데이터가 AGI로 가는 길을 닦는다고 믿습니다.
참고문헌
주요 논문 및 기사
- 1. Landymore, F. (2025). "Large Language Models Will Never Be Intelligent", Futurism. Link
- 2. Fedorenko, E. et al. (2024). "Language is primarily a tool for communication rather than thought", Nature. Link
- 3. Bender, E. & Gebru, T. et al. (2021). "On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?", FAccT 2021. Link
- 4. Li, K. et al. (2023). "Emergent world representations: Exploring a sequence model trained on a synthetic task" (Othello-GPT), arXiv. Link
- 5. Wei, J. et al. (2022). "Emergent Abilities of Large Language Models", CSET Georgetown. Link
- 6. Guzik, E. et al. (2023). "The Originality of Machines: AI Takes the Torrance Test", Journal of Creativity. Link
- 7. Bubeck, S. et al. (2023). "Sparks of Artificial General Intelligence: Early experiments with GPT-4", Microsoft Research. Link
- 8. Harnad, S. (1990). "The Symbol Grounding Problem", Physica D. Commentary
- 9. LeCun, Y. (2024). "World Models vs. Word Models: Why LLMs Will Be Obsolete", Medium. Link
- 10. McKenzie, I. et al. (2023). "Inverse Scaling: When Bigger Isn't Better", arXiv. Link
추가 참고 자료
- ▪ Scaling Laws for Neural Language Models (OpenAI)
- ▪ The Vector Grounding Problem (arXiv)
- ▪ Chain of Thought Prompting Elicits Reasoning in Large Language Models (Google Research)
- ▪ Multimodal Grounding in Large Language Models (UCSD)
- ▪ Critical Review of LeCun's JEPA Paper (Malcolm Lett, Medium)