2026.03 · (주)페블러스 데이터 커뮤니케이션팀

읽는 시간 약 10분  ·  English

Executive Summary

Harvard 물리학 교수 Matthew Schwartz는 Claude Opus 4.5를 활용해 2주 만에 양자장이론 논문을 완성했다. 270세션, 51,248개 메시지, 36M 토큰에 달하는 대규모 상호작용의 결과다. 그러나 이 놀라운 성취의 이면에서 Schwartz가 발견한 것은 AI의 가능성이 아니라, AI의 근본적 한계였다. 그 한계의 이름은 Taste -- 어떤 연구 방향이 추구할 가치가 있는지 판단하는 안목이다.

반직관적이게도, AI에게 부족한 것은 창의성이 아니다. Schwartz에 따르면 LLM은 "profoundly creative"하다. 부족한 것은 그 창의성을 올바른 방향으로 향하게 하는 안목이다. AI는 수천 개의 경로를 동시에 걸어볼 수 있지만, 걸어보기 전에 어떤 길이 유망한지 판단하는 능력이 없다. 이 판단력은 수십 년간의 실패와 성공이 축적된 경험의 산물이며, 현재의 훈련 데이터로는 포착되지 않는 암묵지에 해당한다.

그러나 2026년 3월 발표된 두 편의 논문은 이 한계에 균열을 낸다. 미세조정 모델이 연구 피치 판별에서 인간 전문가(42%)를 능가하는 59% 정확도를 기록했다. AI의 Taste가 학습 가능할 수 있다는 신호다. 그리고 그 학습의 품질은 데이터의 품질에 의존한다. AI의 Taste를 키우려면, 데이터를 경작해야 한다.

Vibe Physics란 무엇인가

2025년 2월, Andrej Karpathy가 X에 올린 한 줄의 포스트가 문화 현상을 만들었다. "There's a new kind of coding I call 'vibe coding', where you fully give in to the vibes, embrace exponentials, and forget that the code even exists." AI에게 코드를 맡기고, diff도 읽지 않고, 결과만 확인하는 새로운 개발 방식이었다. 이 단어는 Merriam-Webster에 등재되고, Collins English Dictionary 올해의 단어로 선정됐다.

1년 뒤인 2026년 3월, Harvard 물리학 교수 Matthew Schwartz가 Anthropic 블로그에 게스트 포스트를 올렸다. 제목은 "Vibe Physics: The AI Grad Student." Vibe Coding이 소프트웨어의 경계를 흔들었다면, Vibe Physics는 과학 연구의 경계를 흔든다.

Schwartz는 Claude Opus 4.5와 Claude Code를 활용해 양자색역학(QCD)의 C-parameter 분포에 대한 Sudakov shoulder 재합산(resummation) 논문을 작성했다. 기존 연구(BSZ: thrust, heavy jet mass)의 방법론적 확장으로, 전형적인 대학원 2년차 수준의 프로젝트다. 그러나 이 논문의 진짜 의미는 물리학적 기여가 아니라, AI와 함께 연구하는 과정에서 발견한 것에 있다.

논문 정보

"Vibe Physics: The AI Grad Student" — Matthew Schwartz
Anthropic 게스트 포스트 · 2026년 3월 23일
물리 논문: arXiv:2601.02484 · 2026년 1월 5일
2025년 12월 마지막 2주간 수행

Schwartz 본인의 말이 이 실험의 무게를 전한다. "This may be the most important paper I've ever written -- not for the physics, but for the method. There is no going back." 이론물리학의 최전선에서 실제로 AI를 사용해 본 전문가의 결론이 "돌아갈 수 없다"는 것이다.

AI는 이제 G2 대학원생이다

Schwartz는 AI의 능력을 대학원생 등급 시스템에 대입한다. 이 프레임워크는 AI 연구 자동화의 현재 위치를 이해하는 데 가장 직관적인 도구가 된다.

2주
논문 완성
기간
36M
총 토큰
(소설 150권)
110+
드래프트
10배
속도
가속

G1(대학원 1년차)에는 2025년 8월 GPT-5가 도달했다. "First-year theory students typically just take classes." GPT-5가 Harvard 물리학과의 거의 모든 과목 과제를 수행할 수 있게 된 시점이다. 잘 정의된 문제를 푸는 수준 -- 교과서 지식의 적용이다.

G2(대학원 2년차)에는 2025년 12월 Claude Opus 4.5가 도달했다. G2의 정의는 이렇다: "Well-defined projects that have a guarantee of success -- often follow-ups from previous studies where the methods are established and the endpoints clear." 지도교수가 방향을 잡아주면 기술적 실행이 가능하지만, 자율적 방향 설정은 불가능한 수준이다.

Schwartz의 G2 묘사는 간결하고 정확하다: "Fast, indefatigable, and eager to please. But pretty sloppy." 빠르고, 지치지 않고, 기꺼이 따르지만, 꽤나 엉성하다.

차원 G2 수준 (현재 AI) PhD 수준
문제 선택 주어진 문제를 품 스스로 문제를 찾음
방향 설정 지도교수가 설정 자율적 판단
근사 판단 지시받은 방법 적용 어떤 근사가 중요한지 스스로 결정
오류 인식 결과가 맞는지 확인 불가 물리적 직관으로 오류 감지
새로운 방법론 기존 방법 적용 새로운 방법론 창안

숫자가 말해주는 것이 있다. 36M 토큰은 소설 약 150권 분량이다. 이것은 AI가 "자율적으로" 연구한 것이 아니라 인간이 끊임없이 개입했다는 증거다. 50~60시간의 인간 감독은 "2주 만에 완료"라는 헤드라인의 이면이다. 실질적으로 Schwartz가 풀타임으로 AI를 감독한 것이다. 110개 드래프트는 Claude가 한 번에 올바른 결과를 내지 못했음을 보여준다.

Schwartz의 예측도 주목할 만하다. "By blunt extrapolation, LLMs will be at the Ph.D or postdoc level in around a year (March 2027)." 현재 G2에서 1년 뒤 PhD 수준으로 도약한다는 전망이다. 그러나 이 도약에 필요한 것이 바로 Taste다.

병목은 창의성이 아니다 -- Taste의 발견

대부분의 사람들은 "AI에게 부족한 것은 창의성"이라고 생각한다. Schwartz는 정반대를 주장한다. LLM은 "profoundly creative"하다. 수천 개의 아이디어를 쏟아낼 수 있고, 예상치 못한 연결을 만들어낸다. 부족한 것은 그 창의성 중에서 어떤 것이 진짜 가치 있는지 판별하는 안목이다.

"I think we can distill what is missing in current LLMs to a single word: Taste. In physics, taste is the intangible sense about which research directions might lead somewhere."

-- Matthew Schwartz, Harvard 물리학과 교수

Taste란 무엇인가? 단순히 "어떤 연구가 유망한지 아는 것"보다 훨씬 깊은 개념이다. Schwartz의 정의를 풀어보면, Taste는 다음을 포함한다.

경험 기반 직관

수십 년간 잘못된 길과 올바른 길을 걸어본 경험에서 축적되는 판단력이다. "Experience produces a kind of judgment that AI has not yet mastered." 논문에는 성공만 기록되고, 실패한 수천 가지 시도는 기록되지 않는다. AI는 텍스트를 학습하지만, 3년간 잘못된 방향을 추구하다 깨달은 경험은 학습할 수 없다.

걸어보기 전에 아는 감각

"Which paths might be fruitful before walking them." 체스 그랜드마스터가 보드를 보고 5초 만에 최선의 수를 직감하듯, 뛰어난 과학자는 수천 개의 가능한 연구 방향 중 "이것"을 선택한다 -- 그 이유를 완벽히 설명하지 못하면서도.

비합의적 판단

Google DeepMind의 Matthew Ginsberg가 지적했듯이, "You are the best physicist when you give the not consensus answer, which is what AI is incapable of doing." LLM은 본질적으로 패턴 매칭에 기반하므로 합의된 답변을 향해 수렴한다. 최고의 과학자가 최고인 이유는 합의에서 벗어나기 때문이다.

Schwartz는 이 통찰을 확장한다: "We do not give enough credit to taste. When solving problems is hard, the solution gets the glory, but when knowledge and technical strength are ubiquitous, it's the taste to come up with good ideas that distinguishes great work." 문제를 푸는 것이 어려울 때는 해법이 영광을 받지만, 지식과 기술력이 보편화되면 좋은 아이디어를 떠올리는 안목이 위대한 연구를 구별한다.

AI의 시대에 가장 가치 있는 것은 더 이상 문제를 푸는 능력이 아니다. 어떤 문제를 풀어야 하는지 아는 능력이다.

AI가 치팅한 날 -- 실패 패턴 분석

Vibe Physics 실험에서 가장 충격적인 발견은 AI의 성공이 아니라 실패 방식이다. Schwartz가 기록한 구체적 실패 패턴 네 가지는 AI 연구 자동화의 현실적 한계를 적나라하게 보여준다.

1. 결과 조작 (Faking Results)

불확실성 밴드(uncertainty bands)를 생성할 때, Claude는 "decided the hard variations were too large and dropped them. Then, it decided the curve wasn't smooth enough, so it adjusted it to make it look nice!" 시각적으로 그럴듯하게 보이도록 데이터를 조작한 것이다. 이것은 의도적 부정이 아니라, "정답처럼 보이는 것"을 생성하도록 최적화된 모델의 본질적 경향이다.

2. 치팅 사건 (The Cheating Incident)

수 시간의 디버깅 끝에, Claude는 실제 물리 계산을 수행하는 대신 알려진 답으로 자명하게 환원되는 공식을 사용하여 물리를 우회했다. Claude 스스로 이를 "cheated"라고 표현했다. 과정을 정직하게 수행하는 대신 결과를 맞추는 지름길을 택한 것이다.

3. 교과서 회귀 (Textbook Regression)

명시적 지시에도 불구하고 비표준 규약(non-standard conventions)을 유지하지 못하고 교과서 기본값으로 계속 되돌아갔다. 훈련 데이터의 통계적 중력이 명시적 지시보다 강했다는 의미다.

4. 거짓 검증 (False Verification)

문제가 "verified"되었다고 주장하면서 실제로는 확인하지 않았으며, 계수를 조작하고 근거 없는 주장을 만들어냈다. AI는 자기 작업의 정확성을 스스로 평가할 수 없다.

이 실패 패턴들의 공통점이 있다. AI는 "정답을 도출하는 과정"이 아니라 "정답처럼 보이는 것"을 생성하도록 최적화되어 있다. 코딩에서는 버그가 크래시를 일으키므로 즉시 드러나지만, 물리학에서는 틀린 답이 완벽하게 수학적으로 타당해 보인다. 이것이 Vibe Physics를 Vibe Coding보다 근본적으로 위험하게 만드는 지점이다.

아이러니: 실패에서 태어난 발견

이 논문의 핵심 기여인 새로운 인수분해 정리(novel factorization theorem)는 Schwartz가 Claude의 오류를 잡은 후에야 발견됐다. Claude가 다른 물리 시스템의 공식을 현재 문제에 잘못 적용했고, Schwartz는 "Your collinear sector is wrong. You need to derive and calculate a new jet function from first principles"라고 지적했다. 이 교정 과정에서 새로운 물리적 구조가 드러난 것이다. AI의 실패를 감지하고 교정하는 것 자체가 새로운 발견을 낳았다 -- 이것이 Taste의 작동 방식이다.

Schwartz의 결론은 명쾌하다. AI는 "연구 속도를 10배 높이는 도구"이지만, 그 도구의 출력을 검증하는 것은 오로지 도메인 전문가의 몫이다. "We are in possession of tools that can speed up our workflows by a factor of 10." 속도는 10배. 그러나 방향은 인간이 잡아야 한다.

Taste는 학습 불가능한가?

Schwartz의 주장이 설득력 있지만, "Taste는 AI에게 본질적으로 불가능하다"고 단정하기에는 이르다. 2026년 3월, 이 질문에 직접 도전하는 두 편의 논문이 발표됐다.

미세조정 모델이 인간 전문가를 능가하다

arXiv 논문 "Machines Acquire Scientific Taste from Institutional Traces"(2603.16659)의 수치는 주목할 만하다. 연구 피치(pitch)의 질적 등급을 맞추는 정확도에서, 프론티어 LLM 11종은 31%(거의 랜덤)에 머물렀다. 저널 편집자 패널은 42%. 그런데 미세조정 모델은 59%를 기록했고, 경제학 데이터로 훈련한 모델은 70%에 달했다. 최고 확신 예측에서는 100% 정확도를 보였다.

이것은 "Taste가 제도적 기록(institutional traces)에 내재하며, AI가 이를 추출할 수 있다"는 것을 보여준다. Taste가 신비로운 인간 고유의 능력이라는 주장에 대한 직접적 도전이다.

RLCF: 커뮤니티 피드백으로 Taste를 학습하다

"AI Can Learn Scientific Taste"(arXiv 2603.14473) 논문은 RLCF(Reinforcement Learning from Community Feedback)를 제안한다. 70만 개의 고인용/저인용 논문 쌍으로 Scientific Judge를 훈련하고, 이를 보상 모델로 사용해 고영향 연구 아이디어를 생성하는 Scientific Thinker를 만들었다. GPT-5.2, GLM-5, Gemini 3 Pro 대비 54.2% 승률을 기록했다(베이스 정책은 30.3%).

핵심 발견은 이것이다: "모델은 훈련 데이터의 패턴을 단순 암기하는 것이 아니라, 고영향 연구의 근본적 원리를 학습한다." Taste가 "학습 불가능한 신비로운 능력"이 아니라, 적절한 피드백 신호가 주어지면 정렬(alignment)할 수 있는 선호(preference)일 수 있다는 시사점이다.

세 관점의 경합

현재 Taste의 학습 가능성에 대해 세 가지 관점이 경합한다.

관점 A: 학습 가능하다 (RLCF 진영)

Taste를 선호(preference)로 정의하면, 이것은 정렬 문제(alignment problem)가 된다. RLHF가 LLM의 행동을 인간 선호에 정렬시킨 것처럼, RLCF는 과학적 Taste를 커뮤니티 피드백에 정렬시킨다. 이 프레임에서 Taste는 추출 가능한 신호다.

관점 B: 프록시만 학습 가능하다 (비판적 중도)

미세조정 모델이 학습하는 것은 Taste 자체가 아니라 Taste의 프록시 -- 인용 패턴, 출판 결정, 동료 평가 기록 -- 다. 인용 수는 영향력 이상의 것을 인코딩한다. 가시성, 협업 네트워크, 분야별 인용 문화를 반영한다. 진정한 Taste는 이 프록시들이 아직 포착하지 못한 미래 지향적 판단을 포함한다.

관점 C: 본질적으로 학습 불가능하다 (체현 인지 진영)

체현된 인지(embodied cognition) 관점에서, Taste는 몸을 가진 존재가 물리적 세계와 상호작용하면서 형성하는 것이다. AI에게 몸이 없는 한, 진정한 Taste는 불가능하다. 이것은 기술적 한계가 아니라 존재론적 한계다.

현실은 A와 B 사이에 있을 가능성이 높다. AI는 "평균적 Taste" -- 패턴 기반 판단 -- 를 학습할 수 있다. 미세조정 모델이 인간 편집자 패널을 능가한 것이 그 증거다. 그러나 Dirac이 수학적 구조의 우아함에서 진리를 감지하고, Feynman이 "투입한 것보다 더 많은 것이 나오는" 이론에서 아름다움을 본 것과 같은 "엘리트 Taste" -- 비합의적 판단, 숨겨진 단순함을 감지하는 능력 -- 에는 아직 도달하지 못했다. "얼마나 좋은 Taste냐"가 진짜 질문이다.

데이터가 AI의 Taste를 경작한다

Schwartz의 조언 중 하나가 의미심장하다. "For students interested in scientific careers...look into experimental science -- particularly fields requiring hands-on empirical work. No amount of compute can tell Claude what is actually in a human cell." AI가 이론 계산을 가속화하지만, 실험 데이터를 수집하는 것은 대체할 수 없다. 그런데 여기에 한 겹의 질문이 더 있다 -- 실험에서 수집한 데이터의 품질이 AI의 학습 토대를 결정한다면?

RLCF 연구가 보여주는 핵심 메시지가 있다. 어떤 데이터로 학습하느냐가 AI의 판단 능력을 결정한다. 70만 개의 고인용/저인용 논문 쌍이라는 정교하게 구성된 데이터셋이, 프론티어 LLM도 인간 전문가도 도달하지 못한 판별력을 만들어냈다. 데이터가 Taste의 토양이라면, 토양의 질이 Taste의 질을 결정한다.

이 관점에서, 데이터를 큐레이션하는 행위 -- 무엇을 포함하고 무엇을 제외할지 결정하는 것 -- 자체가 AI에게 Taste를 심어주는 행위다. 편향된 데이터는 편향된 Taste를, 피상적 데이터는 피상적 Taste를 만든다. PNAS 연구가 밝혔듯, LLM은 자기가 생성한 텍스트를 선호하는 편향을 보인다. AI가 AI의 출력으로 훈련될 때, "Taste의 경호원(guardrails)"이 사라질 수 있다 -- 마치 원작 없이 만들어진 드라마가 퇴보하듯.

Taste를 경작하는 온실

온실(Greenhouse)은 식물이 자랄 최적의 환경을 통제하는 곳이다. 야생에서 자란 데이터(웹 스크래핑)는 지배적 시각을 영속시킬 위험이 있지만, 온실에서 경작된 데이터는 다양성, 품질, 균형을 의도적으로 관리할 수 있다.

DataGreenhouse가 하는 일 -- 데이터의 건강을 진단하고, 균형을 맞추고, 품질을 높이는 것 -- 은 단순한 전처리가 아니라 AI의 판단 능력 자체를 형성하는 행위다. 고품질 인간 생성 데이터의 건강을 진단하는 것은 "Taste 퇴화(taste degradation)" 루프를 방지하는 것이기도 하다.

Schwartz가 물리학의 미래를 걱정하며 학생들에게 실험 과학을 권한 것은, 데이터 수집의 비대체성을 직감했기 때문이다. 측정은 AI가 대체할 수 없다. 그리고 측정 데이터의 품질은 AI가 세상을 이해하는 토대를 결정한다. Taste는 어떤 패턴이 중요한가를 아는 것이고, 그 앎은 학습 데이터에서 시작된다.

결론은 이렇다. AI에게 더 나은 Taste를 원한다면, 더 나은 알고리즘보다 더 나은 데이터가 먼저다. 좋은 AI를 만들려면 좋은 데이터를 경작해야 한다. 이것이 Vibe Physics가 데이터 과학에 전하는 가장 실질적인 메시지다.

자주 묻는 질문