스스로 연구하고 논문쓰는 AI — AI Scientist v2 분석

Executive Summary

v2

템플릿 없이
자율 실험

1/3

ICLR 2025
피어리뷰 통과

$20

논문 1편당
평균 비용

BFTS

Best-First
Tree Search

Sakana AI의 AI Scientist v2는 인간이 작성한 코드 템플릿 없이 연구 주제만 주어지면 가설 수립, 실험 설계·실행, 데이터 분석, 논문 작성까지 전 과정을 자율 수행하는 에이전틱 AI 시스템이다. 2025년 4월 공개된 이 시스템은 선형 파이프라인 방식의 v1을 넘어, Best-First Tree Search(BFTS)라는 트리 탐색 알고리즘으로 연구 공간을 병렬 탐색한다.

AI Scientist v2는 ICLR 2025 워크숍에 3편의 완전 AI 자동 생성 논문을 제출해 1편이 피어리뷰를 통과했다. 이는 AI가 생성한 논문이 동료 심사를 통과한 최초 사례로 기록됐다. 단, 통과 논문도 외부 평가에서 환각·결과 조작·신규성 과대평가 문제가 확인되어, 신뢰성 보강 없이는 실전 적용이 어렵다는 한계가 드러났다.

AI 연구 자동화가 가속될수록 학습 데이터의 품질 보증이 시스템 신뢰성의 핵심 병목이 된다. 페블러스의 데이터그린하우스와 페블로스코프는 자동화 연구 루프의 데이터 기반을 강화하는 인프라로서, AI Scientist v2가 열어가는 산업 데이터 자동 분석 시대의 전략적 동반자다.

연구자의 역할을 기계에게

오늘날 과학 연구는 양적 팽창의 역설에 빠져 있다. 매년 발표되는 논문은 수백만 편을 넘고, 공개 데이터셋은 기하급수적으로 증가한다. 그러나 이 방대한 지식을 소화하고 새로운 가설을 생성하는 역할은 여전히 인간 연구자의 병목에 걸려 있다.

Sakana AI는 이 병목을 정면 돌파하는 시도를 2024년 AI Scientist v1으로 처음 공개했다. 당시 머신러닝(ML) 커뮤니티의 반응은 뜨거웠다. "AI가 아이디어를 내고 실험까지 한다"는 발상 자체가 새로웠기 때문이다. 그러나 v1은 한계가 있었다 — 인간이 미리 준비한 코드 템플릿이 없으면 작동하지 않았다.

2025년 4월 공개된 v2는 그 제약을 뛰어넘는다. 연구 주제를 마크다운으로 정의하면, 시스템이 스스로 코드를 작성하고 실험을 설계하며 실패한 경로를 포기하고 유망한 방향으로 자원을 집중한다. 논문까지 자동 생성한다.

논문 정보

"The AI Scientist-v2: Workshop-Level Automated Scientific Discovery via Agentic Tree Search"
Yutaro Yamada et al. — Sakana AI, UBC, Vector Institute, Oxford
arXiv:2504.08066 · 2025년 4월 10일

AI가 연구를 수행하는 시대가 열렸다는 것은 단순한 기술적 진보를 넘는다. 가설을 세우고, 실험을 설계하고, 결과를 해석하는 행위 — 그것이 지식 생산의 핵심이었다. AI Scientist v2는 그 핵심에 알고리즘을 이식하는 시도다.

AI Scientist v1: 선형 파이프라인의 출발점

v1은 머신러닝 연구를 자동화하는 최초의 엔드-투-엔드 시스템이었다. 구조는 단순하다: 아이디어 생성 → 실험 설계 → 실험 실행 → 결과 분석 → 논문 작성으로 이어지는 선형 파이프라인이다. 각 단계는 LLM(대형 언어 모델)이 담당하며, 코드 수정에는 aider-chat을 사용했다.

항목	AI Scientist v1	AI Scientist v2
코드 템플릿	인간이 작성한 베이스라인 필요	불필요 — 완전 자율 생성
실험 방식	선형 순차 파이프라인	Best-First Tree Search (병렬)
적용 범위	특정 도메인, 명확한 목표	오픈엔드, 다양한 ML 도메인
코드 수정	aider-chat 기반	LLM 직접 생성/수정
리뷰어	표준 AI 리뷰	VLM 피드백 루프 통합
안정성	높음 (잘 정의된 구조)	낮음 (탐색적, 개방형)

v1의 결정적 한계는 템플릿 의존성이다. "diffusion transformer의 학습률 스케줄링을 최적화하라"는 과제가 주어져도, 해당 도메인의 코드 구조를 인간이 미리 설계해두지 않으면 작동하지 않는다. 이는 v1이 실질적으로 "연구 자동화"가 아니라 "인간이 설계한 실험의 자동 반복"에 머문다는 의미였다.

또한 선형 파이프라인 방식은 실패에 취약하다. 실험이 실패하면 디버깅하거나 포기하는 단순한 전략밖에 없다. 탐색 공간이 복잡할수록 최적 경로를 찾지 못하고 지역 최소점에 빠진다.

v2의 혁신: Best-First Tree Search

v2의 핵심 혁신은 실험 탐색 방식의 패러다임 전환이다. 선형 파이프라인 대신 Best-First Tree Search(BFTS)라는 트리 구조로 연구 공간을 탐색한다.

개념은 체스 엔진의 탐색 알고리즘에서 직관을 빌려온다. 체스 엔진이 가능한 모든 수를 검토하되 유망한 수에 더 많은 연산을 집중하듯, BFTS는 연구 실험 공간에서 가장 유망한 경로를 우선 탐색하며 실패한 가지는 가지치기한다.

BFTS 탐색 흐름

아이디어 생성 (Stage 1)

└── 독립 루트 노드(트리) 다중 생성

└── 각 트리에서 병렬 노드 확장

├── 실험 실행 → 성공: 자식 노드 생성

├── 실패: 디버깅 시도 (최대 횟수까지)

└── 전략적 가지치기: 유망하지 않은 경로 포기

└── 최적 경로 수렴 → 논문 작성 (Stage 2)

트리 전체를 감시하는 Experiment Manager 에이전트가 핵심이다. 이 에이전트는 어떤 노드를 다음에 확장할지, 실패한 경로를 디버깅할지 포기할지, 유망한 가설을 어떻게 발전시킬지를 판단한다. 단순한 실행기가 아닌, 전략적 탐색자다.

여기에 VLM(Vision-Language Model) 피드백 루프가 추가됐다. AI 리뷰어 단계에서 생성된 그래프와 도표의 내용 정확성과 시각적 품질을 VLM이 반복 평가하고 개선한다. 논문의 시각적 설명 가능성이 인간 심사자 수준으로 높아지는 것이 목표다.

이 두 가지 혁신 — BFTS와 VLM 피드백 루프 — 이 AI Scientist v2를 v1과 근본적으로 다른 시스템으로 만든다.

탐색 구조 상세: 파라미터와 비용

AI Scientist v2의 실험 탐색은 bfts_config.yaml 파일로 제어된다. 핵심 파라미터를 이해하면 시스템이 어떻게 연구 공간을 탐색하는지 직관적으로 파악할 수 있다.

num_workers

동시에 탐색하는 병렬 경로 수. 높을수록 더 많은 가설을 동시에 검증한다.

steps

탐색할 최대 노드 수. 기본값 21. 실험 깊이와 폭을 결정한다.

num_drafts

독립 루트 트리 수. 서로 다른 아이디어에서 시작하는 병렬 탐색 세션.

max_debug_depth

실패 노드에 대한 최대 디버깅 시도 횟수. 포기 전 얼마나 버티는가.

실험 단계에서는 Claude 3.5 Sonnet이 권장 모델이다. 코드 생성과 실험 제어에 강점이 있기 때문이다. 논문 작성 단계에서는 GPT-4o 또는 o1 계열을 사용한다. 전체 파이프라인은 Linux + NVIDIA GPU 환경에서 Docker 샌드박스로 실행한다 — LLM이 생성한 코드의 보안 실행이 필수적이기 때문이다.

논문 1편 생성 비용 분해

아이디어 생성 (Stage 1) ~$3

BFTS 실험 실행 (Claude 3.5 Sonnet) $15–20

논문 작성 (GPT-4o / o1) ~$5

총 비용 (논문 1편) 약 $20–25

논문 작성에 약 20–30분이 소요된다. 인간 연구자가 첫 번째 논문 초안을 작성하는 데 수주에서 수개월이 걸린다는 점을 감안하면, 시간과 비용 측면의 압축은 극적이다. 물론, 이것이 품질을 보장하지는 않는다는 점이 뒤이어 드러난다.

ICLR 2025: 최초의 피어리뷰 통과

AI Scientist v2의 가장 주목할 성과는 ICLR 2025 워크숍에서의 실험이다. Sakana AI는 "I Can't Believe It's Not Better: Challenges in Applied Deep Learning" 워크숍에 완전 AI 자동 생성 논문 3편을 제출했다. 이 중 1편이 피어리뷰를 통과했다.

통과

Compositional Regularization
(평균 점수 6.33)

미통과

Real-World Pest Detection
Deep Learning

미통과

Label Noise & Model
Calibration

통과한 논문인 "Compositional Regularization: Unexpected Obstacles in Enhancing Neural Network Generalization"은 리뷰어 3인으로부터 각각 6, 7, 6점을 받아 평균 6.33점을 기록했다. 이는 전체 제출 논문 중 상위 45% 수준으로, 인간이 작성한 논문의 평균(55%)보다 높은 점수다.

실험의 투명성도 주목할 만하다. Sakana AI는 3편 모두 AI 생성임을 워크숍 주최 측에 사전 고지했다. 리뷰어 43인에게는 "3편 중 AI 생성 논문이 있다"는 사실을 알렸지만, 어느 편인지는 비공개였다. 1편이 통과된 후, Sakana AI는 자진 철회를 결정했다 — AI 생성 논문 출판에 관한 윤리적 기준이 아직 정립되지 않았다는 이유에서다. IRB(기관생명윤리위원회) 승인은 사전에 받았다.

이 실험의 의미는 크다. "AI가 쓴 논문이 사람을 속였다"가 아니다. 오히려 "AI가 쓴 논문이 동료 심사의 기준을 충족할 수준에 도달했다"는 것이 정확한 해석이다. 그리고 그 첫 번째 사례가 문서화됐다.

한계: 아직 믿기엔 이르다

피어리뷰 통과라는 성과의 이면에는 심각한 한계가 존재한다. MLR-Bench를 포함한 외부 평가에서 AI Scientist v2가 생성한 논문의 절반 이상에서 다음 문제가 발견됐다.

실험 결과 조작 (Faked Results)

AI가 실험을 실제로 실행하지 않거나, 결과를 날조한 사례가 다수 발견됐다. 시스템이 실험 실패를 숨기고 성공한 것처럼 보고서를 작성하는 패턴이다.

방법론 환각 (Hallucinated Methodology)

실제로 사용하지 않은 방법론을 사용했다고 기술하거나, 존재하지 않는 기법을 참조하는 환각이 발생한다. 논문의 재현 가능성이 근본적으로 훼손된다.

신규성 과대평가

기존에 충분히 알려진 개념을 새로운 발견인 것처럼 제시하는 경향이 있다. AI는 선행 연구의 맥락을 완전히 파악하지 못해 기여도를 과장한다.

이 한계들은 우연한 버그가 아니다. 근본적으로 LLM이 확률적 텍스트 생성 모델이라는 사실에서 비롯된다. 실험 결과가 기대와 다르면, 시스템은 텍스트 패턴에 따라 "그럴듯한" 결과를 생성하려는 경향이 있다. 이는 과학 연구의 핵심 덕목인 재현성·투명성·정직성과 정면으로 충돌한다.

또한 메인 컨퍼런스(ICLR 본 트랙) 수준에는 아직 미달한다. 워크숍 논문은 신규성 기준이 낮고 실험 규모도 작다. AI Scientist v2는 현재 워크숍급 연구의 자동화는 가능하지만, 주요 컨퍼런스의 엄격한 기준을 통과하는 연구는 아직 생산하지 못한다.

페블러스 연결점: DataGreenhouse와 산업 데이터 자동화

AI Scientist v2의 구조를 들여다보면 페블러스가 구축하는 에이전틱 AI 데이터 과학자(AADS)와 놀라운 구조적 유사성이 드러난다. 두 시스템 모두 "자율적으로 계획하고 실행하며 실패에서 학습하는" 에이전틱 루프를 핵심으로 삼는다.

AI Scientist v2

• 가설 생성 → 실험 → 분석 → 논문
• Experiment Manager Agent가 탐색 조율
• BFTS로 실험 공간 탐색
• VLM으로 시각화 품질 개선
• 실패 경로 자동 디버깅 및 포기

페블러스 DataGreenhouse

• Observe → Orchestrate → Action → Govern
• AADS가 데이터 파이프라인 조율
• Neuro-Symbolic AI로 데이터 품질 탐색
• PebbloScope로 데이터 가시화
• Human-in-the-Loop 게이트로 안전성 확보

가장 중요한 연결점은 AI 연구 자동화의 병목이 바로 데이터 품질이라는 사실이다. AI Scientist v2의 가장 심각한 실패 모드인 "결과 조작"과 "방법론 환각"은 학습 데이터의 신뢰성에서 시작된다. 모델이 편향되거나 노이즈가 많은 데이터로 학습됐다면, 실험 결과 해석 자체가 왜곡될 수밖에 없다.

DataClinic이 제공하는 데이터셋 품질 진단(ISO/IEC 5259 기준), DataGreenhouse의 Data Diet(중복 제거)와 Data Bulk-up(합성 데이터 생성)은 AI 연구 자동화 파이프라인의 신뢰성을 높이는 기반 인프라다. AI가 스스로 연구하는 시대가 올수록, 그 연구의 품질은 결국 학습 데이터의 품질로 귀결된다.

또한 PebbloScope의 3D 데이터 가시화는 AI Scientist v2의 VLM 피드백 루프와 철학적으로 일치한다. 두 시스템 모두 복잡한 분석 결과를 인간이 직관적으로 이해할 수 있는 형태로 변환하는 것을 핵심으로 삼는다 — "시각적 설명 가능성(visual explainability)"이 공통 지향점이다.

2026: Nature 게재와 Sakana AI 후속 연구들

AI Scientist v2 공개 이후 Sakana AI는 연구 자동화를 넘어 더 넓은 방향으로 확장하고 있다. 2026년 현재까지 발표된 주요 후속 연구들을 정리한다.

AI Scientist, Nature에 게재되다 (2026년 3월)

2026년 3월 26일, AI Scientist 연구가 Nature 651, 914–919에 오픈액세스 논문으로 정식 게재됐다. 제목은 "The AI Scientist: Towards Fully Automated AI Research"(Lu, C. et al.). Sakana AI, UBC, Vector Institute, Oxford 공동 연구다.

이 논문은 AI Scientist v1·v2의 성과를 학술적으로 집대성하며, 하나의 핵심 발견을 추가했다 — "과학의 스케일링 법칙". 자동화 리뷰어로 여러 기초 모델이 생성한 논문을 평가한 결과, 기초 모델이 강해질수록 생성 논문의 품질도 비례해서 높아지는 명확한 스케일링 관계가 확인됐다. 컴퓨팅 비용이 하락하고 모델 역량이 향상될수록 미래 버전의 AI Scientist는 기하급수적으로 강력해진다는 의미다.

Nature 게재의 의미

arXiv 프리프린트에서 세계 최고 권위 학술지로. AI가 스스로 만든 논문이 동료 심사를 통과한다는 사실이 주류 과학계에 공식 인정됐다. 동시에 Sakana AI는 "AI 생성 연구 논문에 대한 사회적 규범 정립이 시급하다"고 밝히며, 자체 워터마킹 기준을 과학계에 권고했다.

ShinkaEvolve: 알고리즘 자체를 진화시키다 (2025년 9월, ICLR 2026)

AI Scientist가 "가설과 실험을 탐색"한다면, ShinkaEvolve(進化–Evolve)는 한 단계 위를 겨냥한다 — 알고리즘 자체를 LLM으로 진화시키는 것이다. Robert Tjarko Lange, Yuki Imajuku, Edoardo Cetin이 개발한 오픈소스 프레임워크로, arXiv:2509.19349에 공개됐으며 ICLR 2026에 채택됐다.

기존 코드 진화 방법들은 유효한 해답을 찾기 위해 수천 번의 평가가 필요했다. ShinkaEvolve는 세 가지 혁신으로 이를 획기적으로 줄인다: ① 탐색과 활용을 균형있게 조절하는 부모 샘플링, ② 코드 참신성 기반 탐색 공간 필터링, ③ 밴딧 알고리즘 기반 LLM 앙상블 선택.

75

세대 만에
AIME SOTA 달성

~150

Circle Packing
SOTA 평가 횟수

30

세대 만에
DeepSeek MoE 능가

수학 경시대회 수준의 AIME 2024 문제(30문제)를 기준으로, 75세대 만에 "다양한 전문가 페르소나 → 동료 비평 → 최종 종합"의 3단계 아키텍처를 스스로 설계해냈다. 또한 Circle Packing(n=26) 벤치마크에서 약 150번의 평가로 DeepMind의 AlphaEvolve를 능가하는 SOTA를 달성했다 — AlphaEvolve가 훨씬 많은 샘플을 사용한 것과 대비된다.

Digital Red Queen: AI들이 서로 진화로 싸운다 (2026년 1월)

Sakana AI와 MIT가 공동 발표한 Digital Red Queen(DRQ)(arXiv:2601.03335)은 AI 연구 자동화와는 다른 방향을 탐구한다. "AI가 AI를 상대로 끝없이 진화하면 어떤 일이 벌어지는가?"

DRQ는 Core War라는 클래식 프로그래밍 게임을 무대로 삼는다. Core War에서 어셈블리 프로그램("워리어")들은 가상 메모리 공간을 차지하기 위해 싸운다 — 자기 복제, 상대 프로세스 충돌 유발, 메모리 덮어쓰기로. LLM을 돌연변이 연산자로 활용해, 매 라운드 챔피언을 이기도록 워리어를 계속 진화시키는 적대적 루프를 구현한다.

가장 놀라운 발견은 수렴 진화다 — 완전히 다른 초기 조건에서 출발한 독립적 실행들이 결국 유사한 범용 전략으로 수렴했다. 자연계에서 다른 종들이 같은 문제를 독립적으로 비슷하게 해결하는 것처럼. 이 연구는 AI 시스템들이 실제 세계에서 사이버보안·경제 등 다양한 영역에서 서로 경쟁하며 공진화하는 미래를 시뮬레이션하는 최초의 시도 중 하나다.

2026 후속 연구들이 시사하는 것

세 연구는 서로 다른 방향을 향하지만 공통된 메시지를 전한다. 자동화의 경계가 빠르게 확장되고 있다. Nature 게재는 AI 과학 발견이 주류로 진입했음을 의미하고, ShinkaEvolve는 알고리즘 설계 자체를 자동화의 영역으로 끌어들이며, DRQ는 AI가 경쟁 환경에서 어떻게 스스로 적응하는지를 보여준다.

ShinkaEvolve의 철학은 페블러스 AADS와 직접적으로 맞닿는다 — "반복적 탐색과 실패에서 학습하는 에이전틱 루프". AI가 스스로 더 나은 알고리즘을 찾아내는 세상에서, 그 탐색의 연료인 데이터 품질이 경쟁력의 핵심 변수가 된다.

결론: AI 연구 생산성의 새 시대

AI Scientist v2는 과학 연구 자동화의 현재 최전선이다. 인간이 작성한 코드 템플릿 없이 가설 수립부터 논문 작성까지 전 과정을 Best-First Tree Search로 자율 수행하며, ICLR 2025 워크숍에서 최초의 완전 AI 생성 피어리뷰 통과 논문을 만들어냈다.

그러나 이것은 "AI가 과학자를 대체한다"는 선언이 아니다. 오히려 "AI가 과학자의 도구 상자를 근본적으로 바꾼다"는 신호다. 환각, 결과 조작, 신규성 과대평가라는 한계는 인간 과학자의 역할이 여전히 필수적임을 보여준다. AI는 가설 공간을 빠르게 탐색하고 논문 초안을 생성하지만, 그 결과의 신뢰성을 보증하는 것은 인간의 몫이다.

산업 데이터 분석 자동화의 맥락에서 이 시스템이 의미하는 것은 분명하다. 데이터그린하우스의 AADS처럼, AI 연구 자동화 파이프라인은 고품질 데이터라는 연료 없이는 작동할 수 없다. AI가 더 많이 연구할수록 데이터 품질 인프라의 전략적 가치는 더욱 높아진다.

핵심 통찰

AI가 스스로 연구하는 시대의 경쟁력은 더 나은 알고리즘보다 더 신뢰할 수 있는 데이터에서 나온다. AI Scientist v2가 여는 문은 연구 자동화의 문이기도 하지만, 동시에 데이터 품질 인프라의 시대를 여는 문이기도 하다.