AI가 바꾼 건 가설이 아니라, 그 가설을 검증하는 분석 코드였다

Pebblous Data Communication Team

Executive Summary

지난 10년의 'AI for Science'는 대체로 가설을 자동화하려 했다. 단백질 구조를 예측하고(AlphaFold), 신물질 후보를 쏟아내고(GNoME), 논문 아이디어를 생성했다(AI Scientist). 구글 리서치가 Nature(2026)에 발표한 ERA(Empirical Research Assistance)는 자동화의 과녁을 한 칸 옮겼다. ERA가 고쳐 쓰는 것은 가설이 아니라, 그 가설을 데이터로 검증하는 분석 코드 그 자체다. 이 글은 그 한 칸의 이동이 데이터를 다루는 모든 팀에게 무엇을 뜻하는지 본다.

방법은 트리 탐색이다. LLM이 분석 코드의 변형을 제안하면 ERA가 그것을 실제로 실행해 벤치마크 점수로 채점하고, 좋은 가지만 남겨 다시 변형한다. 이 루프를 돌린 결과 단세포 RNA 분석의 공개 리더보드에서 사람이 만든 1위 방법을 넘어선 새 방법을 다수 만들어냈고, COVID-19 입원 예측에서는 미국 CDC의 공식 앙상블보다 낮은 오차를 기록했다. 천재적 한 방이 아니라 반복 가능한 탐색이 전문가의 최고 기록을 넘었다는 점이 핵심이다.

그러나 보상 함수가 벤치마크 점수인 순간 한 가지 질문이 남는다. 그 벤치마크의 데이터가 편향돼 있으면, ERA는 편향을 가장 잘 재현하는 코드를 찾아낼 뿐 아닌가. 분석 코드가 자동으로 생성되는 시대에 신뢰의 무게중심은 모델에서 데이터와 검증 절차로 옮겨간다. '좋은 데이터'의 정의가 '좋은 분석'으로 한 칸 옮겨가는 것이고, 그 자리가 바로 페블러스가 일해 온 곳이다.

ERA, 숫자로 보면

아래 수치는 모두 본문에서 설명한다. 출처: ERA 논문(Nature 654, 2026; arXiv:2509.06503v3)과 GNoME(Nature, 2023).

40 / 87

리더보드 1위를 넘은 방법

ERA가 시도한 87개 단세포 분석법 중 40개가 공개 리더보드의 기존 1위를 종합 점수에서 초과

+14%

기존 최우수 대비 향상

batch integration에서 ERA의 BBKNN 변형이 기존 1위 ComBat 대비 종합 점수 +14%

26 vs 29

COVID 예측 WIS

입원 예측 평균 오차(WIS, 낮을수록 우수). ERA 26, CDC 앙상블 29 — 단, 회고적 평가

736 / 220만

예측 풍요 vs 검증 희소

GNoME가 예측한 220만 결정 구조 중 독립 실험으로 검증된 것은 736개. 검증은 늘 병목이다

1

출제자가 된 AI — 가설이 아니라 분석 코드를 고쳐 쓴다

시험을 떠올려 보자. 우리가 익숙한 'AI 과학자'는 문제를 푸는 학생에 가깝다. 단백질이 어떻게 접힐지 예측하고(AlphaFold), 안정적인 결정 구조 후보를 쏟아내고(GNoME), 새 연구 아이디어를 적어 낸다(AI Scientist). 모두 답을, 즉 가설과 결과물을 만들어 내는 일이다. ERA가 손대는 곳은 다르다. ERA는 학생이 아니라, 채점 기준을 스스로 수백 번 고쳐 쓰는 출제자에 가깝다. 데이터를 어떻게 읽고 정리하고 비교할지를 정하는 분석 코드, 그 자체를 자동으로 다시 쓴다.

이 구분은 사소해 보이지만 실제로는 크다. 과학에서 같은 데이터라도 어떤 분석 파이프라인을 통과시키느냐에 따라 결론이 달라진다. 단세포 RNA 데이터를 배치 효과 없이 정렬하는 방법, 입원 환자 수를 시계열로 예측하는 방법은 수십 가지가 경쟁하고, 그중 무엇을 고르고 어떻게 이어 붙이는지가 곧 분석가의 전문성이다. ERA는 바로 그 선택과 조립의 영역에 들어왔다. 가설은 사람이 던지되, 그 가설을 데이터로 검증하는 코드는 기계가 탐색한다.

계보로 보면 ERA는 구글 딥마인드의 FunSearch(2023)와 AlphaEvolve가 연 길 위에 있다. 두 시스템은 LLM이 코드를 제안하고 그것을 실행해 평가하는 방식으로 수학 함수와 알고리즘을 탐색했다. ERA는 같은 발상을 실험 데이터를 다루는 end-to-end 분석 파이프라인으로 넓혔다. 탐색의 대상이 "더 나은 수학적 함수"에서 "더 나은 데이터 분석 방법"으로 확장된 것이다.

한 문장으로 정리하면 이렇다. ERA는 가설이 아니라 분석 코드를 트리 탐색으로 고쳐 쓴다. '발견을 가속하는 AI'와 '분석 방법을 만들어 내는 AI'는 닮았지만 다른 자리에 선다. 그리고 분석 방법을 기계가 만들기 시작하는 순간, 그 방법이 옳은지 누가 어떻게 판단하느냐는 질문이 새로 열린다.

▲ AI for Science 자동화 계보. AlphaFold·GNoME·AI Scientist는 가설·발견 층을 자동화한다. ERA는 분석 코드 층이라는 새 자리에 선다. 페블러스 원본 도식 (ERA Fig. 1 재해석)

2

트리 탐색으로 분석을 고쳐 쓰다

ERA의 작동은 네 단계의 반복으로 요약된다. 먼저 LLM이 현재 분석 코드의 변형안을 제안한다. ERA는 그 코드를 말로만 검토하지 않고 실제 데이터에 실행한다. 결과가 나오면 정해진 벤치마크 점수로 채점하고, 점수가 높은 가지만 남겨 다음 변형의 출발점으로 선택한다. 좋은 코드는 더 깊이 탐색하고 나쁜 코드는 일찍 잘라 내는, 트리 형태의 탐색이다.

탐색 전략은 PUCT 기반의 Flat UCB Tree Search다. 바둑·체스 AI가 쓰는 몬테카를로 트리 탐색(MCTS)의 친척으로, 유망한 가지를 우선 파고들되 충분히 시도하지 않은 가지에도 기회를 주는 균형 규칙(c_puct=1)을 쓴다. 다만 깊은 재귀 대신 전역에서 평평하게(flat) 다음 노드를 고르기 때문에, 비용이 노드 수에 거의 선형으로 비례한다. 자원을 얼마나 쓸지 예측하기 쉽다는 뜻이다.

여기서 흔한 오해 하나를 바로잡을 필요가 있다. 초기 보도에는 ERA가 "수만 번" 탐색했다는 표현이 돌았지만, 논문 기준 실제 규모는 태스크당 코드 후보 500~2,000개 수준이고 점수는 대개 300~1,000개 지점에서 더 오르지 않고 포화한다. 정확한 표현은 "수만 번"이 아니라 "수백에서 수천 회의 코드 후보 평가"다. 숫자를 부풀리지 않아도 결과는 충분히 인상적이다.

ERA의 핵심 루프. 제안→실행→채점→선택이 한 바퀴를 이루고, 점수가 높은 가지에서 다시 제안이 출발한다. 논문 figure를 페블러스 색 체계로 재해석.

구조를 뜯어 보면 ERA의 강점과 약점이 같은 곳에서 나온다는 사실이 드러난다. 강점은 코드를 말로 평가하지 않고 실제로 실행해 측정한다는 점이다. 그럴듯한 설명이 아니라 점수가 가지를 살린다. 약점도 정확히 거기에 있다. 가지를 살리고 죽이는 유일한 기준이 벤치마크 점수라면, 그 점수가 가리키는 곳이 곧 ERA가 도착하는 곳이다. 점수가 데이터의 편향을 보상한다면 ERA는 편향으로 달려간다. 4번 섹션에서 이 문제를 정면으로 다룬다.

3

단세포 40개와 CDC 앙상블을 실제로 넘었다

가장 선명한 성과는 단세포 분석에서 나왔다. 무대는 OpenProblems(v2.0.0)의 batch integration 벤치마크다. 서로 다른 실험·플랫폼에서 측정된 174만여 개 세포(정확히는 1,747,937개)의 데이터를 모았을 때 생기는 기술적 잡음, 즉 배치 효과를 얼마나 잘 걷어 내면서도 진짜 생물학적 신호를 보존하느냐를 13개 지표·6개 데이터셋으로 채점하는 자리다. ERA는 여기서 87개의 분석법을 시도했고, 그중 40개가 사람이 만든 기존 1위 방법을 종합 점수에서 넘어섰다.

"40개를 만들었다"는 표현은 정확히 읽어야 한다. 40개 전부가 단독 1위라는 뜻이 아니라, 87번의 시도 중 40번이 기존 최고 기록을 초과하는 수준이었다는 뜻이다. 가장 강한 변형인 BBKNN 계열은 기존 1위 ComBat 대비 종합 점수를 약 14% 끌어올렸다. 흥미로운 점은 ERA가 즐겨 쓴 전략이다. 55개 방법은 두 기존 방법을 결합(recombination)해 만들어졌고, 그중 24개는 부모가 된 두 방법을 모두 능가했다. 새 원리를 발명하기보다, 이미 있는 좋은 조각들을 끈질기게 다시 조합한 결과다.

▲ ERA 재조합 전략. 87개 시도 중 55개는 기존 두 방법의 조합이며, 그 중 24개가 두 부모 방법을 모두 넘어섰다. 페블러스 원본 도식 (ERA paper 재해석)

두 번째 무대는 COVID-19 입원 예측이다. ERA가 생성한 14개 전략이 미국 CDC의 공식 앙상블(CovidHub)을 넘어섰다. 52개 관할 구역·4주 예측 호라이즌에서 전체 시즌 평균 WIS는 ERA 26, CDC 앙상블 29로, 약 10% 낮은 오차를 기록했다. WIS(Weighted Interval Score)는 예측의 정확도와 불확실성 보정을 함께 반영하는 오차 지표라 낮을수록 좋다.

태스크	평가 지표	사람 최고	ERA	의미
단세포 batch integration	종합 점수(13개 지표)	ComBat(기존 1위)	BBKNN 변형, +14%	높을수록 우수
단세포 batch integration	1위 초과 방법 수	—	87개 중 40개	조합 전략이 주력
COVID-19 입원 예측	평균 WIS	CDC 앙상블 29	26 (약 10%↓)	낮을수록 우수, 회고적 평가

다만 이 COVID 결과에는 정직하게 붙여야 할 단서가 있다. 이것은 회고적(retrospective) 평가다. CDC의 예측 허브는 2024년 5월 1일에 신규 접수를 종료했고, ERA는 그 뒤 같은 기간을 사후에 분석해 점수를 낸 것이다. 실시간으로 미래를 맞히는 경쟁에서 CDC를 이긴 것이 아니라, 이미 알려진 기간을 다시 분석했을 때 더 나은 코드를 찾았다는 뜻이다. 또한 CDC를 넘은 것은 단일 모델이 아니라 14가지 전략이며, 실제 현장에 배포된다면 그중 한둘만 골라 쓰게 될 것이다. 시계열·표 형식 예측을 평가하는 GIFT-Eval에서도 ERA는 적분 관련 19개 과제 중 17개에서 앞섰지만, 이 글의 초점은 단세포와 COVID 두 사례에 둔다.

4

검증의 역설: 벤치마크를 이기도록 최적화된 코드는 무엇을 검증하나

ERA의 보상 함수는 벤치마크 점수다. 이 설계는 강력하지만 한 가지 위험을 내장하고 있다. 검증 데이터에 특정 환자군·시퀀싱 플랫폼·배치 효과 같은 편향이 새겨져 있으면, '최적 코드'는 그 편향을 가장 충실히 재현하는 코드가 된다. 분석가의 의도가 아니라 데이터의 그림자를 학습하는 것이다. 이것이 검증의 역설이다. 분석을 자동화해 점수를 올릴수록, 점수가 무엇을 측정하는지에 대한 책임은 더 무거워진다.

▲ 검증의 역설 — 벤치마크 편향 피드백 루프. 검증 데이터의 편향이 채점 기준이 되면 ERA는 그 편향을 가장 잘 재현하는 코드를 찾아낸다. 페블러스 원본 도식 (ERA §검증 재해석)

이 우려는 추상적이지 않다. 단세포 분야의 파운데이션 모델(scGPT·Geneformer)은 일부 zero-shot 과제에서 단순한 고전적 방법에 뒤지는 결과가 보고됐고, 사전학습에 쓰인 CELLxGENE 데이터가 평가셋과 겹쳐 데이터 누수(leakage)가 의심된다는 지적(SC-ARENA)도 나왔다. 정적 리더보드에 대한 과적합은 머신러닝 전반의 오래된 함정이기도 하다. 한 조사에서 ML 연구의 재현 가능 비율은 63.5%에 그쳤고, AI 요소가 더해지면 비재현 비율이 약 70%까지 치솟으며, 재현 실패로 인한 연간 비용은 약 280억 달러로 추정된다.

사실 '예측은 넘치고 검증은 모자라는' 비대칭은 ERA 이전부터 있던 구조적 문제다. 딥마인드의 GNoME는 220만 개의 새로운 결정 구조를 예측했지만, 외부 실험으로 독립 검증된 것은 736개에 불과하다. 예측의 0.033%다. AI가 후보를 기하급수적으로 늘릴수록 검증 병목은 선형으로 남는다. ERA의 자동 분석은 같은 비대칭을 한 층 위로, 즉 '분석 코드' 층위로 옮겨 놓는다. 코드 후보는 수천 개씩 쏟아지지만, 그 코드가 옳은지 독립적으로 검증하는 일은 여전히 사람과 데이터의 몫이다.

예측 (풍요)

220만

GNoME가 예측한 결정 구조. AI는 후보를 거의 무한히 만들어 낸다.

검증 (희소)

736

독립 실험으로 검증된 구조. 검증은 데이터·시간·비용에 묶여 선형으로만 늘어난다.

결국 질문은 모델에서 데이터로 이동한다. 벤치마크 1등은 출발점이 아니라 마지막 체크포인트다. 어떤 데이터로 채점했는지, 그 데이터가 어디서 왔고 무엇을 빠뜨렸는지를 먼저 묻지 않으면, 자동으로 생성된 '최적 코드'는 가장 정교하게 편향을 베끼는 코드가 될 수 있다. '좋은 데이터'의 정의가 '좋은 분석'으로 옮겨간다는 말의 실체가 이것이다.

5

그래서 데이터 품질은 누가 검증하나

분석 코드가 자동으로 생성되는 환경에서 팀이 가장 먼저 바꿔야 할 것은 검증의 순서다. 도구를 평가할 때 "이 메서드가 벤치마크 몇 등인가"를 먼저 묻기 쉽지만, 그 질문은 마지막에 와야 한다. 먼저 물어야 하는 것은 "이 점수를 만든 데이터가 무엇이고 어디서 왔는가"다. 아래 네 단계는 ERA류 자동 분석을 검토·도입하려는 데이터 팀이 따라갈 수 있는 순서다.

① 데이터 출처 투명성

검증 데이터가 어떤 코호트·플랫폼·기간에서 왔는지 계보를 확인한다. 출처를 모르면 점수의 의미도 알 수 없다.

② 편향 매핑

배치 효과, 시퀀싱 플랫폼, 환자군 구성 등 데이터에 새겨진 치우침을 미리 지도화한다. 최적 코드가 무엇을 베낄지 가늠하기 위해서다.

③ 재현성 검증

학습·검증에 쓰지 않은 독립 데이터와 홀드아웃에서 같은 코드가 같은 성능을 내는지 확인한다. 리더보드 한 곳의 점수는 증거가 아니라 가설이다.

④ 벤치마크

위 세 단계를 통과한 뒤에야 벤치마크 점수를 본다. 점수는 결론이 아니라 마지막 확인 도장이다.

한국 바이오·헬스 데이터에 주는 함의

국내는 대규모 임상 데이터를 빠르게 쌓고 있다. 국가 바이오 빅데이터 사업(NIBDCP)은 6,065억 원 규모로 77만 명 데이터를 목표로 하고, 2025년 전장유전체(WGS) 98,000건 생산 계획과 K-헬스 데이터 플랫폼(KHDP)의 3페타바이트급 인프라가 함께 움직인다. 그러나 단세포 수준의 공개 데이터와 이를 다룰 분석 인력은 글로벌 대비 아직 제한적이고, 국내 scRNA-seq 프로젝트의 상당수(추정 30~40%)는 충분히 분석되지 못한 채 남아 있다.

이 지형에서 ERA류 자동 분석을 도입할 때 첫 병목은 모델이 아니다. 배치 효과 교정과 출처 투명성이 먼저다. 바이오뱅크 데이터의 품질을 체계적으로 검증하는 작업(예: 유럽 DQ4HEALTH가 보고한 오류율 0.74% 수준의 점검)이 자동 분석의 선결 조건이 된다. 좋은 분석 코드를 기계가 찾아 주더라도, 그 코드가 딛고 설 데이터의 바닥을 다지는 일은 여전히 사람의 몫이다.

자동 분석 시대의 경쟁 우위는 '더 나은 모델'보다 '더 믿을 수 있는 검증'에서 갈린다. 데이터 출처를 추적하고, 편향을 지도화하고, 재현성을 보증하는 검증 인프라가 분석 자동화의 전제 조건으로 올라선다. 페블러스가 DataClinic과 AI-Ready Data로 다뤄 온 질문—"데이터가 분석의 신뢰를 결정한다"—이 ERA라는 외부 사례에서 한 번 더 확인된 셈이다.

같은 흐름을 다른 각도에서 다룬 글로는 발견을 가속하는 AI 전반을 짚은 AI가 다시 그리는 과학적 발견, 가설 생성 AI의 현실과 과장을 가린 AI가 과학 논문을 쓰는 시대, 단세포 모델과 데이터 큐레이션을 다룬 NVIDIA 가상 세포 챌린지가 있다. 이 글은 그중 검증 단계의 데이터 품질이라는 한 지점에 초점을 맞췄다.

R

참고문헌

1차 출처 — ERA

1.Google Research. (2026). "An AI system to help scientists write expert-level empirical software." Nature 654, 909–916 (2026-05-19). nature.com/articles/s41586-026-10658-6
2."Empirical Research Assistance (ERA)." arXiv preprint. arXiv:2509.06503 v3 (메커니즘·정량 핵심 출처). arxiv.org/abs/2509.06503
3.Google Research Blog. (2026). "Empirical Research Assistance (ERA): From Nature publication to catalyzing computational discovery." research.google
4.google-research/era. GitHub 공식 코드 저장소. github.com/google-research/era

벤치마크·평가 표준

5.OpenProblems. "Batch Integration Benchmark (v2.0.0)." openproblems.bio
6.Luecken, M. D. et al. (2025). "Defining and benchmarking open problems in single-cell analysis." Nature Biotechnology. nature.com/articles/s41587-025-02694-w
7.CDC COVID-19 Forecast Hub / CovidHub Ensemble (WIS 방법론). covid19forecasthub.org

계보·재현성

8.Merchant, A. et al. (2023). "Scaling deep learning for materials discovery (GNoME)." Nature. deepmind.google
9.Semmelrock, H. et al. (2025). "Reproducibility in Machine Learning-based research." AI Magazine. onlinelibrary.wiley.com

한국·페블러스 인접

10."Korea's Bio Big Data Project: Governance and Data Utilization (NIBDCP)." Healthcare Informatics Research 31(3), 226 (2025). e-hir.org
11.페블러스. "한국 연구데이터법 2026 — 데이터 거버넌스 보고서." blog.pebblous.ai