성공만 학습한 신약 AI의 과대평가

Executive Summary

신약 개발 AI가 후보 물질의 활성을 실제보다 높게 평가하는 경향이 있습니다. 원인은 흔히 지목되는 데이터의 노이즈나 오류가 아니라, 아예 데이터에 담기지 않은 것에 있습니다. 잘 안 된 실험, 결합하지 않은 화합물, 실패한 시도는 대체로 논문이 되지 않습니다. AI는 그렇게 걸러진 성공 사례만 보고 자랐고, 세상에는 되는 후보가 실제보다 훨씬 많아 보이는 지도를 물려받았습니다. 그 빈칸이 예측을 어떻게 왜곡하는지, 데이터의 눈으로 따라가 보겠습니다.

규모를 보여 주는 숫자가 하나 있습니다. 한 분석에 따르면 신약 연구에서 부정적 실험 결과의 약 60%가 공개 기록에서 사라집니다. 이렇게 한쪽으로 기운 문헌을 AI 파이프라인이 학습하면 편향은 사라지기는커녕 오히려 증폭됩니다. 검색과 생성과 평가를 자동으로 잇는 3단계 시스템에서 그 왜곡이 약 2.18배로 커진다는 추정도 나와 있습니다.

중요한 것은 이 결함이 데이터 청소로 고쳐지지 않는다는 점입니다. 없는 데이터는 아무리 씻고 다듬어도 생기지 않기 때문입니다. 그래서 AI-Ready 데이터를 묻는 질문도 바뀌어야 합니다. "이 데이터는 깨끗한가"가 아니라 "이 데이터는 실패까지 담았는가"입니다.

주요 수치

이 문제의 크기를 네 숫자로 압축하면 다음과 같습니다. 사라지는 부정 결과의 비율, AI 파이프라인이 편향을 키우는 배수, 스크리닝 데이터에서 성공과 실패가 뒤바뀐 불균형, 그리고 실패 데이터를 넣었을 때 예측 정확도가 어떻게 변하는지입니다.

출처: arXiv 2606.04220 (2026), ChemDiv Datasets

약 60%

사라진 부정 결과

공개 기록에서 누락된 실패 실험의 비율

2.18배

편향 증폭

3단계 AI 파이프라인이 문헌 편향을 키우는 배수

50:1~1000:1

활성:비활성 불균형

스크리닝 데이터에서 성공 사례가 과대 대표되는 정도

0.35 → 0.80

정확도 변화

실패 데이터를 넣은 뒤 독성 예측 정확도 (hERG 사례)

1

발표되지 않은 실험의 무게

실험실에서 시도되는 일 대부분은 실패로 끝납니다. 후보 물질이 표적 단백질에 결합하지 않고, 예상한 반응이 나오지 않고, 독성이 발목을 잡습니다. 이런 결과는 과학의 정상적인 일부입니다. 그런데 그 실패가 논문이 되는 경우는 드뭅니다. 저널은 새롭고 긍정적인 발견을 선호하고, 연구자의 시간과 예산은 안 되는 것을 기록하기보다 되는 것을 좇는 데 쓰입니다.

이 선택은 개별 연구실 입장에서 합리적입니다. 문제는 그런 선택이 수만 건 쌓여 하나의 문헌 더미가 될 때 드러납니다. 세상에 남는 것은 성공의 기록뿐이고, 실패는 조용히 서랍 속에 남습니다. 이 현상을 게재 편향이라고 부릅니다. 한 분석은 신약 연구에서 부정적 결과의 약 60%가 공개 기록에 오르지 못한다고 추정합니다. 절반이 넘는 실패가 처음부터 보이지 않는 것입니다.

▲ 게재 편향의 구조 — 페블러스 원본 도식 | 출처: arXiv 2606.04220

사람이 논문을 읽을 때는 이 편향을 어느 정도 감안합니다. 발표된 것이 전부가 아니라는 사실을 경험으로 압니다. 그러나 AI는 준 것을 세상 전체로 받아들입니다. 성공 사례로 기울어진 corpus를 통째로 학습하면, 모델은 그 기울기를 세계의 실제 모습으로 오해합니다. 되는 후보가 실제보다 흔하게 보이는 지도를 그대로 물려받는 셈입니다.

게재 편향은 데이터가 틀렸다는 문제가 아닙니다. 남아 있는 성공 기록 하나하나는 대체로 정확합니다. 문제는 그 옆에 있어야 할 실패의 기록이 통째로 빠져 있다는 것입니다. 정답만 모아 둔 문제집으로 공부한 학생이 시험의 난이도를 낮잡아 보는 것과 같습니다.

2

성공만 본 AI의 착각

빠진 실패가 예측을 얼마나 흔드는지는 데이터의 균형을 보면 알 수 있습니다. 고처리 스크리닝 데이터에서 활성 화합물과 비활성 화합물의 비율은 대략 50:1에서 1000:1까지 벌어집니다. 실제로는 시도한 것 대부분이 비활성인데, 기록에는 활성만 두텁게 남습니다. 이 불균형이 심하면 모든 후보를 무조건 비활성이라고 찍어도 정확도가 높게 나옵니다. 정확도라는 숫자 자체가 신호를 잃는 것입니다.

▲ 훈련 데이터 내 활성/비활성 불균형 — 페블러스 원본 도식 | 출처: ChemDiv Datasets

반대 방향으로도 왜곡이 생깁니다. AI가 화학 공간 곳곳에서 활성 화합물의 밀도를 실제보다 높게 그리는 동시에, 알려진 약물과 닮지 않은 낯선 분자 영역에서는 활성을 과소평가합니다. 생성형 신약 개발이 가장 필요로 하는 곳, 즉 아무도 가 보지 않은 화학 공간에서 모델이 가장 크게 빗나가는 아이러니가 여기서 생깁니다. 독성 예측에서도 양성 사례가 워낙 드물어 모델이 안전하다는 쪽으로 기울고, 드물지만 치명적인 독성을 놓치는 위양성이 늘어납니다.

실패 데이터를 넣으면 무엇이 달라지는지 보여 주는 구체적 사례가 있습니다. 화합물 공급사 ChemDiv는 공개 데이터베이스가 압도적으로 활성 화합물만 담고 비성공 실험은 발표되지 않는다는 점을 지적하면서, 30년간 쌓인 내부 실험 데이터에 성공과 실패를 모두 포함했습니다. hERG 억제 독성을 예측한 사례에서 정확도는 0.35에서 0.80으로 올랐고, 예측의 일치도를 재는 Cohen의 카파 값은 0.044에서 0.565로 뛰었습니다. 바뀐 것은 모델의 크기가 아니라 데이터에 실패가 들어갔다는 사실 하나였습니다.

▲ 실패 데이터 포함 전후 hERG 독성 예측 정확도 비교 — 페블러스 원본 도식 | 출처: ChemDiv Datasets

같은 편향을 자동화 파이프라인이 물려받으면 문제가 커집니다. 검색으로 문헌을 모으고, 그 위에서 가설을 생성하고, 다시 자동으로 평가하는 3단계 AI 시스템은 각 단계에서 편향을 조금씩 얹습니다. 한 분석은 그 누적이 원래 편향을 약 2.18배로 키운다고 추정합니다. 편향된 문헌 위에서 훈련된 AI 과학자는 과학을 가속하는 만큼 과학의 맹점도 함께 가속합니다.

3

청소로는 못 고치는 결함

여기서 흔한 오해가 하나 있습니다. 데이터에 문제가 있다는 말을 들으면, 많은 팀이 데이터를 더 깨끗이 씻으면 된다고 생각합니다. 중복을 지우고, 형식을 표준화하고, 이상치를 걸러 내는 작업입니다. 그러나 이번 결함은 그런 청소의 사정권 밖에 있습니다. 청소는 이미 존재하는 데이터를 다듬는 일이고, 실패한 실험은 애초에 데이터셋 안에 존재하지 않기 때문입니다. 없는 것은 아무리 씻어도 생기지 않습니다.

그래서 문제의 성격을 정확히 부를 필요가 있습니다. 이것은 더러움의 문제가 아니라 대표성의 문제입니다. 데이터가 오염됐다면 정제하면 되지만, 데이터가 세상의 한쪽만 담고 있다면 정제로는 그 반대편을 불러올 수 없습니다. 실패의 부재 자체가 하나의 구조적 결함이고, 이 결함은 데이터를 다루는 단계가 아니라 데이터를 모으는 단계에서 만들어집니다.

▲ 수집 설계의 차이 — 페블러스 원본 도식 | 참고: Oxford OpenBind (2026)

결함이 수집 설계에서 생긴다면, 해법도 수집 설계에서 찾아야 합니다. 2026년 5월 옥스퍼드 대학교가 주도하는 컨소시엄이 공개한 OpenBind가 그 방향을 보여 줍니다. 영국 정부의 800만 파운드 지원을 받은 이 프로젝트는 5년간 단백질과 약물이 결합한 복합체 구조 50만 개 이상을 공개하는 것을 목표로 합니다. 지금 공개된 데이터의 약 20배 규모입니다. 첫 릴리스에서는 하나의 바이러스 표적 단백질에 대해 699종의 X선 구조와 601건의 결합 강도 측정값을 함께 내놓았습니다.

핵심은 규모가 아니라 방식입니다. OpenBind는 결합에 성공한 화합물만이 아니라 결합의 강도까지 표준화된 실험 설계 아래 측정합니다. 무엇이 얼마나 결합하는지를 처음부터 체계적으로 담으면, 잘 결합하지 않는 경우까지 데이터에 남습니다. 이끄는 연구자들은 AI 신약 개발의 가장 큰 병목이 분자가 단백질에 결합하는 방식을 보여 주는 신뢰할 만한 대규모 실험 데이터의 부족이라고 말합니다. 모델을 더 키우는 대신, 모델이 배울 바닥 자체를 다시 까는 접근입니다.

AlphaFold2가 수십 년간 쌓인 단백질 구조 데이터 위에서 도약했듯, 모델의 천장은 결국 데이터의 설계가 정합니다. 수집 단계에서 실패를 함께 담기로 결정하는 것과, 다 만들어진 데이터를 나중에 청소하는 것은 전혀 다른 층위의 일입니다. 앞의 결정이 모델이 닿을 수 있는 영역의 경계를 그립니다.

4

AI-Ready를 다시 묻다

이 이야기는 신약 개발에만 해당하지 않습니다. 성공만 기록되고 실패는 조용히 사라지는 구조는 어느 분야에나 있습니다. 채용에서 합격자만 데이터로 남고, 신용 심사에서 승인된 건만 관찰되고, 장비 정비에서 고장 나기 전의 정상 기록만 쌓입니다. 그렇게 모인 데이터로 학습한 모델은 저마다의 방식으로 낙관에 기웁니다. 실패의 부재는 특정 도메인의 사고가 아니라 데이터가 세상을 담는 방식의 일반적인 함정입니다.

페블러스가 데이터 품질을 이야기할 때 대표성을 앞세우는 이유가 여기에 있습니다. 편향된 표본은 편향된 모델을 만들고, 그 편향은 정확도라는 숫자 뒤에 잘 숨습니다. 그래서 AI-Ready 데이터를 점검할 때 던져야 할 질문이 바뀝니다. 값이 비어 있지 않은가, 형식이 맞는가를 넘어, 이 데이터가 담아야 할 세상의 반대편까지 담고 있는가를 물어야 합니다.

구체적으로는 훈련 데이터에 실패 사례가 명시적으로 들어 있는지, 성공과 실패의 비율이 현실의 비율을 반영하는지, 부정 결과가 수집 설계 단계에서 배제되지는 않았는지를 확인하는 일입니다. 이 점검은 데이터를 다 모은 뒤에 하는 청소가 아니라, 무엇을 모을지 정하는 시점에 시작되어야 합니다. 신약 개발에서 예측 데이터와 측정 데이터가 같지 않았듯, 여기서도 깨끗한 데이터와 대표성 있는 데이터는 같지 않습니다.

Editor's Note. AI-Ready 데이터의 조건을 다룰 때 페블러스는 여러 품질 차원 가운데 대표성을 특히 강조해 왔습니다. 이번 신약 개발 사례는 그 추상적 원칙이 과학 현장에서 어떻게 구체적 손실로 나타나는지 보여 주는 한 장면입니다. 실패까지 담긴 데이터인가라는 질문은 규제나 윤리의 문제이기 이전에, 모델이 얼마나 정직하게 예측하느냐의 문제입니다.

성공만 학습한 AI는 세상을 실제보다 잘 되는 곳으로 그립니다. 그 낙관은 데이터를 더 깨끗이 씻어서 지워지지 않고, 빠져 있던 실패를 데이터에 다시 들여야 지워집니다. 다음에 모델이 어떤 후보를 자신 있게 유망하다고 가리킬 때, 그 자신감이 실제 신호인지 아니면 실패를 본 적 없어서 생긴 착시인지 되물어 볼 만합니다. 끝까지 읽어 주셔서 고맙습니다.

(주)페블러스 데이터 커뮤니케이션팀
2026년 7월 5일

R

참고문헌