미국 의사 40%가 쓰는 의료 AI의 해자는 라이선스로 들여온 의학 논문이다

Pebblous Data Communication Team

Executive Summary

미국 면허 의사의 약 40%가 매달 임상 질문을 던지는 의료 AI가 있다. OpenEvidence는 2026년 1월 시리즈 D로 2억 5천만 달러를 유치하며 11개월 만에 밸류에이션을 10억 달러에서 120억 달러로 끌어올렸다. 통념은 "더 똑똑한 모델이 이긴다"지만, 이 사례가 증명하는 건 정반대다. 이 글은 그 해자가 모델이 아니라 라이선스로 들여온 출처에 있다는 점을 따라간다.

OpenEvidence가 쓰는 LLM 기술 자체는 ChatGPT·Gemini와 본질적으로 다르지 않다. 차이는 무엇을 근거로 답하는가에 있다. 회사는 NEJM(1990년 이후 전체)·JAMA·코크란 등 300개가 넘는 동료심사 의학 저널을 라이선스로 들여오고, 모든 답변에 출처 인용을 강제한다. 범용 LLM이 의료에서 실패하는 이유는 추론력 부족이 아니라 검증 가능한 출처의 부재이기 때문이다. 다만 회사가 내놓는 채택·매출 수치는 대부분 자체 발표이거나 외부 추정이어서, 숫자보다 구조를 읽는 편이 안전하다.

페블러스 독자에게 이 사례는 "모델은 빌리고 데이터는 가둔다"는 명제가 고위험·고규제 도메인에서 12조 원 규모로 증명된 실물 증거다. 복제 불가능한 것은 모델이 아니라 라이선스 계약과 큐레이션된 출처 추적 데이터다.

~40%

미국 의사 사용률

매달 약 1,800만 건 질의(2025.12, 회사 발표)

12배

밸류에이션 상승

$1B → $12B, 11개월(시리즈 D, 2026.1)

300+

라이선스 동료심사 저널

NEJM·JAMA·코크란 등, 3,500만+ 논문 인덱싱

~90%

추정 총마진

무료 제공 + 제약 광고 모델(Sacra 추정)

1

1,800만 번의 질문

의사가 진료 중에 막히면 어떻게 할까. 예전에는 동료에게 물었고, 교과서를 뒤졌고, 검색창을 열었다. 지금 미국에서는 점점 더 많은 의사가 OpenEvidence에 묻는다. 회사 발표에 따르면 2025년 12월 기준 미국 면허 의사의 약 40%가 이 도구를 사용하고, 매달 약 1,800만 건의 임상 질의가 오간다. 2026년 1월 시리즈 D 2억 5천만 달러 유치로 밸류에이션은 120억 달러에 이르렀다. 2025년 2월 시점의 10억 달러에서 11개월 만에 12배다.

11개월에 12배라는 숫자가 검증하는 것은 모델의 우수성이 아니라 채택의 깊이다. 투자자가 사는 것은 벤치마크 점수가 아니라, 매일 진료실에서 이 도구에 의존하기 시작한 수십만 명의 의사다. 그 분모가 거대하다는 점이 이 현상을 특별하게 만든다.

채택의 깊이 — 분모가 거대하다

미국에서 활동하는 의사는 약 103만 명이다(AAMC, 2025). OpenEvidence는 그중 76만 명이 등록했다고 밝히는데, 이는 직접 환자를 진료하는 의사의 약 87.7%에 해당한다. 사용 추세도 가파르다. 월 임상 질의는 2024년 7월 약 35만 건에서 2025년 12월 1,800만 건으로 1년 새 약 2,000% 늘었고, 2026년 3월 10일에는 하루 최고 100만 건을 기록했다. 회사는 "다른 모든 의료 AI 도구를 합친 것보다 더 많은 미국 의사가 사용한다"고 주장한다. 이 수치들은 대부분 회사 인용이라는 단서를 달아 읽어야 하지만, 성장의 방향과 기울기만큼은 여러 출처에서 일관된다.

아래는 월 임상 질의량의 성장 추이다. 절대 수치는 회사 발표 기준이지만, 1년 만에 두 자릿수 배율로 늘어난 곡선의 모양 자체가 채택의 폭발을 보여준다.

시점	월 임상 질의(추정)	맥락
2024.07	약 35만 건	시리즈 A 직후
2025.12	약 1,800만 건	의사 ~40% 사용(회사 발표)
2026.03.10	하루 최고 100만 건	일일 피크 기록
2026.04	(사용률 65% 주장)	회사 업데이트 주장, 독립 검증 없음

월 임상 질의 추이. 절대 수치는 회사 발표(BusinessWire·CEO 인터뷰) 기준이며 독립 3rd party 검증은 없다. 출처: BusinessWire(2026.1), AI2Work(2026.4).

투자자가 11개월 만에 가치를 12배로 매긴 이유는 모델이 더 똑똑해서가 아니다. 의사가 진료의 의사결정 순간에 이 도구를 습관처럼 연다는 사실, 그리고 그 습관이 복제하기 어렵다는 사실 때문이다. 다음 질문은 자연스럽다 — 무엇이 그 습관을 만들었는가.

2

모델이 아니라 출처다

OpenEvidence를 떠받치는 LLM 기술은 경쟁사의 것과 본질적으로 다르지 않다. 실제로 회사는 OpenAI·Anthropic 같은 프런티어 모델 위에서 동작한다고 알려져 있다. 그렇다면 ChatGPT에 같은 임상 질문을 던지는 것과 무엇이 다른가. 답은 모델이 아니라 그 모델이 무엇을 근거로 답하느냐에 있다.

OpenEvidence는 300개가 넘는 동료심사 의학 저널을 라이선스로 들여왔다. NEJM은 1990년 이후 전체 아카이브, JAMA는 11개 전문 저널 묶음, 여기에 코크란 리뷰와 NCCN 가이드라인이 더해진다. 회사는 3,500만 건이 넘는 논문을 인덱싱했고, 모든 답변이 이 라이선스 문헌만을 근거로 생성되도록 검색 증강(RAG) 파이프라인을 설계했다. 핵심은 마지막 한 단계다 — 모든 답변에 출처 인용을 강제한다. 의사는 답을 받는 동시에, 그 답이 어느 논문 어느 문장에서 왔는지 즉시 확인할 수 있다.

답변마다 붙는 출처가 곧 제품이다

범용 LLM은 학습 데이터의 출처가 불투명하다. 어떤 텍스트가 답을 만들었는지 거슬러 올라갈 수 없고, 인용을 보장하지도 못한다. 의료에서 이 차이는 결정적이다. 의사는 "이 약물 상호작용은 이렇습니다"라는 문장만으로는 움직이지 않는다. 그 문장을 뒷받침하는 동료심사 근거를, 책임이 따르는 임상 결정에 쓸 수 있을 만큼 확인해야 한다. OpenEvidence가 판 것은 답이 아니라 검증 가능한 답이다.

같은 LLM을 쓰더라도 무엇을 근거로 답하느냐가 전부라는 점이 여기서 드러난다. 모델은 누구나 빌릴 수 있다. 그러나 NEJM·JAMA·코크란을 라이선스로 들여와 임상에 쓸 수 있는 형태로 큐레이션한 데이터는 빌릴 수 없다. 해자는 추론이 아니라 출처에 있다.

제품의 정체는 단순하다. "동료심사 문헌으로만 답하고, 모든 답변에 출처를 붙인다." 이 한 줄이 범용 챗봇과 임상 도구를 가른다. 그리고 그 한 줄을 실현하는 것은 더 큰 모델이 아니라 라이선스 계약과 큐레이션이다.

▲ 페블러스 원본 도식 — OpenEvidence RAG 파이프라인: 라이선스 문헌만을 근거로 출처가 붙은 답변을 생성한다

3

범용 LLM은 왜 이길 수 없는가

범용 LLM이 의료에서 무너지는 지점은 추론력이 아니라 신뢰다. 그리고 신뢰의 공백은 곧 측정 가능한 오류율로 나타난다. 비근거 의료 LLM의 할루시네이션은 맥락에 따라 15~40%에 이르고(IEEE JBHI, 2025), 복잡한 케이스에서는 43~67%까지 치솟는다(MedRxiv). 오픈소스 모델은 80%를 넘기도 한다. 참고문헌을 지어내는 비율은 더 극적이어서, GPT-3.5는 39.6%, 초기 Bard는 91.4%의 인용을 날조했다는 측정도 있다.

아래는 근거 유무에 따른 할루시네이션 범위를 시각화한 것이다. 같은 모델이라도 동료심사 문헌에 그라운딩되면 오류율이 큰 폭으로 떨어진다.

비근거 LLM (일반 케이스) 15~40%

비근거 LLM (복잡 케이스) 43~67%

오픈소스 모델 80%+

RAG + 동료심사 그라운딩 후 감소폭 40%+ 감소

근거 유무에 따른 의료 LLM 할루시네이션 범위. 동료심사 문헌에 RAG로 그라운딩하면 40% 이상 감소하고(MEGA-RAG), 비뇨기과 평가에서는 정확도가 최대 89% 향상됐다(Context-Aware RAG). 출처: IEEE JBHI(2025), MedRxiv, Frontiers in Public Health, NIH/PubMed.

할루시네이션은 곧 소송 리스크다

의료에서 오류율은 단순한 품질 지표가 아니다. 그것은 책임의 문제다. 2024년 AI 관련 의료 과실 청구는 전년 대비 14% 늘었다. 잘못된 임상 정보가 환자에게 닿으면 소송이 따라온다. 이 환경에서 출처 인용은 부가 기능이 아니라 책임 구조의 일부다. 의사는 "AI가 그렇게 말했다"가 아니라 "이 결정은 이 동료심사 논문에 근거했다"고 말할 수 있어야 한다. OpenEvidence는 답변 근거를 동료심사 문헌으로 한정하고 인용을 붙임으로써 바로 그 공백을 메웠다.

여기서 세 겹의 해자가 만들어진다. 첫째는 법적 라이선스 장벽이다. 후발 주자가 동일 문헌에 합법적으로 접근하려면 같은 계약을 다시 맺어야 한다. 둘째는 임상 신뢰다. 출처가 붙은 답이 의사의 일상 워크플로에 들어가면 전환 비용이 생긴다. 셋째는 책임 회피다. 검증 가능한 근거가 곧 방어선이 되기 때문이다. 범용 LLM은 셋 중 어느 것도 구조적으로 제공하지 못한다.

▲ 페블러스 원본 도식 — OpenEvidence의 세 겹 구조적 해자: 범용 LLM이 넘을 수 없는 세 층위

4

데이터를 가두는 경제학

의사에게 OpenEvidence는 무료다. 그런데도 회사는 돈을 번다. 수익은 제약·의료기기 광고에서 나온다. 의사가 질문을 던지고 답을 기다리는 로딩 스크린에, 그 임상 맥락에 맞춘 광고가 붙는다. 항암제를 묻는 종양내과 의사에게 관련 신약 광고가 노출되는 식이다. 이 맥락 정합성 때문에 CPM(1,000회 노출당 광고비)이 70달러에서 1,000달러를 넘기도 한다. 일반 소셜미디어의 5~15달러와 비교하면 5배에서 70배다.

수익의 규모는 출처에 따라 갈린다. Sacra는 2024년 약 790만 달러였던 매출이 2025년 약 1억 5천만 달러로 늘었다고 추정한다(약 +1,803%). CEO는 "1억 달러 이상"이라고만 말한다. 추정 총마진은 약 90%, 사용자당 매출(ARPU)은 약 124달러로 추산된다. 이 모델의 분모인 미국 제약 디지털 광고 시장은 연 200억~250억 달러 규모다. 2026년 3월 마운트 사이나이가 Epic 전자의무기록(EHR)에 OpenEvidence를 내장하기 시작하면서, ARPU가 5~10배로 뛸 잠재력도 거론된다.

▲ 페블러스 원본 도식 — OpenEvidence 비즈니스 모델 플라이휠: 무료 제공이 채택을 낳고, 채택이 고CPM 광고를 낳는다

NEJM·JAMA는 왜 OpenEvidence를 택했나

해자를 더 깊게 만드는 것은 데이터 보유자의 인센티브다. NEJM·JAMA·코크란은 직접 모델 경쟁에 뛰어들 이유가 없다. 대신 아카이브를 라이선스하면 AI 가치사슬의 핵심을 점유하면서, AI 시대에도 콘텐츠 지대(rent)를 확보할 수 있다. 여기서 양방향 락인이 생긴다. OpenEvidence는 복제 불가능한 신뢰 데이터를 얻고, 출판사는 안정적 수익원을 얻는다. 시간이 갈수록 양쪽 모두 이 관계를 깰 유인이 줄어든다.

다만 한 가지는 분명히 해 둘 필요가 있다. 이 계약들이 "독점(exclusive)"이라는 공식 확인은 없다. NEJM·JAMA·코크란은 이를 "공식 AI 파트너십"이라고 표현한다. 그러나 다년 계약과 출판사 인센티브 구조상, 후발 주자가 동일 데이터를 같은 조건으로 확보하기는 어렵다. 독점이라 단정할 수는 없어도, 독점적 접근에 준하는 진입 장벽이라고 읽는 편이 정확하다.

무료 + 제약 광고 + 90% 총마진 + 데이터 보유자 인센티브. 네 요소가 맞물려 시간이 갈수록 해자가 깊어지는 구조를 만든다. 모델은 매년 더 싸지고 더 흔해지지만, 라이선스로 들여온 출처는 그렇지 않다. 데이터를 가두는 쪽이 결국 가치를 가둔다.

5

헬스케어를 넘어서

경쟁 지형부터 보자. 시장은 모델 성능이 아니라 데이터 접근권으로 갈린다. 아래 표는 세 갈래의 위치를 비교한 것이다.

항목	OpenEvidence	UpToDate	DoxGPT (Doximity)
가격	무료(광고 수익)	연 $579 유료	무료(플랫폼 내장)
데이터 출처	라이선스 동료심사 문헌 300+	전문의 7,600+ 집필	자체·외부 혼합
기반 사용자	미국 의사 ~40%(회사 발표)	글로벌 200만+	미국 의사 85% 플랫폼
검색 트렌드	+13.7%	-1.6%	신규·변동

의료 임상 의사결정 지원 도구 비교. 출처: Wolters Kluwer(UpToDate), Doximity 공시, PMC 트래픽 분석(2025~2026). DoxGPT의 자체 헤드투헤드(DoxGPT 61% vs OpenEvidence 26%)는 Doximity 측 인용 출처이므로 중립 평가로 보기 어렵다.

UpToDate는 전문의 집필 모델로 신뢰가 높지만 유료이고 검색 트렌드는 하락세다. Doximity의 DoxGPT는 미국 의사 85%가 쓰는 플랫폼을 등에 업었고 자체 평가에서 우세를 주장하지만, 그 평가의 출처가 Doximity 측이라는 점을 빼고 인용할 수는 없다(실제로 2025년 두 회사는 역설계·허위정보를 두고 상호 소송을 벌였다). 결국 축은 하나로 모인다 — 검증 가능한 데이터에 누가 합법적으로 접근하는가.

시험 점수가 해자를 말해주지 않는다는 점도 분명히 해 둘 만하다. OpenEvidence는 2025년 8월 USMLE(미국 의사면허시험)에서 100%를 기록했다고 발표했다. 그러나 더 복잡한 임상 시나리오를 다루는 MedXpertQA에서는 정확도가 34%에 그쳤다. 객관식 표준 시험과 실제 임상 사이의 간극은 그만큼 크다. 시험 점수는 마케팅 신호일 뿐, 해자 자체는 아니다 — 해자는 라이선스로 들여온 출처다.

'큐레이션된 출처 추적 데이터 = 제품'의 일반화

이 패턴은 헬스케어 안에 갇히지 않는다. "모델은 빌리고 데이터는 가둔다"는 구조는 검증 가능한 독점 출처가 가치의 핵심인 모든 도메인으로 번진다. 법률에서는 판례와 법령, 금융에서는 규제 공시와 리서치, 과학에서는 논문과 특허가 같은 자리에 있다. 적용을 가르는 공통 조건은 셋이다.

•라이선스 가능한 독점 데이터 — 도메인 데이터가 한 주체가 보유·라이선스할 수 있는 자산으로 존재해야 한다.
•높은 오답 비용 — 틀린 답의 대가가 커서 출처 검증이 선택이 아니라 필수여야 한다.
•범용 LLM의 합법적 접근 불가 — 그 데이터에 범용 모델이 자유롭게 닿을 수 없어야 한다.

▲ 페블러스 원본 도식 — '모델은 빌리고 데이터는 가둔다' 구조가 적용되는 도메인 지도

모델이 상품화될수록 검증 가능한 독점 데이터의 값은 오른다. 프런티어 모델은 매년 더 강력해지고 더 저렴해지지만, 누구나 같은 모델을 쓸 수 있다는 사실이야말로 차별화를 데이터 쪽으로 밀어낸다. OpenEvidence는 그 명제를 헬스케어에서 12조 원 규모로 먼저 증명했을 뿐이다.

페블러스의 시각

OpenEvidence가 증명한 것은 페블러스가 줄곧 이야기해 온 명제와 같다. 범용 LLM이 의료에서 실패하는 이유는 추론력 부족이 아니라 학습 데이터의 출처가 불투명하고 검증 불가능하기 때문이다. 비근거 모델의 할루시네이션이 15~67%인 반면, 동료심사 문헌에 RAG로 그라운딩하면 40% 이상 줄고 정확도가 최대 89% 오른다는 측정이 그 증거다. 데이터 품질이 곧 출력의 신뢰성이라는 명제가, "garbage in, garbage out"의 반대 방향에서 임상으로 증명된 셈이다.

도메인 데이터를 보유한 기업과 기관에게 이 사례는 실무적 질문 하나로 환원된다. "우리가 가진 데이터를 어떻게 AI 시대의 방어 가능한 자산으로 바꾸는가." NEJM이 아카이브를 라이선스로 들여온 것처럼, 독점적 데이터 보유자는 모델 경쟁에 뛰어들지 않고도 라이선스와 큐레이션으로 AI 가치사슬의 핵심을 점유할 수 있다. 단, 라이선스 데이터가 곧바로 제품이 되는 것은 아니다. 임상에 쓸 수 있는 품질로 정제·구조화하고 출처를 연결하는 단계가 해자의 실체다.

Editor's Note

페블러스가 풀어온 문제 — 데이터 품질 진단·정제(DataClinic)와 출처가 추적되는 AI-Ready Data — 는 이 보고서가 그리는 시장의 기본 요구와 같은 자리에 있다. 더 큰 모델을 만드는 경쟁은 빅테크의 영역이지만, 데이터의 큐레이션·출처 추적·품질 보증은 별도의 방어 가능한 시장이다. OpenEvidence 같은 도메인 AI가 신뢰할 수 있는 데이터를 확보·검증하도록 돕는 인프라 레이어로 페블러스를 읽는 것은, 본문의 결론을 자사로 점프시키는 주장이 아니라 같은 구조를 다른 각도에서 본 함의다.

R

참고문헌

학술

1.IEEE Journal of Biomedical and Health Informatics. (2025). "Hallucination in Medical Large Language Models: A Review."
2.MedRxiv. (2025, November). "Accuracy and Repeatability of OpenEvidence on Complex Subspecialty Scenarios."
3.npj Digital Medicine. (2025). "A Framework to Assess Clinical Safety and Hallucination Rates of LLMs for Medical Tasks."
4.Nature Communications. (2026). "Hyper-RAG: Reducing Hallucination in Domain-Specific Medical QA."
5.Frontiers in Public Health. (2025). "MEGA-RAG: Multi-Evidence Grounded Augmentation for Medical LLMs."
6.NIH / PubMed. (2025). "Context-Aware Retrieval-Augmented Generation in Urology."
7.PMC. (2025–2026). "Public Interest in an AI-Enabled Clinical Decision Support System."

정책·통계·업계

8.BusinessWire. (2026, January 21). "OpenEvidence Raises $250 Million to Build Medical Superintelligence for Doctors."
9.Sacra. "OpenEvidence revenue, valuation & growth analysis." Sacra.
10.Wikipedia. "OpenEvidence."
11.OpenEvidence & NEJM Group. (2025, February). "Strategic Content Partnership Announcement."
12.OpenEvidence & JAMA Network. (2025, June). "Strategic Content Agreement."
13.AAMC. (2025). "Key Findings: Physician Workforce (1,032,365 active physicians)."
14.Wolters Kluwer. (2025). "UpToDate Subscription ($579/yr) & 2025 Full-Year Report."
15.Greater Bay Healthcare. (2026). "AI Reshaping Clinical Decision-Making: OpenEvidence's 2026 Strategic Outlook."
16.AI2Work. (2026, April). "OpenEvidence quietly becomes the AI tool 65% of US doctors use."
17.McGuireWoods / Brandon J. Broderick. (2025). "AI-Related Medical Malpractice Claims Rise 14%."
18.MarketsandMarkets. (2026). "Clinical Decision Support Systems Market 2026–2031 ($5.8B → $10.15B, CAGR 11.8%)."

페블러스 인접

19.페블러스 블로그. "이제 AI는 데이터를 사지 않는다, 빌린다" — 데이터=해자 테제.
20.페블러스. AI-Ready Data / DataClinic 비전 문서.

※ 채택률·질의량·매출 등 회사 관련 수치는 대부분 회사 발표(BusinessWire·CEO 인터뷰) 또는 외부 추정(Sacra)이며 독립 3rd party 검증이 없다. 라이선스 계약의 "독점성"은 공식 확인되지 않아 "공식 AI 파트너십"으로 표기했다.