Claude Science는 재현성을 1급 기능으로 만든 과학 AI 워크벤치다

Pebblous Data Communication Team

Executive Summary

2026년 6월 30일 Anthropic이 공개한 Claude Science는 "더 똑똑한 챗봇"이 아니다. 기존 Claude 모델 위에 문헌·데이터베이스·코드 실행·HPC·재현성 기록을 얹어, 흩어진 연구 도구를 하나의 흐름으로 묶은 연구 워크벤치다. 이 글은 그 제품 범주가 왜 "모델 경쟁"이 아니라 "검증 가능한 과학"을 향한 이동인지를 본다.

근거는 현장의 신뢰성 위기에 있다. 연구자 70% 이상이 남의 실험을 재현하는 데 실패한 경험이 있고, 여기에 LLM이 만들어낸 가짜 인용까지 문헌을 오염시키는 중이다. Claude Science의 핵심은 이 위기를 성능이 아니라 provenance(결과의 출처·생성 과정 추적)와 리뷰어 에이전트로 겨눈다는 점이다. 다만 이것은 재현성을 '보장'하지 않는다 — '추적 가능하게' 만들 뿐이며, 최종 검증은 여전히 연구자 몫이다.

페블러스의 렌즈에서 보면 provenance는 곧 데이터 계보(lineage) 관리이고, 리뷰어 에이전트가 잡는 "그럴듯한데 틀린 결과"는 전형적인 데이터 품질 결함이다. 과학 AI의 승부처가 답의 속도에서 답의 근거·재현성으로 이동하고 있음을, 이 제품이 제품의 형태로 증명한다.

70%+

재현 실패 경험

남의 실험을 재현하지 못한 연구자 비율 (Nature 2016)

$28B

연간 낭비 비용

미국 전임상 연구 중 재현 불가에 묶인 추정 비용 (Freedman 2015)

14~95%

LLM 인용 조작률

모델·도메인에 따른 인용 환각 범위, RAG로도 3~13% 잔존

12배

가짜 인용 급증

생의학 논문 가짜 인용 비율 2023→2026 증가 (Lancet 2026)

1

챗봇이 못 하는 것: 흩어진 연구 현장

일반 챗봇은 논문을 요약하고 코드를 제안한다. 하지만 실제 연구는 그보다 훨씬 파편화되어 있다. 연구자는 PubMed에서 문헌을 찾고, Jupyter와 R로 분석하고, 클러스터 터미널에 접속하고, 수십 개의 생명과학 데이터베이스와 서로 다른 파일 포맷, 시각화 도구를 하루에도 몇 번씩 오간다. 도구 사이를 건너뛸 때마다 맥락이 끊기고, 그 끊김이 쌓여 생산성과 재현성을 함께 갉아먹는다.

파편화의 규모는 정량으로도 드러난다. 한 연구에 따르면 연구 조직당 관리하는 데이터 소스는 100개를 넘고, 그중 30%는 1,000개 이상을 다룬다. 데이터를 분석에 쓸 수 있게 준비하는 데만 연구 시간의 상당 부분(추정 45~80%, 출처별 편차 큼)이 소모된다는 통설도 오래 인용되어 왔다. 문제는 모델의 지능이 아니라, 도구가 흩어져 있고 그 사이를 잇는 신뢰의 실이 없다는 데 있다.

Anthropic이 Claude Science로 규정한 문제는 명확하다. 연구의 진짜 병목은 "더 똑똑한 답"이 아니라 흩어진 도구를 하나로 묶고, 그 흐름에서 나온 결과를 믿을 수 있게 만드는 것이다. 이 글이 계속 붙들 축이 바로 이 지점이다.

▲ 연구자가 오가던 파편화된 도구들(左)을 하나의 흐름으로 묶는 Claude Science 워크벤치(右). 페블러스 원본 도식 (개념 재해석)

2

Claude Science란 무엇인가: 새 모델이 아니라 워크벤치

가장 먼저 바로잡아야 할 오해가 있다. Claude Science는 새 AI 모델이 아니다. 생물학 전용으로 더 강하게 훈련한 모델도 아니다. Anthropic은 이것이 오늘 누구나 쓰는 기존 Claude 모델(Claude Opus 4.8 포함)을 게이팅이나 특별 접근 없이 그대로 쓰는 베타 앱이라고 못박는다. 새로 얹은 것은 모델의 머리가 아니라 그 머리가 손에 쥐는 도구들 — 연구 스킬, 60개 이상의 데이터베이스 연결, 코드 실행 환경, HPC 통합, 그리고 재현성 기록이다.

구조는 세 개의 층으로 나눠 보면 이해가 빠르다. 아래 도해처럼, 맨 아래에 변경되지 않은 기존 Claude 모델이 있고, 그 위에 연구 도구층(60+ 스킬·커넥터·DB)이, 다시 그 위에 실행 환경층(로컬·SSH·HPC·Modal과 데이터 지역성)이 얹힌다.

Claude Science 3층 구조 — 새 모델이 아니라 기존 모델 위에 도구·실행 환경을 얹은 워크벤치. (출처: Anthropic 공식, 2026-06-30)

오케스트레이션 방식도 특징적이다. 메인 AI가 프로젝트 매니저(PI)처럼 작업을 나눠 하위 어시스턴트에게 위임하고, 여기에 별도의 리뷰어(fact-checker) 에이전트가 붙어 결과의 인용·계산·그림을 다시 검증한다. 자연어로 질문을 던지면 Claude가 문헌을 찾고, 데이터베이스를 조회하고, 분석 코드를 실행하고, 그림을 만들고, 논문 초안까지 같은 흐름 안에서 이어간다. 제품의 규정은 "발견 자동화"가 아니라 "흩어진 도구의 통합"이다.

3

핵심 가치 ①: 재현성을 도구로 만든다

Claude Science의 가장 큰 차별점은 provenance(프로버낸스)다. Claude Science가 만든 그림·표·노트북에는 그 결과를 만든 정확한 코드, 실행 환경, 평문 설명, 그리고 전체 대화 이력이 함께 남는다. 그래서 몇 달 뒤에도 "이 그림이 어떤 데이터와 어떤 코드로 만들어졌는가"를 되짚을 수 있다. 이것이 왜 중요한지는 과학계의 오래된 상처를 보면 알 수 있다.

3.1재현성 위기라는 배경

2016년 Nature가 1,500여 명의 과학자를 조사했을 때, 70% 이상이 남의 실험을 재현하는 데 실패한 경험이 있다고 답했다. 실패율은 분야마다 다르지만 어디서도 낮지 않다. 아래는 그 분야별 재현 실패율이다.

분야별 "남의 실험 재현 실패" 경험 비율 (출처: Baker, Nature 533, 2016, n≈1,576)

비용도 만만치 않다. 미국 전임상 연구 중 재현 불가에 묶인 비용만 연 약 280억 달러로 추정되고(Freedman 2015), 제약사 Amgen이 랜드마크 암 연구 53편을 다시 돌렸을 때 핵심 결과가 재현된 것은 11%(6편)에 불과했다(2012). 2021년 암 생물학 재현 프로젝트는 대상 실험의 59%가 재현에 실패했고, 재현에 성공한 효과조차 그 크기가 원본보다 중앙값 85% 작았다고 보고했다. 결과가 존재해도 그것을 만든 과정이 남지 않으면 과학은 스스로를 검증하지 못한다.

3.2AI가 문제이자 해법인 아이러니

여기에 새로운 오염원이 더해졌다. LLM이 만들어내는 가짜 인용이다. 존재하지 않는 문헌을 그럴듯하게 지어내는 이 현상의 비율은 모델과 도메인에 따라 14~95%까지 벌어지고, 잘 알려진 초기 연구에서도 GPT-3.5는 인용의 55%, GPT-4는 18%를 조작했다(Walters & Wilder 2023). 검색 증강(RAG)을 붙여도 3~13%는 남는다. 2026년 Lancet의 대규모 감사는 생의학 논문의 가짜 인용 비율이 2023년 대비 12배 이상 늘어, 2026년 초에는 논문 277편 중 1편이 존재하지 않는 문헌을 인용했다고 밝혔다.

Claude Science의 리뷰어 에이전트는 바로 이 오염을 겨눈다. 잘못된 인용, 출처가 추적되지 않는 숫자, 코드와 어긋난 그림을 출판 전에 찾아 플래그하도록 설계됐다. AI가 문헌을 오염시키는 바로 그 자리에서, 또 다른 AI가 그 오염을 걸러내려는 셈이다. 아래는 그 검증 흐름이다.

리뷰어 에이전트는 답을 내는 것과 별개로 그 답의 근거·계산 경로를 다시 확인한다. 마지막 판단은 연구자에게 남는다.

⛔ 한계는 분명히. provenance와 리뷰어 에이전트는 재현성을 '보장'하지 않는다. 그림·코드·환경을 함께 남겨 "무엇으로 만들어졌는가"를 추적 가능하게 만들 뿐이며, Anthropic도 최종 검증은 연구자 몫이라고 명시한다. 재현성 위기의 근본 원인 — 출판 압박, 선택적 보고 같은 인센티브 구조 — 는 도구만으로는 풀리지 않는다.

4

핵심 가치 ②: 연구자가 실제로 일을 끝내게 하는 네 축

provenance가 신뢰의 축이라면, 나머지 가치들은 연구자가 실제로 일을 끝내게 만드는 축이다. 자연어로 다루는 HPC, 데이터가 있는 곳에서의 실행, 생명과학에 미리 맞춘 커버리지, 그리고 분석에서 원고까지의 연속성이 여기에 해당한다.

4.1자연어로 다루는 HPC

Claude Science는 로컬 환경뿐 아니라 Linux 서버, HPC 로그인 노드, SSH 기반 클러스터, Modal 계정을 통해 실행될 수 있다. 공식 설명에 따르면 배치 스크립트를 작성하고 SSH로 자체 머신이나 HPC 클러스터에 작업을 제출·관리하며, 단일 GPU에서 수백 GPU까지 확장한다. 잡을 제출하기 전에 계획을 검토·승인·철회할 수 있다는 안전장치도 명시된다. Slurm·SSH·conda에 익숙하지 않은 비전산 전공 연구자에게, 이것은 "HPC 사용 장벽을 자연어 인터페이스로 낮추는" 시도다.

이 장벽이 과장이 아니라는 정황은 수치로도 드러난다. ML 연구자를 대상으로 한 조사에서 62%는 GPU를 8개 미만으로만 쓸 수 있었고, 57.4%는 컴퓨트가 모자라 실험을 아예 돌리지 못한 적이 있다고 답했다(ML 연구자 기준, arXiv 2306.16900). 생명과학 연구자만 따로 본 같은 통계는 아직 없지만, 잡 하나를 클러스터에 올리는 일 자체가 문턱이라는 사정은 크게 다르지 않다. 자연어 인터페이스가 이 문턱을 낮춘다면 그 수혜는 모델이 더 똑똑해져서가 아니라 접근성이 넓어져서 온다.

4.2데이터가 있는 곳에서 실행된다

거버넌스 관점에서 가장 결정적인 설계는 데이터 지역성이다. Anthropic은 Claude Science가 연구실의 자체 인프라 — 노트북, Linux 박스, HPC 로그인 노드 — 에서 실행되기 때문에 대용량 또는 민감한 데이터셋이 기존 시스템을 떠날 필요가 없다고 설명한다. 각 분석 단계에 필요한 맥락만 Claude로 전송된다. 다만 프롬프트와 모델 응답에 포함되는 내용은 Anthropic의 표준 보존 정책을 따른다는 단서가 붙는다. HIPAA·임상 데이터처럼 규제받는 데이터를 다룬다면 이 단서를 반드시 확인해야 한다.

▲ 데이터 지역성 — 대용량·민감 데이터는 연구 인프라를 떠나지 않으며, 분석 컨텍스트만 Claude로 전송된다. 페블러스 원본 도식 (Anthropic 공식 설명 기반)

4.3생명과학에 미리 맞춰진 커버리지

Claude Science는 유전체학, single-cell 분석, 단백질체학, 구조생물학, 화학정보학 등 생명과학 주요 분야에 맞춰 60개 이상의 큐레이티드 스킬과 커넥터를 제공한다. 60개 이상의 과학 데이터베이스를 조회할 수 있고, UniProt·PDB·Ensembl·Reactome·ClinVar·ChEMBL·GEO 같은 리소스가 예로 제시된다. 여기에 NVIDIA BioNeMo Agent Toolkit과 연결하면 도구를 넘어 최신 연구 모델 자체에 닿는다. Evo 2는 12만 8천여 종에 걸친 약 9.3조 개 염기서열로 훈련된 유전체 기초모델이고, OpenFold3는 단백질 구조 예측 AlphaFold3의 오픈 구현이며, Boltz-2는 분자 결합 친화도를 예측한다. 뒤집어 말하면 이 커버리지는 강하게 생명과학에 편향돼 있다 — 물리·사회과학으로의 일반화는 아직 신중해야 한다.

4.4기존 파이프라인 재사용과 그림→원고 연속성

Claude Science는 기존 도구를 버리라고 요구하지 않는다. 사용자는 이미 쓰던 Python·R·shell 워크플로를 그대로 가져올 수 있고, 검증된 ELN·내부 시스템도 커넥터나 스킬로 연결한다. 분석이 끝나면 그것이 곧바로 figure와 manuscript로 이어진다. 3D 단백질 구조, 게놈 브라우저 트랙, 화학 구조를 네이티브로 렌더링하고, "축을 로그 스케일로 바꿔줘" 같은 자연어 요청을 받으면 그림을 만든 코드를 직접 수정한다. 데이터 조회부터 원고까지가 하나의 흐름 안에서 끊기지 않는다.

5

경쟁 지형과 페블러스의 관점

과학 AI 경쟁은 지금 두 갈래로 갈린다. 한쪽은 발견 자체를 자동화하는 강력한 전용 모델을 겨눈다. OpenAI의 GPT-Rosalind는 생물학 추론에 특화된 전용 모델로 엔터프라이즈 게이팅을 두고, Google의 Gemini for Science는 데스크톱 워크벤치 형태로 Claude Science와 직접 경쟁한다. FutureHouse는 자율 과학자 에이전트를 지향한다. 아래 표는 각 제품의 좌표를 접근 철학으로 정리한 것이다. 폄하가 아니라 설계 철학의 차이로 읽어야 한다.

제품	형태	무게중심	재현성 접근
Claude Science	워크벤치(베타 앱)	도구 통합 · 검증 가능성	provenance + 리뷰어 에이전트
OpenAI GPT-Rosalind	전용 추론 모델	생물학 추론 성능	모델 성능 중심(게이팅)
Google Gemini for Science	데스크톱 워크벤치	통합 연구 환경	워크벤치 내 통합
FutureHouse	자율 에이전트	발견 자동화	에이전트 자율성 중심

각 제품 포지셔닝은 접근 철학의 차이로 서술 — 우열 비교 아님. (출처: TechCrunch 등 2026-06-30~07-01)

이 지형 위에서 Claude Science의 좌표는 뚜렷하다. 벤치마크 점수보다 검증 가능성에 무게를 둔다. 발견을 더 빨리 만들기보다, 만들어진 발견을 재현·감사 가능하게 만드는 쪽이다. 그리고 여기서 페블러스의 렌즈가 정확히 맞물린다.

페블러스가 오래 주장해 온 명제는 "모델보다 데이터"다. Claude Science의 provenance — "이 그림이 어떤 데이터와 코드로 만들어졌는가" — 는 페블러스 DataClinic이 데이터 품질을 진단하고 계보(lineage)를 추적하는 문제와 동형(isomorphic)이다. 리뷰어 에이전트가 잡아내는 "잘못된 인용·추적 불가능한 숫자·코드-그림 불일치"는 정합성·계보·검증가능성이라는 전형적인 데이터 품질 결함이다. 아무리 모델을 키워도 입력과 중간 데이터의 신뢰성이 없으면 출력을 믿을 수 없다는 사실을, GPT-4급 모델에서도 인용 조작이 남는다는 데이터가 그대로 보여준다.

"발견을 자동화하는 AI" 경쟁이 가열될수록, 병목은 발견의 속도가 아니라 발견의 검증가능성·재현성으로 이동한다. 생명과학·제약·소재 R&D 고객에게 "AI가 파이프라인을 대신 돌리되 데이터는 우리 인프라를 떠나지 않고, 모든 결과에 계보가 붙는다"는 요구는 곧 데이터 거버넌스·품질 요구다. Claude Science는 데이터 계보 관리가 제품의 1급 기능이 된 대표 사례로, 페블러스가 말해 온 "데이터 신뢰성 인프라"가 왜 필요한지를 밖에서 증명한다.

Editor's Note. 이 글은 Claude Science를 소개하는 동시에, 그 설계가 페블러스의 오랜 테제 — 데이터의 신뢰성·계보·품질이 AI 시대의 진짜 인프라라는 관점 — 와 어떻게 맞닿는지를 함께 짚었다. 제품 홍보가 아니라, 과학 AI의 무게중심이 옮겨가는 방향을 읽으려는 시도로 읽어 주시길.

R

참고문헌

1차 제품 출처

1.Anthropic (2026, June 30). Claude Science, an AI workbench for scientists. anthropic.com

재현성 위기

2.Baker, M. (2016). 1,500 scientists lift the lid on reproducibility. Nature, 533, 452–454. doi.org/10.1038/533452a
3.Freedman, L.P., Cockburn, I.M., & Simcoe, T.S. (2015). The Economics of Reproducibility in Preclinical Research. PLOS Biology, 13(6):e1002165. doi.org/10.1371/journal.pbio.1002165
4.Begley, C.G., & Ellis, L.M. (2012). Raise standards for preclinical cancer research. Nature, 483, 531–533. doi.org/10.1038/483531a
5.Errington, T.M. et al. (2021). Investigating the replicability of preclinical cancer biology. eLife, 10:e71601. doi.org/10.7554/eLife.71601

LLM 인용 환각

6.Walters, W.H., & Wilder, E.I. (2023). Fabrication and errors in the bibliographic citations generated by ChatGPT. Scientific Reports, 13:14045. doi.org/10.1038/s41598-023-41032-5
7.Chelli, M. et al. (2024). Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews. Journal of Medical Internet Research, 26:e53164. doi.org/10.2196/53164
8.Topaz, M. et al. (2026). Large-scale audit of fabricated references in the biomedical literature. The Lancet, 407:1779–1781.

컴퓨트·데이터 격차 · 생명과학 기초모델

9.Gao, S. et al. (2025). AI for Scientific Discovery is a Social Problem. arXiv:2509.06580. arxiv.org/abs/2509.06580
10.Stephens, Z.D. et al. (2015). Big Data: Astronomical or Genomical? PLOS Biology, 13(7):e1002195. doi.org/10.1371/journal.pbio.1002195
11.Brixi, G. et al. (2025). Evo 2: Genome modeling and design across the tree of life. (preprint) biorxiv.org
12.Wohlwend, J. et al. (2025). Boltz-2: Accurate and Efficient Binding Affinity Prediction. bioRxiv 2025.06.14.659707. doi.org/10.1101/2025.06.14.659707
13.arXiv:2306.16900 (2023). Barriers to compute access in ML research. arxiv.org/abs/2306.16900 (ML 연구자 62% GPU 8개 미만, 57.4% 컴퓨트 부족으로 실험 불가)

업계·시장

14.TechCrunch (2026, June 30). Anthropic bets on workflow, not a new model, to win over scientists.
15.Grand View Research (2026). Artificial Intelligence in Drug Discovery Market Report.

시장 규모 추정치는 조사기관별 정의 차이로 최대 10배까지 편차가 있어, 본문에서는 단일 수치 단정 대신 범위·출처를 함께 표기했다. Claude Science의 효율 사례(예: 특정 분석 시간 단축)는 Anthropic 발표 및 사용자 자체 보고치로, 독립 검증된 값이 아니다.