Executive Summary

AlphaFold이 단백질 구조를 그토록 잘 맞히는 이유를 우리는 흔히 모델의 영리함에서 찾습니다. 그런데 그 정확도의 상당 부분은 다른 데서 나왔습니다. 거대한 데이터베이스를 뒤져 "비슷하게 생긴 단백질"을 수백에서 수천 개까지 찾아 붙이는 능력, 곧 동종 서열 정렬(MSA)입니다. 이 글은 그 데이터 의존을 정면으로 끊어 낸 2026년 Nature Machine Intelligence 연구를 봅니다.

AlphaFold2는 이 동종 서열을 걷어내면 평균 TM-score가 약 0.80에서 0.41로 반 토막에 가깝게 무너집니다. 정확도의 병목이 모델 크기가 아니라 참조 데이터의 풍부함에 있었다는 뜻입니다. TDFold는 그 데이터를 아예 쓰지 않는 대신, 단백질의 기하학을 2차원 이미지처럼 다시 정의하고 이미지 생성 모델(확산 모델)로 그 관계를 만들어 냈습니다. 그 결과 MSA를 쓰지 않는 단일 서열 방법 중 최고 정확도에 올랐고, 동종 서열이 아예 없는 고아 단백질에서 특히 앞섰습니다.

다만 오해는 피해야 합니다. TDFold가 동종 서열을 전부 동원한 AlphaFold를 넘어선 것은 아닙니다. "데이터를 걷어냈더니 더 정확해졌다"는 것은, 같은 조건인 다른 단일 서열 방법들과 비교했을 때의 이야기입니다. 이 글은 그 구분을 지키면서, 데이터의 양으로 메우던 자리를 문제의 표현 방식이 대신할 수 있는지 묻습니다.

0.80 → 0.41

MSA 제거 시 AlphaFold2 TM-score

동종 서열이 없으면 정확도 절반 가까이 붕괴 — 그게 진짜 병목이었다

71.91

TDFold CASP16 GDT-TS

MSA 없는 단일 서열 방법 중 최고 (ESMFold 70.33, OmegaFold 61.55)

10~100배

추론 속도

긴 서열에서 언어 모델 기반 방법 대비 — 데이터베이스 검색도 생략

RTX 4090·1주

전체 학습 비용

TPU 클러스터로 수 주가 걸리던 자리를 GPU 한 장이 대신

1

AlphaFold는 정말 혼자 힘으로 풀었을까

단백질은 아미노산이 한 줄로 이어진 사슬이 스스로 접혀 3차원 모양을 갖춥니다. 그 최종 모양을 서열만 보고 알아맞히는 것이 구조 예측 문제입니다. AlphaFold2가 이 오래된 난제를 사실상 풀었다고 평가받는 데는, 잘 알려지지 않은 조력자가 있습니다. 다중 서열 정렬(MSA, Multiple Sequence Alignment)입니다.

MSA는 쉽게 말해 "비슷한 단백질들의 목록"입니다. 진화적으로 한 뿌리에서 갈라진 단백질들은 서열이 서로 닮아 있고, 그 목록을 나란히 세워 보면 흥미로운 신호가 보입니다. 구조상 가까이 붙어 있는 두 자리는, 한쪽이 돌연변이로 바뀌면 다른 쪽도 짝을 맞춰 함께 바뀝니다. 접힌 모양을 유지하려는 보상입니다. 이 함께-바뀜(공진화) 패턴을 읽으면, 서열의 어느 두 지점이 공간에서 가까운지를 간접적으로 알 수 있습니다. AlphaFold2의 핵심 엔진은 바로 이 신호를 뽑아내도록 설계돼 있습니다.

공진화 신호 — MSA가 AlphaFold에 알려주는 것 동종 서열 목록 (MSA) 위치 → 1 i 3 j 5 종1 A K L E V 종2 G R V D I 종3 G H L Q I 종4 A K I E V i가 바뀔 때 j도 함께 바뀜 (K↔E · R↔D · H↔Q) AlphaFold2가 읽어내는 것 공진화 패턴 = 공간 근접 신호 i와 j가 함께 바뀐다 → 3D 구조에서 서로 가깝다 (AlphaFold2 pairwise 표현의 핵심 재료) MSA 없음 → 신호 없음 → TM-score 0.80 → 0.41 동종 서열이 AlphaFold 정확도의 핵심 원천이었던 이유 페블러스 원본 도식 (Fig. 1 재해석)
▲ 동종 서열에서 공진화 패턴을 읽어 잔기 간 공간 근접을 추론 — AlphaFold2가 MSA에 의존하는 핵심 이유 | 페블러스 원본 도식

문제는 이 목록을 만드는 일 자체입니다. UniRef, BFD 같은 거대 데이터베이스를 뒤져 유사 서열을 검색하는 데만 보통 수십 분이 걸리고, 서열이 길수록 메모리도 급격히 늘어납니다. 그리고 이 목록이 얼마나 깊은가에 성능이 그대로 좌우됩니다.

입력 조건 평균 TM-score 의미
전체 MSA + 템플릿 ~0.98 실험으로 밝힌 구조에 거의 근접
전체 MSA (템플릿 없음) ~0.80 동종 서열만으로도 충분히 정확
단일 서열 (MSA 없음) ~0.41 동종 서열을 걷어내자 절반 가까이 붕괴

수치가 말하는 바는 분명합니다. AlphaFold2에서 동종 서열을 빼면 정확도가 0.80에서 0.41로 주저앉습니다. 모델은 그대로인데 데이터만 걷어냈을 뿐인데도 그렇습니다. 정확도의 가장 큰 결정 요인은 모델의 구조가 아니라, 참조할 만한 비슷한 단백질을 얼마나 찾아 붙이느냐였던 셈입니다.

이 의존은 특정 단백질 앞에서 아예 벽이 됩니다. 알려진 친척이 하나도 없는 고아 단백질(orphan protein), 실험실에서 새로 설계한 합성 단백질에는 애초에 만들 목록이 없습니다. 이 대목이 MSA 없이도 예측하려는 여러 시도를 낳았습니다. ESMFold나 OmegaFold 같은 단백질 언어 모델은 수억에서 수십억 개의 서열로 미리 학습해, 진화 정보를 데이터베이스 검색 대신 모델 가중치 안에 녹여 넣었습니다. 데이터 의존을 없앤 게 아니라, 런타임 검색에서 학습 데이터로 자리를 옮긴 것에 가깝습니다. 그래서 고아 단백질에서는 여전히 한계가 뚜렷했습니다.

정리하면 이렇습니다. AlphaFold의 힘은 상당 부분 "비슷한 것을 찾아 붙이는" 데이터 검색력에 있었고, 그 데이터가 없으면 무너졌습니다. 그렇다면 질문은 이렇게 바뀝니다. 그 자리를 반드시 더 많은 데이터로만 메워야 할까요, 아니면 문제를 다르게 표현해서 대신할 수 있을까요.

2

TDFold는 문제를 이미지로 다시 적었다

왕(Xudong Wang) 연구팀이 Nature Machine Intelligence에 발표한 TDFold는 데이터를 더 찾는 대신, 문제를 보는 각도를 바꿨습니다. 출발점은 하나의 관찰입니다. 단백질에서 잔기(residue) i와 잔기 j 사이의 거리와 방향을 전부 행렬에 적으면, 그 결과는 N×N 크기의 표가 됩니다. 그리고 이런 표는 자연스럽게 한 장의 2차원 이미지로 볼 수 있습니다.

거리 지도 한 장, 방향 지도 몇 장을 겹치면 여러 채널을 가진 이미지가 됩니다. 색이 아니라 기하 관계를 담은 이미지입니다. 이렇게 표현을 바꾸고 나면, 그다음은 이미지를 다루는 도구를 그대로 빌려올 수 있습니다. TDFold가 빌려 온 것은 텍스트를 받아 그림을 그려 내는 이미지 생성 모델, 스테이블 디퓨전(Stable Diffusion)입니다.

전체 과정은 두 단계입니다. 첫 단계가 서열에서 기하 지도를 만들어 내고, 둘째 단계가 그 지도를 실제 3차원 구조로 세웁니다.

TDFold 2단계 파이프라인 — MSA 없이 구조를 만드는 법 입력 아미노산 서열 단일 서열 (MSA 없음) A-G-T-K-L-E-V… Stage 1 확산 모델 (SD 미세조정) 기하 템플릿 N×N 거리·방향 행렬 "이미지처럼 다룬" 기하 MSA 없이 생성 Stage 2 경량 네트워크 (좌표 최적화) 출력 3D 원자 좌표 단백질 3차원 구조 데이터베이스 검색 없음 페블러스 원본 도식 (Fig. 2 재해석) — TDFold 논문 파이프라인 구조
▲ TDFold 2단계 파이프라인 — Stage 1에서 확산 모델이 기하 이미지를 생성하고, Stage 2에서 경량 네트워크가 3D 좌표로 변환 | 페블러스 원본 도식

2.1기하 템플릿을 "생성"한다

첫 단계는 스테이블 디퓨전을 단백질용으로 미세조정하는 것입니다. 원래 모델이 문장을 받아 장면을 상상하듯, 여기서는 아미노산 서열을 받아 잔기 사이의 거리·방향 지도를 그려 냅니다. AlphaFold2가 동종 서열 목록에서 찾아 읽던 "어느 자리가 어느 자리와 가까운가"라는 정보를, TDFold는 검색 없이 확산 모델로 상상해 만들어 냅니다. 물론 이 상상은 제멋대로가 아닙니다. 학습 단계에서 실험으로 밝혀진 단백질 구조의 거리·방향 지도를 정답으로 삼아 훈련했기 때문에, 모델은 서열이 주어지면 그럴듯한 기하를 그리도록 길들여져 있습니다. 데이터베이스를 뒤지는 자리를 생성 모델이 대신하는 셈입니다.

2.2서열과 기하를 맞물려 3차원으로

두 번째 단계는 앞서 생성한 기하 지도를 실제 3차원 좌표로 옮기는 경량 네트워크입니다. 서열과 잔기 사이 관계를 공진화 방식으로 다시 정렬하고, 곁사슬 원자가 주쇄의 모양에 주는 영향까지 반영해 최종 구조를 확정합니다. 무거운 대형 언어 모델을 돌리지 않기 때문에, 이 단계는 메모리와 속도 면에서 가볍습니다.

핵심은 "데이터를 더 모았다"가 아니라 "문제를 이미지로 다시 적었다"입니다. 기하 관계를 이미지로 표현하는 순간, 이미지 도메인에서 이미 축적된 스테이블 디퓨전의 지식을 그대로 끌어다 쓸 수 있게 됩니다. 동종 서열이라는 데이터로 메우던 자리를, 표현을 바꿔 다른 도메인의 지식으로 대신한 것입니다.

3

그래서, 얼마나 정확했나

단백질 구조 예측 방법은 CASP라는 2년 주기 공개 대회에서 검증됩니다. 예측한 구조가 실제 구조에 얼마나 가까운지를 GDT-TS 점수(0~100, 높을수록 좋음)로 잽니다. 아래 표는 최근 두 대회에서 단일 서열 방법들과, 참고를 위한 동종 서열 전체 사용 방법을 함께 정리한 것입니다.

모델 CASP15 GDT-TS CASP16 GDT-TS 입력
TDFold 63.52 71.91 단일 서열 (MSA 없음)
ESMFold 62.99 70.33 단일 서열 (MSA 없음)
OmegaFold 57.37 61.55 단일 서열 (MSA 없음)
AlphaFold2 73.24 74.05 동종 서열 + 템플릿
AlphaFold3 73.26 79.59 동종 서열 + 템플릿
CASP16 GDT-TS 성능 비교 GDT-TS: 0–100, 높을수록 정확 · 단일 서열 방법 vs 동종 서열 전체 사용 방법 단일 서열 (MSA 없음) TDFold 71.91 ESMFold 70.33 OmegaFold 61.55 ── 아래: 동종 서열 전체 사용 — 다른 조건, 참고용 ── 동종 서열 전체 (MSA 사용) AlphaFold2 74.05 AlphaFold3 79.59
▲ CASP16 GDT-TS 비교 — TDFold는 MSA 없는 단일 서열 방법 중 최고. 동종 서열을 전부 쓰는 AlphaFold2/3와는 조건이 다름(점선) | 페블러스 원본 도식

표를 두 층으로 나눠 읽어야 합니다. 먼저 같은 조건인 단일 서열 방법들 사이에서, TDFold는 CASP15에서 63.52, CASP16에서 71.91로 ESMFold와 OmegaFold를 모두 앞섭니다. 예측의 자기 신뢰도를 재는 pLDDT에서도 CASP14 기준 72.06으로, ESMFold 67.14와 OmegaFold 53.25를 크게 웃돕니다. 동종 서열을 쓰지 않는 방법들 안에서는 지금까지 가장 정확한 축입니다.

그다음 층이 중요합니다. 동종 서열을 전부 동원한 AlphaFold2·AlphaFold3는 여전히 73~79점대로 앞서 있습니다. 그러니 "TDFold가 AlphaFold를 이겼다"고 말하면 사실과 어긋납니다. 정확한 문장은 이렇습니다. 데이터를 걷어낸 조건에서, TDFold가 같은 조건의 다른 방법들보다 더 정확했다는 것입니다.

TDFold의 진짜 강점은 데이터가 아예 없는 자리에서 드러납니다. 알려진 친척이 하나도 없는 고아 단백질 77개로 꾸린 시험대에서, TDFold는 ESMFold·OmegaFold를 비롯한 기존 단일 서열 방법들을 큰 차이로 앞섰습니다. 여기서는 AlphaFold도 만들 목록이 없어 사실상 손을 놓는 영역입니다. 기하 지도를 검색이 아니라 생성으로 만든다는 설계가, 참조할 데이터가 전혀 없을 때 가장 크게 빛납니다.

비용도 눈에 띕니다. TDFold는 데이터베이스 검색 단계를 통째로 건너뛰기 때문에, 긴 서열에서 언어 모델 기반 방법보다 추론이 10배에서 100배까지 빠릅니다. 전체 모델 학습도 RTX 4090 GPU 한 장으로 일주일 안에 끝납니다. TPU 클러스터로 몇 주를 돌리던 이전 세대와 비교하면 진입 문턱이 확연히 낮아졌습니다.

4

표현이 데이터를 대신할 때

여기서 데이터를 다루는 사람의 관점으로 돌아옵니다. 지난 몇 년의 기본값은 명확했습니다. 성능이 아쉬우면 데이터를 더 모은다. 더 깊은 MSA, 더 많은 학습 서열, 더 큰 데이터베이스. AlphaFold의 성공도 이 방향을 강하게 뒷받침했습니다. 정확도가 참조 데이터의 풍부함에 비례했으니까요.

TDFold는 같은 병목에 다른 답을 냈습니다. 데이터를 더 찾은 게 아니라, 풀어야 할 문제를 이미지라는 형식으로 다시 적었습니다. 그러자 이미지 도메인에 이미 쌓여 있던 지식이 단백질 쪽으로 흘러 들어왔습니다. 부족한 데이터를 새로 채운 게 아니라, 이미 존재하던 다른 종류의 지식을 표현을 바꿔 끌어다 쓴 것입니다. 세 관점을 나란히 놓으면 차이가 또렷해집니다.

관점 핵심 질문 이 사례가 남기는 것
양 (volume) 참조 데이터를 얼마나 많이 모을까? AlphaFold의 강점이자 한계. 데이터가 없는 자리에서 무너졌다.
내재화 (weights) 데이터를 모델 안에 넣어 둘까? 단백질 언어 모델의 길. 의존이 사라진 게 아니라 학습 시점으로 옮겨졌다.
표현 (representation) 문제를 어떻게 다시 적을까? TDFold의 길. 표현을 바꾸자 다른 도메인의 지식이 데이터를 대신했다.

이 전환은 단백질에만 갇힌 이야기가 아닙니다. 어떤 데이터를 시계열로 볼지 이미지로 볼지 그래프로 볼지에 따라, 같은 정보에서 끌어낼 수 있는 것이 달라집니다. TDFold가 보여 준 것은, 데이터가 부족해 보이는 문제가 실은 표현이 부족한 문제일 수 있다는 가능성입니다. 더 많이 모으기 전에, 다르게 적어 볼 여지가 있는지 먼저 물어볼 만합니다.

물론 표현이 데이터를 늘 대신하지는 못합니다. TDFold도 동종 서열을 전부 쓴 AlphaFold의 정확도까지는 닿지 못했습니다. 그럼에도 이 사례가 값진 이유는, "데이터가 더 필요하다"는 답이 나오기 전에 던질 수 있는 다른 질문 하나를 보여 줬기 때문입니다. 우리가 데이터의 양으로 메우려던 그 자리를, 문제를 다르게 표현해 대신할 수는 없는가.

Editor's Note

페블러스가 AI-Ready Data를 이야기할 때 되짚어 온 지점도 결국 여기에 맞닿습니다. 데이터를 무작정 더 모으는 것보다, 그 데이터를 어떤 형태로 준비하고 어떻게 표현하느냐가 모델의 결과를 바꾼다는 것입니다. TDFold는 그 논지에 실험실 밖의 증거를 하나 더합니다. 데이터의 양을 늘리는 축과, 데이터를 표현하는 축은 다른 방향을 가리키며, 후자가 아직 덜 탐색됐다는 사실을 다시 확인시켜 줍니다.

R

참고문헌

핵심핵심 논문

비교비교·배경 연구