Executive Summary
2024년 노벨 화학상은 AlphaFold에 돌아갔습니다. 아미노산 서열만 보고 단백질이 어떤 3차원 모양으로 접히는지 예측하는, 반세기 묵은 난제를 푼 공로였습니다. 그런데 이 성취에는 잘 알려지지 않은 경계가 있습니다. AlphaFold가 그려 내는 것은 단백질의 가장 안정된 한 장면, 말하자면 정지 사진입니다. 이 글은 그 정지 사진과 진짜 단백질 사이의 거리를 봅니다.
살아 있는 단백질은 끊임없이 움직입니다. 모양을 바꾸며 신호를 전달하고, 파트너를 알아보고, 약을 받아들입니다. 기능은 그 움직임에서 나옵니다. 2026년 6월, 43명의 연구자가 함께 쓴 로드맵 논문은 바로 이 지점을 정면으로 짚었습니다. 딥러닝이 푼 것은 '정적 구조 예측'이며, 단백질이 어떻게 움직이는지에 대한 정량적 이해는 아직 미해결이라는 것입니다.
왜 AlphaFold는 움직임을 모를까요. 알고리즘이 모자라서가 아닙니다. 우리가 측정해서 데이터로 만든 것이 정지 화면뿐이기 때문입니다. 데이터의 형식이 모델이 배울 수 있는 패턴의 한계를 정합니다. 모델이 아니라 데이터가 천장을 만든다는 페블러스의 오래된 주제가, 이번에는 생명과학에서 같은 모습으로 반복됩니다.
주요 수치
출처: arXiv:2606.08647, AlphaFold Protein Structure Database
AlphaFold가 쏟아 낸 예측은 거의 모든 알려진 단백질을 덮을 만큼 압도적입니다. 그러나 그 모델이 실제로 배운 실험 데이터는 그보다 천 배 이상 작고, 전부 한 가지 형식, 곧 정지 사진으로 찍힌 것입니다. 규모와 형식 사이의 이 간극, 그리고 정지 사진뿐인 데이터가 남긴 두 가지 빈틈이 아래 네 숫자에 담겨 있습니다.
2억 1,400만
AlphaFold 예측 구조
데이터베이스에 공개된 단백질 구조 예측 수. 거의 모든 알려진 단백질을 덮음
약 18만
PDB 실험 구조
AlphaFold가 학습한 실험 데이터. 대부분 결정·냉동된 정지 상태의 구조
약 1/3
정밀도 낮은 잔기
원자 수준 정밀도가 부족한 아미노산 비율. 주로 유연·무질서 영역
1.1%
소단백질 커버리지
EMDB 구조 중 50kDa 미만 소단백질 비율. 동역학 데이터의 공백을 드러냄
AlphaFold가 푼 것과 남긴 것
단백질 접힘 문제는 생물학에서 가장 오래된 수수께끼 중 하나였습니다. 단백질은 아미노산이 일렬로 이어진 사슬로 만들어지는데, 이 사슬이 스스로 특정한 3차원 모양으로 접혀야 비로소 일을 합니다. 서열만 알면 그 모양을 계산으로 알아낼 수 있을까. 50년 동안 풀리지 않던 이 질문에 AlphaFold가 사실상 답을 냈고, 그 답의 정확도가 실험에 견줄 만했기에 노벨상으로 이어졌습니다.
AlphaFold가 내놓는 것은 그 단백질이 취하는 가장 안정된 형태, 에너지가 가장 낮은 한 가지 구조입니다. 사진으로 치면 가장 잘 나온 한 컷입니다. 신약 연구자가 표적 단백질의 생김새를 빠르게 확인하고, 효소의 활성 부위가 어디인지 가늠하는 데 이 한 컷은 충분히 강력합니다. 그래서 190개국 200만 명 넘는 연구자가 이 도구를 일상적으로 씁니다.
남은 것은 그 한 컷이 담지 못한 모든 순간입니다. 단백질이 어떻게 그 모양에 도달했는지, 일을 할 때 어느 부위가 어떻게 휘는지, 다른 분자를 만났을 때 형태가 어떻게 바뀌는지. 이 움직임의 영역은 AlphaFold의 출력 어디에도 들어 있지 않습니다. 우리는 단백질의 초상화를 얻었지만, 그 단백질이 살아서 무엇을 하는지는 여전히 따로 알아내야 합니다.
핵심: AlphaFold는 단백질의 정지 사진을 풀었습니다. 풀리지 않은 것은 동영상입니다. 구조를 아는 것과 움직임을 아는 것은 다른 문제이고, 후자가 곧 기능의 문제입니다.
단백질은 멈춰 있지 않다
단백질의 기능은 거의 언제나 모양의 변화에서 나옵니다. 효소가 기질을 잡을 때 입을 다물듯 구조가 닫히고, 수용체가 신호를 받으면 안쪽으로 형태가 전달되며, 운반 단백질은 문을 열고 닫듯 움직여 물질을 통과시킵니다. 정지한 구조 하나로는 이런 일이 어떻게 일어나는지 설명할 수 없습니다.
헥소키네이스(hexokinase)라는 효소가 좋은 예입니다. 이 단백질은 당이 없을 때와 당을 붙잡았을 때의 모양이 다릅니다. 당을 만나면 두 갈래로 갈라진 구조가 집게처럼 오므라들며 당을 감싸 안습니다. 그런데 AlphaFold는 둘 중 한 모양, 보통은 당이 없는 열린 상태만 내놓습니다. 학습 데이터에 그 상태가 더 흔하게 들어 있었기 때문입니다. 같은 단백질의 다른 얼굴은 예측 바깥에 남습니다.
더 극단적인 경우가 내재적 무질서 단백질(IDP)입니다. 이 단백질들은 애초에 고정된 모양이 없습니다. 상황에 따라 형태를 바꾸며 일하는 것이 그들의 작동 방식입니다. AlphaFold는 이런 부위를 만나면 '신뢰도 낮음'이라는 신호를 출력합니다. 모델이 틀렸다기보다, 하나의 정답 구조를 가정하는 틀 자체가 이런 단백질과 맞지 않습니다. 살아 있는 단백질의 상당 부분이 본래 흐물거리는 존재인데, 우리의 데이터와 모델은 단단한 조각상을 전제합니다.
핵심: 단백질의 기능은 움직임에서 나옵니다. 하나의 단백질이 여러 모양을 오가고, 어떤 단백질은 고정된 모양 자체가 없습니다. 정지 사진은 그중 한 순간만 붙잡습니다.
AlphaFold가 동역학을 모르는 이유
AlphaFold가 움직임을 모르는 이유는 모델이 무엇을 보고 배웠는지에 있습니다. 학습 데이터는 단백질 데이터 은행(PDB)에 쌓인 약 18만 개의 실험 구조입니다. 그런데 이 구조들이 어떻게 만들어졌는지를 보면 문제가 분명해집니다. X선 결정학은 단백질을 결정 격자에 고정해 찍고, 초저온 전자현미경(cryo-EM)은 단백질을 순식간에 얼려 멈춘 상태를 촬영합니다. 둘 다 움직임을 멈춰 세운 다음 사진을 찍는 방법입니다.
게다가 이 구조들은 대개 수많은 분자의 평균입니다. 개별 단백질이 어느 순간 어떤 모양이었는지가 아니라, 셀 수 없이 많은 분자가 평균적으로 어떤 모양으로 안착하는지를 보여 줍니다. 그래서 PDB의 데이터는 '무엇처럼 생겼나'에 대한 기록이지, '어떻게 움직이나'에 대한 기록이 아닙니다. AlphaFold는 이 정지 사진 더미에서 패턴을 배웠으니, 그 출력도 정지 사진일 수밖에 없습니다. 없는 종류의 데이터를 모델이 만들어 낼 수는 없습니다.
정지 구조와 동역학은 측정에서 예측으로 이어지는 사슬의 모양 자체가 다릅니다. 정지 구조 쪽은 결정·냉동 촬영이 18만 장의 PDB 구조가 되고, 그 구조가 다시 AlphaFold의 예측으로 이어지는 세 칸이 빠짐없이 연결됩니다. 반면 동역학 쪽은 측정 기술이 분명히 존재하는데도 그 결과가 하나로 통합된 학습 데이터로 모이지 못해, 두 번째 칸에서 이미 사슬이 끊깁니다. 모델이 학습할 형식 자체가 비어 있는 것입니다.
움직임을 잡아내는 측정 방법이 없는 것은 아닙니다. 단분자 형광공명(smFRET)은 개별 단백질의 형태 전환을 실시간으로 관측하고, 핵자기공명(NMR)은 원자 수준의 떨림을 포착하며, 분자동역학(MD) 시뮬레이션은 짧은 시간 동안의 움직임을 계산으로 그려 냅니다. 문제는 이 기법들이 저마다 다른 시간 폭을 들여다보고, 서로 겹치지 않는다는 점입니다. 데이터는 희소하고 조각나 있으며, PDB 구조와 짝지어진 통합 동역학 데이터베이스는 아직 없습니다.
핵심: AlphaFold의 천장은 알고리즘이 아니라 데이터의 형식입니다. 우리가 정지 사진만 데이터로 만들었기에, 모델은 정지 사진까지만 배울 수 있습니다.
2026 로드맵이 가리키는 방향
2026년 6월에 나온 로드맵 논문 「Protein Dynamics Beyond Structure Prediction」은 43명의 연구자가 함께 쓴 일종의 합의문입니다. 이들은 단백질 동역학이 본질적으로 확률적이고 시간에 따라 변하는 과정이라서, 정지한 좌표만으로는 기술할 수 없다고 못 박습니다. 구조 예측이 끝난 자리에서 다음 과학이 시작되어야 한다는 선언입니다.
논문이 제시하는 방향의 핵심은 알고리즘이 아니라 데이터입니다. 단분자 기법으로 개별 분자가 시간에 따라 어떻게 움직이는지를 시계열 데이터로 만들고, 서로 다른 시간 폭과 측정 방식에서 나온 이질적인 데이터를 하나로 통합하자는 것입니다. 정지 구조와 동역학 측정치를 짝지어, 모델이 처음으로 '움직임'이라는 형식을 학습할 수 있게 만드는 일이 목표입니다.
다시 말해, 다음 돌파구의 병목은 더 영리한 신경망이 아니라 학습시킬 데이터의 부재입니다. 정지 사진 18만 장이 정지 구조 예측을 가능하게 했듯이, 단백질이 움직이는 시간을 충분히 많이, 그리고 일관된 형식으로 측정해 모아야 동역학 예측이라는 다음 단계가 열립니다. 로드맵이 가리키는 곳은 새 모델 구조가 아니라 새 데이터의 형식입니다.
핵심: 43인 로드맵의 처방은 데이터로 모입니다. 단백질의 움직임을 시계열로 측정하고, 흩어진 측정치를 하나의 형식으로 통합하는 것이 다음 과학의 전제입니다.
다음 돌파구는 측정에서 온다
AlphaFold의 이야기에서 데이터를 다루는 사람이 가져갈 교훈은 분명합니다. 노벨상급 모델조차 학습 데이터의 형식이 그은 선을 넘지 못한다는 것입니다. AlphaFold가 더 똑똑해진다고 동영상이 나오지는 않습니다. 데이터에 동영상이 없기 때문입니다. 모델의 천장은 모델 안이 아니라, 그 모델이 무엇을 보고 배웠는지에 미리 정해져 있습니다.
그래서 생명과학의 다음 AI 혁명은 더 큰 모델에서 오지 않을 가능성이 큽니다. 단백질이 움직이는 시간을 데이터로 바꾸는 새로운 측정 방법에서 올 것입니다. 무엇을 측정해 어떤 형식으로 기록하느냐가, 모델이 다음에 무엇을 배울 수 있는지를 결정합니다. 측정의 혁신이 알고리즘의 혁신에 앞섭니다. 데이터가 먼저 있어야 모델이 그다음을 봅니다.
이것은 페블러스가 줄곧 말해 온 AI-Ready Data 원칙이 생명과학에서 다시 확인되는 장면입니다. 데이터가 AI가 학습할 수 있는 형식으로 준비되어 있지 않으면, 모델은 그 경계 밖을 볼 수 없습니다. 단백질의 정지 사진이 한 분야의 천장을 만들었듯, 어떤 분야든 그 천장은 모델의 크기가 아니라 데이터의 형식이 그립니다. 다음 돌파구를 만드는 사람은 더 좋은 알고리즘을 짜는 사람이 아니라, 아직 데이터가 되지 못한 것을 데이터로 만드는 사람입니다.
마무리: AlphaFold는 정지 사진을 완벽에 가깝게 풀었습니다. 동영상은 아직 누구도 찍어 모으지 않았을 뿐입니다. 다음 돌파구는 더 큰 모델이 아니라, 무엇을 측정해 데이터로 만드느냐에 달려 있습니다.
참고문헌
주 출처
- 1.Griffié, J., Volpe, G., Olsson, S., Pereira, J. B. et al. (2026). "Protein Dynamics Beyond Structure Prediction." arXiv preprint. arXiv:2606.08647 — 43인 공동 저자 로드맵; 이 글의 주 출처
관련 학술 논문
- 2.AlQuraishi, M. (2024). "AlphaFold2: Why It Works and Its Implications for Understanding the Relationships of Protein Sequence, Structure, and Function." Briefings in Bioinformatics. — AlphaFold2 동역학 한계 분석
- 3.Zheng, L. et al. (2024). "Advantages and Limitations of AlphaFold in Structural Biology." The Protein Journal. — PDB 훈련 편향 및 AlphaFold 한계 분석
- 4."Advancements in characterization of protein dynamics with machine learning." npj Soft Matter. (2026). — ML과 단백질 동역학 측정 현황