의료 AI는 환자 한 명을 거의 정확히 기억하고 있었다

(주)페블러스 데이터 커뮤니케이션팀

Executive Summary

의료 AI의 프라이버시는 그동안 한 가지 숫자로 안심해 왔습니다. 데이터셋 전체를 놓고 "이 모델에서 환자 정보가 새어 나가는가"를 평균 내면, 그 값이 무작위 추측과 별 차이가 없었기 때문입니다. 2026년 6월 24일 Nature에 실린 뮌헨공대(TUM) 연구진의 논문은 바로 그 평균이 거짓말을 한다는 것을 보였습니다. 7개의 실제 임상 데이터셋을 환자 한 명 단위로 감사했더니, 집단 평균은 여전히 무작위 수준인데 특정 환자는 거의 완벽하게 식별됐습니다.

공격의 이름은 멤버십 추론 공격(Membership Inference Attack, MIA)입니다. "이 사람의 기록이 학습에 쓰였는가"를 맞히는 공격이죠. 핵심은 누가 취약한가에 있습니다. 희귀 질환을 앓거나 비전형적인 임상 양상을 보이는 환자, 그리고 인종·성별·보험 같은 축에서 과소대표된 환자일수록 더 또렷하게 들켰습니다. 고유성이 곧 신호가 되기 때문입니다. 더 불편한 사실은 모델이 커질수록 이런 고위험 환자의 수가 늘어난다는 점입니다.

이 글은 평균이 왜 개인의 위험을 가리는지를 직관으로 풀고, "학습에 포함됐다"는 한 비트가 어떻게 민감한 의료 정보가 되는지, 그리고 차분 프라이버시 같은 표준 방어가 왜 만능이 아닌지를 짚습니다. 결론에서 데이터에 권리·동의·출처를 기록하는 일이 윤리 구호가 아니라 측정 가능한 공격면 관리라는 점으로 이어집니다.

주요 수치

출처: Nature (Knolle et al., 2026), Inside Precision Medicine

네 숫자가 이 발견의 무게를 한눈에 보여 줍니다. 같은 모델, 같은 데이터인데 집단 평균과 개인의 값이 정반대로 갈립니다. 연구가 환자 한 명 단위까지 내려가 위험을 측정한 규모, 그리고 모델이 똑똑해질수록 위험이 줄기는커녕 늘어난다는 반직관적 결과까지 들어 있습니다.

~50%

집단 평균 공격 성공률

데이터셋 전체로는 동전 던지기와 거의 같다 — 그래서 안전해 보였다

near-perfect

특정 환자 식별률

그러나 한 명만 떼어 보면 거의 완벽하게 학습 포함 여부가 드러난다

1인 단위

patient-level 감사

집단 평균이 아니라 환자 한 명 단위로 위험을 측정 — 의료 AI 최초급

용량 ↑ → 위험 ↑

큰 모델일수록

모델이 커질수록 고위험 환자의 절대 수가 오히려 늘어난다

1

평균은 안전하다고 말했다, 한 사람을 떼어 보기 전까지는

의료 AI 개발자에게 "우리 모델이 환자 정보를 새게 하는가"는 추상적인 윤리 질문이 아니라 실무 점검 항목입니다. 그동안 그 점검은 보통 한 줄로 끝났습니다. 데이터셋 전체를 대상으로 공격 성공률을 측정해 평균을 내고, 그 값이 무작위 추측(약 50%)에 가까우면 "안전하다"고 적었습니다. 평균이 낮으니 위험도 낮다는 논리입니다.

뮌헨공대 모리츠 크놀레(Moritz Knolle) 연구진은 2026년 6월 Nature에 실린 논문에서 이 점검 방식을 정면으로 흔들었습니다. 연구진은 의료 영상, 심전도(ECG), 전자건강기록(EHR)을 포함한 7개의 대규모 실제 임상 데이터셋을 모았습니다. 그리고 데이터셋마다 약 200개 버전의 AI 모델을 학습시킨 뒤, 집단 평균이 아니라 모든 개별 환자 단위로 공격 성공률을 측정했습니다. 평균 한 숫자 뒤에 가려진 분포를 환자 한 명 한 명까지 펼쳐 본 것입니다.

결과는 둘로 갈렸습니다. 데이터셋 전체 평균은 예전처럼 무작위 수준에 머물렀습니다. 그런데 그 평균 안에는 거의 완벽하게 식별되는 환자들이 숨어 있었습니다. 다수의 평범한 기록이 낮은 위험을 보이며 평균을 끌어내리는 사이, 소수의 극단적으로 취약한 환자가 그 평균에 묻혀 사라졌던 것입니다. 저자들의 표현을 빌리면, 집단 프라이버시 지표는 개인의 프라이버시 위험을 심각하게 과소평가할 수 있습니다.

▲ 환자별 MIA 성공률 분포 — 집단 평균은 무작위 수준이지만 꼬리에는 거의 완벽하게 식별되는 취약 환자가 숨어 있다 | 페블러스 원본 도식 (Fig. 1 재해석, Knolle et al., Nature 2026)

핵심: 평균이 안전하다는 말은 "대부분의 환자가 안전하다"는 뜻이지, "모든 환자가 안전하다"는 뜻이 아닙니다. 프라이버시 위험은 평균값이 아니라 분포의 꼬리에 살고, 의료 데이터에서 그 꼬리에 놓이는 사람은 대개 가장 보호가 필요한 환자입니다.

2

멤버십 추론 공격: 모델에 묻기만 해도 학습 여부가 새어 나온다

이 논문이 쓴 공격의 정식 이름은 멤버십 추론 공격(Membership Inference Attack, MIA)입니다. 묻는 것은 단 하나입니다. "이 사람의 기록이 모델 학습에 쓰였는가, 아닌가." 답은 들어갔다/안 들어갔다 둘 중 하나, 단 한 비트입니다. 학술적으로는 가능도비 공격(LiRA, Likelihood Ratio Attack) 계열이 표준인데, 공격자가 여러 개의 그림자 모델(shadow model)을 따로 학습시켜, 어떤 기록이 학습에 포함됐을 때와 아닐 때 모델의 출력이 어떻게 달라지는지를 비교하는 방식입니다.

여기서 짚어야 할 점은 공격자가 환자의 기록 자체를 손에 넣을 필요가 없다는 것입니다. 모델에 질의해 그 반응만 관찰하면 됩니다. 어떤 기록이 학습에 들어갔을 때 모델 출력이 어떻게 달라지는지를 그림자 모델로 미리 익혀 두면, 정작 공격 대상 모델에서는 출력 패턴만 보고 포함 여부를 가려낼 수 있습니다. 원본 데이터가 암호화돼 있거나 접근이 차단돼 있어도, 학습을 마친 모델 자체가 흔적을 흘리는 통로가 됩니다. 익명화와 접근 통제로 데이터를 지켰다는 안심이 모델 앞에서 무력해지는 이유입니다.

▲ LiRA 공격 절차 — 공격자는 환자 기록 없이 모델 질의 출력만으로 학습 포함 여부를 판정한다 | 페블러스 원본 도식 (Fig. 2 재해석, Knolle et al., Nature 2026)

2.1한 비트가 왜 민감정보가 되는가

"학습에 포함됐다"는 한 비트가 무슨 대수냐고 물을 수 있습니다. 일반 인구를 대상으로 한 모델이라면 실제로 별 의미가 없습니다. 거의 모든 사람이 어딘가의 데이터셋에 들어가 있을 테니까요. 위험은 모델이 다루는 집단이 좁아질 때 생깁니다.

좁은 질환별·기관별 코호트로 학습한 모델을 생각해 봅시다. 예컨대 HIV 양성 환자 코호트로 만든 모델, 특정 희귀암 환자만 모은 모델, 한 정신과 병원의 기록으로 학습한 모델입니다. 이런 모델에서 "내 기록이 학습에 포함됐다"는 사실이 확인되는 순간, 그것은 곧 "나는 HIV 양성이다", "나는 그 희귀암 환자다", "나는 그 병원에서 치료받았다"는 정보의 직접적인 대리값이 됩니다. 멤버십이라는 한 비트가 진단명이라는 가장 민감한 정보로 번역되는 것입니다.

왜 중요한가: 멤버십 추론의 위험은 모델 종류가 아니라 배포 맥락에서 결정됩니다. 같은 공격이라도 일반 인구 모델에서는 무해할 수 있지만, 좁은 코호트 모델에서는 멤버십 한 비트가 그대로 진단 정보가 됩니다. 그래서 저자들은 "이 모델이 안전한가"를 일률적으로 묻지 말고, 모델과 배포 맥락별로 공격자가 실제로 얻어 갈 수 있는 정보가 무엇인지를 평가하라고 권고합니다.

3

평균이 거짓말하는 이유: 고유성이 신호가 된다

그렇다면 왜 어떤 환자는 거의 완벽하게 들키고, 어떤 환자는 무작위 수준으로 안전할까요. 답은 한 단어로 요약됩니다. 고유성입니다. 모델은 학습 데이터를 일반화하는 동시에, 분포에서 멀리 떨어진 비전형적인 사례일수록 그 흔적을 출력에 더 또렷이 남깁니다. 흔한 기록은 다른 비슷한 기록들 사이에 묻혀 "학습에 있었는지" 구분되지 않지만, 유일한 기록은 모델의 반응 자체가 달라지기 때문에 들통이 납니다.

논문은 여기에 한 가지 의료 데이터 특유의 조건을 더합니다. 한 환자가 비슷한 기록을 여러 건 남기는 경우입니다. 같은 사람의 반복 촬영, 추적 검사, 연속된 심전도가 데이터셋에 쌓이면, 그 환자의 패턴은 더욱 도드라지고 모델은 그를 더 강하게 기억합니다. 분포의 끝에 있을수록, 그리고 같은 사람의 흔적이 겹칠수록, 가능도비 공격이 학습 안과 밖을 가르는 경계는 또렷해집니다.

3.1불균등한 위험 — 가장 취약한 사람이 가장 노출된다

그래서 논문의 제목에 "불균등한(disparate)"이라는 단어가 들어갑니다. 가장 잘 식별되는 환자는 희귀 질환자, 비전형적 임상 양상을 가진 환자, 그리고 질환·인종·보험·성별·영상 프로토콜 같은 축에서 과소대표된 하위집단입니다. 데이터에서 수가 적다는 바로 그 이유로 고유성이 커지고, 고유성이 커지는 만큼 노출 위험이 높아집니다. 프라이버시 위험이 이미 사회적으로 취약한 집단에 더 무겁게 얹히는 구조입니다.

가장 반직관적인 결과는 모델 용량에 관한 것입니다. 모델의 파라미터와 표현력이 커지면 진단 성능은 좋아지지만, 동시에 고위험 환자의 절대 수도 상당히 늘어납니다. 더 똑똑한 모델일수록 개인을 더 잘 외운다는 뜻입니다. 성능을 끌어올리는 바로 그 선택이 프라이버시 공격면을 함께 넓힌다는 점에서, "큰 모델 = 좋은 모델"이라는 통념은 의료 맥락에서 다시 따져봐야 합니다.

▲ (좌) 환자 유형별 MIA 취약성 — 희귀·과소대표 환자일수록 뚜렷이 식별됨. (우) 모델 용량이 커질수록 고위험 환자의 절대 수가 늘어나는 반직관적 결과 | 페블러스 원본 도식 (Fig. 3 재해석, Knolle et al., Nature 2026)

직관: 프라이버시 공격은 평범함이 아니라 고유함을 먹고 자랍니다. 그래서 데이터에서 가장 드물고, 가장 비전형적이고, 가장 과소대표된 사람이 가장 잘 식별됩니다. 평균이라는 렌즈는 정확히 이들을 보이지 않게 만듭니다.

4

차분 프라이버시로 막으면 되지 않나

이쯤에서 자연스러운 반문이 나옵니다. 차분 프라이버시(Differential Privacy), 특히 DP-SGD로 학습하면 되지 않나. 맞는 말입니다. DP-SGD는 학습 과정에 잡음을 더해 어떤 한 기록이 모델에 미치는 영향을 수학적으로 제한하고, 가능도비 공격을 무작위 수준까지 떨어뜨리는 강력한 방어입니다. 문제는 그 방어가 모든 레코드를 똑같이 취급한다는 데 있습니다.

앞 절에서 본 것처럼 위험은 환자마다 다릅니다. 평범한 환자에게는 무작위 수준의 낮은 위험이, 희귀 환자에게는 거의 완벽에 가까운 높은 위험이 걸려 있습니다. 그런데 DP-SGD가 거는 보호는 일률적입니다. 평범한 환자에게는 필요 이상으로 강하게 작용해 진단 정확도를 깎고, 정작 보호가 가장 절실한 희귀 환자에게는 충분치 않을 수 있습니다. 평균을 보는 방어가 개인의 불균등한 위험과 어긋나는 지점입니다.

▲ DP-SGD의 일률적 보호와 개인별 불균등 위험의 미스매치 — 희귀 환자는 보호가 부족하고, 전형 환자는 과보호로 진단 정확도가 깎인다 | 페블러스 원본 도식 (Fig. 4 재해석, Knolle et al., Nature 2026)

게다가 강한 차분 프라이버시(작은 ε)는 진단 성능을 떨어뜨립니다. 의료 AI는 정확도 손실에 특히 민감하기 때문에 "그냥 잡음을 더 넣자"가 답이 되지 못합니다. 그래서 저자들은 일률적 방어 대신 맥락별 위험 평가를 먼저 하라고 권합니다. 모델과 배포 환경에서 공격자가 실제로 얻을 수 있는 민감정보가 무엇인지 따지고, 위험이 큰 모델은 검증 가능한 위험 완화 전략과 엄격한 접근 통제로 보호하라는 것입니다.

한 줄 요약: 차분 프라이버시는 강력하지만 만능이 아닙니다. 위험이 개인마다 다른데 보호는 일률적이라면, 누군가에게는 과하고 누군가에게는 부족합니다. 의료 AI에서는 "얼마나 보호하느냐"보다 "누가 얼마나 위험한지"를 먼저 측정하는 일이 앞섭니다.

5

'내 데이터가 이 모델을 학습시켰나'가 통계로 답해진다

이 논문이 데이터를 다루는 쪽에 던지는 메시지는 분명합니다. "내 데이터가 이 모델을 학습시켰나"라는 질문이 더 이상 추상적인 걱정이 아니라, 통계로 답할 수 있는 측정 가능한 사실이 됐다는 것입니다. 프라이버시 위험은 윤리 토론의 영역에서 공격 성공률이라는 숫자의 영역으로 넘어왔습니다. 그리고 그 숫자는 데이터셋 평균이 아니라 환자 한 명 단위로 계산됩니다.

이 지점에서 데이터의 권리·동의·출처(provenance) 기록이 윤리 구호가 아니라 리스크 관리의 전제가 됩니다. 어떤 환자의 데이터가, 어떤 동의 범위에서, 어떤 경로로 학습에 들어갔는지를 추적하고 증명할 수 없다면, 그 모델이 누구를 얼마나 노출시키고 있는지조차 가늠할 수 없습니다. 멤버십 추론 공격은 바로 그 추적 불가능성을 파고듭니다. 반대로 데이터의 계보가 또렷한 조직만이, 위험이 큰 코호트를 식별해 접근을 통제하고 완화 전략을 검증할 출발선을 갖습니다.

페블러스가 데이터에 권리·동의·출처를 새기는 일을 강조해 온 이유도 여기에 닿아 있습니다. AI-Ready Data는 단지 깨끗하게 정제된 데이터가 아니라, 누구의 무엇이 어떤 약속 아래 들어왔는지를 설명할 수 있는 데이터입니다. 이 논문은 그 설명 능력의 부재가 추상적 결함이 아니라, 환자 한 명 단위로 측정되는 공격면이라는 것을 보였습니다. 데이터 거버넌스와 인접한 주제는 페블러스의 다른 글에서도 이어집니다 — 의료 AI의 데이터 해자, 알츠하이머 디지털 트윈, 합성 데이터의 품질 기여.

마무리: 평균은 "대부분 안전하다"고 말하지만, 프라이버시는 평균이 아니라 가장 취약한 한 사람의 위험으로 평가돼야 합니다. 데이터에 권리·동의·출처를 기록하는 일은, 그 한 사람을 식별하고 보호하기 위한 가장 기본적인 인프라입니다.

R

참고문헌

학술

1.Knolle, M., Menten, M. J., Jungmann, F., et al. (2026). "Disparate privacy risks from medical AI." Nature. — 7개 임상 데이터셋·데이터셋당 ~200개 모델로 환자 단위 멤버십 추론 위험을 측정한 본 논문(1차 자료).
2.Kulynych, B., Yaghini, M., Cherubin, G., et al. (2022). "Disparate Vulnerability to Membership Inference Attacks." Proceedings on Privacy Enhancing Technologies (PoPETs). — 개인·하위집단마다 MIA 취약성이 다르다는 개념의 이론적 토대.
3.Cherubin, G., Köpf, B., Paverd, A., et al. (2024). "Closed-Form Bounds for DP-SGD against Record-level Inference Attacks." USENIX Security Symposium. — DP-SGD의 형식 보증을 레코드 단위 공격 성공률로 연결한 분석.

업계·보도

4.Inside Precision Medicine. (2026). "Medical AI Model Privacy Risks." Inside Precision Medicine. — Nature 논문 해설 보도. 핵심 수치와 저자 코멘트 요약.