Executive Summary

기업이 운영하는 지식베이스에는 늘 구멍이 뚫려 있다. 항목 하나가 비는 게 아니라 여러 칸이 한꺼번에, 때로는 거의 전부가 비어 있는 사실이 흔하다. KAIST 황지영 교수 연구팀이 ICML 2026에 발표한 KREPE는 이 현실을 정면으로 다룬다. 그동안 지식그래프 완성 연구는 "거의 다 채워진 사실에서 빈칸 하나에 들어갈 후보를 순위로 매기는" 링크 예측에 머물렀다. KREPE는 그 틀을 깨고, 빈칸이 몇 개든 유효한 새 사실을 통째로 만들어 내는 '사실 생성(Fact Generation)'을 새 과제로 정의했다.

가장 눈에 띄는 결과는 완전히 빈 입력에서 새 사실을 지어내는 가장 어려운 설정에서 나왔다. 논문은 KREPE가 GPT-5.2와 Gemini 3 Pro를 활용한 대형 언어모델(LLM) 기준선을 큰 격차로 앞섰다고 보고한다. 텍스트 확률로 사실을 흉내 내는 LLM과 달리, 그래프의 구조와 사실 내부의 문맥을 직접 학습한 모델이 구조화된 지식을 더 정확하고 효율적으로 만들었다는 뜻이다. 게다가 생성을 배웠더니 기존 순위화 과제(특히 관계 예측)에서도 최고 성능을 냈다는 반직관적인 결과까지 따라왔다.

이 글은 KREPE가 무엇을 바꿨는지를 데이터 품질의 눈으로 읽는다. 핵심 메시지는 단순하다. 모델의 능력은 결국 입력 데이터의 구조와 완전성에서 나온다. 구체 성능 수치는 모두 ICML 2026 논문(arXiv:2605.24064) 보고 기준으로, 본문에서 출처와 함께 인용한다.

네 가지 수치가 이 연구의 성취와 그 배경을 압축한다. 빈 입력 생성 정확도와 효율은 KREPE가 무엇을 해냈는지를, Wikidata 결손 규모는 그 일이 왜 필요한지를, 관계 예측 성능은 생성을 배운 모델이 순위화 과제까지 1위로 끌어올렸음을 보여 준다.

0.855

빈 입력 생성 정확도

Scratch·WikiPeople⁻ 유효·신규 사실 비율 (LLM 최대 0.46~0.60)

2.85회

유효 사실 1개당 시도

경쟁군 최대 27.58회 — 약 10배 효율

12.5배

Wikidata 불완전성

inContinent 누락 사실이 현재 사실의 12.5배

전 설정 1위

관계 예측 성능

모든 데이터셋·설정에서 기존 기법 능가

1

구멍은 예외가 아니라 상수다

지식그래프(Knowledge Graph)는 사람의 지식을 컴퓨터가 다룰 수 있게 구조로 적어 둔 것이다. 검색, 추천, 질의응답, 추론 시스템이 모두 이 구조 위에서 돌아간다. 가장 기본 단위는 삼중항(triplet)이다. 예를 들어 "아인슈타인 — 수상 — 노벨물리학상"처럼 (주어, 관계, 목적어) 세 칸으로 하나의 사실을 적는다.

문제는 세상의 사실이 세 칸으로 깔끔하게 떨어지지 않는다는 데 있다. "아인슈타인이 노벨물리학상을 받았다"는 문장만으로는 언제, 무슨 공로로가 빠진다. 그래서 Wikidata나 YAGO 같은 대형 지식베이스는 기본 삼중항에 보조적인 키-값 쌍을 덧붙인다. 이 보조 정보를 한정자(qualifier)라고 부른다. '연도=1921', '공로=광전효과' 같은 한정자를 붙여 복잡한 사실을 표현하는 지식그래프를 초관계형 지식그래프(Hyper-relational Knowledge Graph, HKG)라고 한다.

삼중항 (Triplet) 초관계형 지식그래프 (HKG) 아인슈타인 수상 노벨물리학상 ❓ 언제? 무슨 공로로? → 삼중항만으로는 알 수 없음 아인슈타인 수상 노벨물리학상 연도 = 1921 공로 = 광전효과 발견 ← 한정자(qualifier)
▲ 삼중항(왼쪽)은 '언제·왜'가 빠진다 — 초관계형 지식그래프(오른쪽)는 한정자(qualifier)로 복잡한 사실을 완전하게 표현한다 | 페블러스 원본 도식

1.1 Wikidata조차 절반 넘게 비어 있다

초관계형 구조는 표현력을 높이지만, 동시에 빈칸을 늘린다. 칸이 많아질수록 채워지지 않은 칸도 많아지기 때문이다. 세계 최대 협업형 지식베이스인 Wikidata의 통계가 이 점을 분명히 보여 준다. 아래 표는 특정 속성에서 "현재 채워진 사실"과 "마땅히 있어야 하지만 비어 있는 사실"의 규모를 비교한 것이다.

속성 현재 사실 누락 추정 비율
소속 대륙 (inContinent) 약 7.1만 건 약 88.9만 건 누락이 12.5배
사용 언어 (spokenLanguage) 약 210만 건 약 710만 건 누락이 +174%

수백 명의 편집자가 십수 년간 다듬어 온 Wikidata에서도 어떤 속성은 빠진 사실이 채워진 사실의 열두 배가 넘는다. 한정자의 밀도는 데이터셋마다 더 들쭉날쭉하다. 같은 초관계형 벤치마크라도 WD50K는 전체 사실의 13.6%만 한정자를 갖고, WikiPeople⁻은 2.6% 수준에 머문다. 모집단이 다른 수치이므로 직접 비교할 값은 아니지만, 한 가지는 분명하다. 한정자가 풍부한 환경이든 희박한 환경이든, 구멍은 늘 있다.

데이터 품질을 다루는 사람에게 이 진단은 낯설지 않다. 기업의 마스터데이터, 제품 카탈로그, 고객 그래프는 항상 결손 상태로 운영된다. 결손은 고쳐야 할 예외가 아니라, 안고 가야 할 상수다. KREPE의 출발점이 바로 여기다 — 구멍을 없앨 수 없다면, 구멍을 잘 메우는 법을 다시 설계하자.

2

링크 예측의 한계 — 빈칸 하나로는 부족하다

그동안 초관계형 지식그래프를 채우는 일은 거의 전부 링크 예측(link prediction)이라는 틀로 다뤄졌다. StarE, GRAN, QUAD, Hy-Transformer 같은 대표 모델들이 모두 이 방식을 쓴다. 작동 원리는 이렇다. "거의 완성된 사실에서 엔티티나 관계 하나만 빠져 있다"고 가정하고, 그 빈자리에 들어갈 후보들을 점수로 매겨 가장 그럴듯한 것을 1순위로 올린다. 일종의 객관식 빈칸 채우기다.

이 방식은 잘 정의된 문제다. 빈칸이 하나라는 전제가 있으니, 후보 목록을 두고 순위만 잘 매기면 된다. 실제로 성능도 꾸준히 올라왔다. 한 선행 연구 계보에서 보고된 수치를 보면, 초기 StarE의 MRR(Mean Reciprocal Rank, 정답을 얼마나 앞 순위에 올렸는지 재는 지표)이 0.349였고, 이후 Hy-Transformer가 0.356으로 점진적으로 개선됐다.

그런데 이 모든 진전은 "빈칸은 하나"라는 가정 위에 서 있다. 1절에서 봤듯이 현실의 지식베이스는 그렇지 않다. 신규 엔티티를 등록하는 순간을 떠올려 보자. 새로 들어온 회사, 새로 출시된 제품, 처음 기록되는 인물에 대해서는 채워진 칸이 거의 없다. 빈칸이 하나가 아니라, 거의 전부가 빈칸이다. 이른바 콜드스타트(cold-start) 상황이다.

링크 예측은 이 상황을 다룰 수 없다. 채워진 맥락이 없으면 후보를 순위 매길 근거 자체가 사라지기 때문이다. 빈칸이 두 개, 세 개로 늘어나도 같은 문제가 생긴다. 어느 칸부터 채울지, 한 칸을 채운 결과가 다른 칸에 어떻게 영향을 주는지를 링크 예측의 틀로는 표현하기 어렵다.

링크 예측은 "거의 다 아는 사실의 마지막 한 조각"을 맞히는 데 최적화돼 있다. 하지만 데이터가 가장 부족한 곳, 즉 새 사실이 막 들어오는 자리에서는 바로 그 전제가 무너진다. 정작 가장 도움이 필요한 순간에 쓸 수 없는 도구인 셈이다.

3

사실 생성, 빈칸의 개수는 묻지 않는다

연구팀이 내놓은 해법은 문제의 틀 자체를 바꾸는 것이었다. 빈칸 하나를 순위화하는 대신, "일부 또는 전체 구성 요소가 가려진 초관계형 사실로부터 유효한 새 사실을 만들어 낸다"는 새 과제를 정의했다. 이것이 사실 생성(Fact Generation)이다. 완성(completion)이 주어진 사실을 마저 채우는 일이라면, 생성(generation)은 거의 백지에서 새 사실을 빚어내는 일까지 포함한다.

3.1 세 가지 누락 패턴

사실 생성이 현실의 다양한 결손을 어떻게 끌어안는지는, 연구팀이 평가에 사용한 세 가지 설정에서 잘 드러난다. 아래 표는 각 설정이 어떤 상황에 해당하는지 정리한 것이다.

설정 주어진 정보 현실의 대응 상황
Scratch (처음부터) 아무것도 없음 (완전한 빈 입력) 전혀 기록이 없는 신규 엔티티, 백지 상태의 지식 확장
Targeted (표적형) 구성 요소 1개 단서 하나를 실마리로 나머지를 채우는 일반적 보강
Arbitrary Masking (임의 가림) 임의 개수의 칸이 비어 있음 실제 지식베이스의 들쭉날쭉한 결손 그대로
Scratch 완전 빈 입력 주어 = ? 관계 = ? 목적어 = ? 한정자 = ? ↑ 전부 생성 Targeted 구성 요소 1개 주어짐 주어 = 아인슈타인 ✓ 관계 = ? 목적어 = ? 한정자 = ? ↑ 나머지 3칸 생성 Arbitrary Masking 임의 개수 가려짐 주어 = 아인슈타인 ✓ 관계 = 수상 ✓ 목적어 = ? 연도 = 1921 ✓ ↑ 빈 칸만 생성
▲ KREPE가 처리하는 세 가지 누락 패턴 — 오렌지=주어진 정보, 회색=생성 대상. 링크 예측은 Targeted의 특수 케이스(빈칸 1개)에 해당 | 페블러스 원본 도식

세 설정을 나란히 놓고 보면, 링크 예측은 사실상 Targeted의 특수한 경우(빈칸이 정확히 한 칸)에 해당한다. 사실 생성은 그 한 점을 양 끝으로 넓힌다. 한쪽 끝에는 단서가 전혀 없는 Scratch가, 다른 쪽에는 결손의 개수와 위치가 매번 달라지는 Arbitrary Masking이 있다. 즉 사실 생성은 링크 예측을 버리는 것이 아니라, 그것을 품으면서 더 넓은 현실을 덮는다.

"완성"에서 "생성"으로의 전환은 점진적 개선이 아니라 문제 틀의 확장이다. 채워야 할 빈칸이 하나라고 가정하지 않으면, 모델은 결손의 개수와 상관없이 일관된 방식으로 작동해야 한다. 이 요구가 KREPE의 설계 전체를 끌고 간다.

4

KREPE는 어떻게 작동하나

KREPE라는 이름은 'Contextual HKG REPresentation learning via masked discretE diffusion'의 머리글자다. 우리말로 풀면 "마스크드 이산 확산을 이용한, 문맥 기반 초관계형 지식그래프 표현 학습"이다. 이름 안에는 세 가지 핵심 장치가 들어 있다. 가렸다가 복원하는 마스크드 이산 확산, 두 층위의 맥락을 끌어오는 문맥 메시지 전달, 그리고 온갖 결손을 미리 겪게 하는 bi-level noising이다.

KREPE 세 가지 핵심 장치 입력 KG 구조 + 마스크된 쿼리 (빈칸 개수 무관) bi-level noising KG 구조 노이즈 + 쿼리 마스크 동시 변화 → 다양한 불완전성 학습 ← 학습 단계 핵심 (Scratch·Targeted·AM 통합) 문맥 메시지 전달 ① 사실 내부 주어·관계·한정자 상호 제약 ② 그래프 전체 사실 간 상관관계 반영 ← 단서가 적어도 작동 마스크드 이산 확산 확률분포 추정 → 빈칸 복원·생성 ← 이산 토큰 전용 세 장치가 하나의 프레임워크 — 링크 예측과 사실 생성을 단일 학습 목표로 통합
▲ KREPE 핵심 구조: bi-level noising(학습 다양화) → 문맥 메시지 전달(맥락 반영) → 마스크드 이산 확산(복원) | 페블러스 원본 도식

4.1 마스크드 이산 확산 — 가렸다가 복원하기

확산 모델(diffusion model)은 요즘 이미지 생성에서 널리 쓰이는 방식이다. 원본 데이터에 점점 노이즈를 더해 망가뜨린 뒤, 그 과정을 거꾸로 되돌리며 원본을 복원하는 법을 배운다. 그런데 이미지의 픽셀은 연속된 값인 반면, 지식그래프의 엔티티와 관계는 ID로 표현되는 이산(discrete) 토큰이다. '아인슈타인'과 '노벨물리학상' 사이에 중간값이란 없다.

그래서 KREPE는 연속 공간의 확산이 아니라 이산 토큰에 맞는 마스크드 이산 확산(masked discrete diffusion)을 쓴다. 노이즈를 더하는 대신 토큰을 가리고(mask), 그 가려진 자리에 어떤 엔티티·관계가 들어갈지의 확률분포를 점진적으로 복원한다. 빈칸이 하나든 여럿이든 "가렸다가 복원한다"는 동작은 똑같으므로, 링크 예측과 사실 생성을 같은 메커니즘으로 처리할 수 있다.

4.2 문맥 메시지 전달 — 두 층위의 맥락을 함께 본다

가려진 칸을 잘 복원하려면 맥락이 필요하다. KREPE는 두 층위의 맥락을 동시에 끌어온다. 첫째는 하나의 사실 내부의 맥락이다. 한 사실 안에서 주어·관계·목적어·한정자는 서로를 제약한다. 수상 연도가 1921년이라면 들어갈 상의 후보가 좁혀지는 식이다. 둘째는 그래프 전체의 맥락이다. 비슷한 사실들이 그래프 어딘가에 이미 존재하므로, 그 패턴이 빈칸의 후보를 좁혀 준다.

이 두 맥락을 함께 반영하는 장치가 문맥 메시지 전달(contextual message passing)이다. 사실 내부의 의존성과 그래프 전체의 상관관계를 한 번에 모델에 흘려보냄으로써, 단서가 적은 상황에서도 그럴듯한 후보를 추려 낸다.

4.3 bi-level noising — 다양한 불완전성을 미리 겪게 한다

학습 과정에서 KREPE는 지식그래프의 일부 사실을 관측 집합으로 삼고, 나머지 사실은 임의로 가려서 생성 대상으로 쓴다. 여기에 더해, 관측되는 그래프 구조와 쿼리 내부의 마스크 패턴을 동시에 흔드는 bi-level noising(이중 수준 노이즈) 전략을 도입했다. 그래프를 얼마나 많이 보여 줄지, 쿼리에서 몇 칸을 가릴지를 두 축에서 함께 변화시키는 것이다.

덕분에 모델은 학습 중에 "조금 빈" 상황부터 "거의 다 빈" 상황까지 온갖 수준의 불완전성을 미리 겪는다. 그 결과 추론 단계에서 부분적으로 관측된 사실을 완성하는 일과, 완전히 빈 입력에서 새 사실을 생성하는 일을 하나의 프레임워크로 처리할 수 있다. 3절에서 본 Scratch·Targeted·Arbitrary Masking이 따로 학습한 별개 모델이 아니라, 한 모델의 서로 다른 입력 조건일 뿐인 이유가 여기에 있다.

세 장치는 하나의 목표로 묶인다 — 결손의 모양에 흔들리지 않는 모델. 이산 확산이 "가렸다가 복원"이라는 통일된 동작을 주고, 문맥 메시지 전달이 단서가 적어도 기댈 맥락을 주며, bi-level noising이 온갖 결손을 미리 연습시킨다. 링크 예측과 사실 생성을 한 학습 목표 안에서 통합한 것이 KREPE 설계의 핵심이다.

5

실험 결과 — 순위화도 1위, 생성은 LLM을 넘었다

연구팀은 WD50K, WikiPeople⁻, WikiPeople이라는 세 가지 표준 초관계형 지식그래프 벤치마크에서 KREPE를 평가했다. 아래 수치는 모두 ICML 2026 논문(arXiv:2605.24064)이 보고한 값으로, 여기서는 단정하기보다 논문이 보고한 대로 인용한다.

5.1 생성을 배웠더니 순위화도 좋아졌다

첫 번째 결과는 반직관적이다. KREPE는 생성을 목표로 학습했는데도, 기존 링크 예측 과제에서 최신 기법과 동등하거나 더 높은 성능을 냈다. 특히 관계 예측에서는 모든 데이터셋과 설정에서 기존 방법들을 능가하며 1위를 기록했다고 논문은 보고한다. 관계 예측 MRR은 WD50K에서 0.963(차선 기법 0.950 대비 소폭 우위), WikiPeople⁻에서 0.984 수준으로 보고됐다.

이는 통념을 뒤집는다. 그동안 생성형 학습 목표와 판별형(순위화) 성능은 서로 다른 트레이드오프에 있다고 여겨졌다. KREPE의 결과는 가려진 구성 요소의 확률분포를 제대로 추정하도록 배우면, "빈칸 하나 순위화"가 그 능력의 부분집합으로 따라온다는 점을 보여 준다.

5.2 빈 입력에서 프런티어 LLM을 넘다

두 번째 결과가 이 연구의 백미다. 완전히 빈 입력에서 새 사실을 만드는 가장 어려운 Scratch 설정에서, KREPE는 GPT-5.2와 Gemini 3 Pro를 활용한 여러 LLM 기준선을 큰 격차로 앞섰다. 아래 표는 WikiPeople⁻ Scratch 설정에서 논문이 보고한 핵심 수치다.

유효·신규 사실 생성 비율 — WikiPeople⁻ Scratch 설정 (논문 보고값) 0 0.25 0.50 0.75 1.00 KREPE 0.855 Gemini 3 Pro 0.604 GPT-5.2 0.463 출처: ICML 2026 논문 arXiv:2605.24064
▲ KREPE(0.855) vs 프런티어 LLM — GPT-5.2 최대 0.463, Gemini 3 Pro 최대 0.604. 구조를 직접 학습한 모델이 텍스트 확률 기반 LLM을 앞선다 | 페블러스 원본 도식 (논문 보고값)
지표 KREPE LLM 기준선
유효·신규 사실 생성 비율 0.855 GPT-5.2 최대 0.463 / Gemini 3 Pro 최대 0.604
인간 평가 점수 0.83 경쟁군 0.11 ~ 0.38
유효 사실 1개당 시도 횟수 2.85회 경쟁군 최대 27.58회

숫자가 말하는 바는 정확도와 효율 두 가지다. KREPE는 더 자주 유효하고 새로운 사실을 만들었고(0.855 대 0.46~0.60), 그러면서 유효한 사실 하나를 얻기까지의 헛수고도 훨씬 적었다(2.85회 대 최대 27.58회, 약 10배 효율). LLM이 더 똑똑하지 않다는 뜻은 아니다. 일반 텍스트 확률로 사실을 흉내 내는 방식이, 그래프 구조와 사실 내부 문맥을 직접 학습한 방식보다 이 특정 과제에서 불리했다는 뜻이다.

세 가지 누락 패턴(Scratch·Targeted·Arbitrary Masking) 모두에서 KREPE는 일관되게 우수했다고 논문은 보고한다. 특히 한정자가 희박한 WikiPeople⁻의 Scratch 설정에서 유효·신규 사실 비율이 가장 높고, 유효한 사실 하나를 만드는 데 필요한 시도 횟수도 가장 낮았다.

두 결과를 한 문장으로 묶으면 이렇다. 생성을 제대로 배운 모델은 순위화도 잘하고, 구조를 직접 배운 모델은 텍스트만 외운 모델보다 구조화된 지식을 더 정확하고 효율적으로 만든다. 단, 모든 수치는 단일 논문의 보고값이며, 공개 코드와 대규모 산업 지식그래프로의 재현은 앞으로 확인할 과제다.

6

의미와 페블러스의 자리 — 구조를 배운 AI vs 텍스트를 외운 AI

KREPE의 기여는 초관계형 지식그래프 완성을 후보 순위화 문제에서 생성형 추론 문제로 넓혔다는 데 있다. 이 확장은 곧바로 실무의 활용처로 이어진다. 지식베이스 자동 확장, 지식그래프 기반 질의응답, 정보 검색, 추천, 과학 지식 발견, 엔터프라이즈 지식 관리가 모두 후보다. 공통점은 하나다 — 정보가 거의 없는 자리에 근거 있는 새 사실을 채워야 한다는 것.

6.1 확산 × 지식그래프라는 연구 물결 속에서

KREPE는 갑자기 솟은 단발 연구가 아니다. 2024년 전후로 확산 모델을 지식그래프에 적용하는 흐름이 형성됐다. KGDM(AAAI 2024), DiffKG(WSDM 2024 Oral) 등이 그 예다. 다만 이들은 대부분 연속 공간 확산을 쓰거나 추천·완성을 보조하는 데 초점을 뒀다. KREPE의 차별점은 이산 토큰에 맞춘 마스크드 이산 확산을 도입하고, 완성을 넘어 생성으로 과제 자체를 다시 정의했다는 점이다. 흐름 속의 변곡점으로 자리매김할 만하다.

6.2 지식그래프 수요는 RAG와 함께 커진다

왜 지금 이 연구가 기업에 중요한가. 지식그래프 시장은 대략 19억 달러(2026년 추정)에서 89억 달러(2032년 추정) 규모로, 연 20~29% 안팎의 성장이 전망된다. 기관과 집계 범위에 따라 편차가 크므로 단일 수치로 단정하기는 어렵지만, 방향은 한결같다. Gartner는 일찍이 2025년까지 데이터·분석 혁신의 80%가 그래프 기술을 활용할 것으로 내다봤다. 여기에 검색증강생성(RAG)과 GraphRAG의 부상이 겹치면서 "정확한 구조화 지식"의 수요가 빠르게 커지고 있다. 환각 없이 새 사실을 채우는 KREPE류 접근의 실용 가치가 올라가는 배경이다.

6.3 데이터 품질의 눈으로 다시 읽기

이 글을 데이터 품질의 관점에서 정리하면 교훈은 두 가지다. 첫째, 결손은 상수다. 가장 잘 관리된 지식베이스에도 구멍은 늘 있고, 하나가 아니라 여러 개다. 따라서 "빈칸이 하나라는 가정"에 기댄 도구는 정작 데이터가 가장 부족한 자리에서 무력하다. 둘째, 모델의 능력은 데이터의 구조에서 나온다. 같은 사실 생성 과제에서 텍스트 확률을 외운 LLM보다 구조와 문맥을 직접 학습한 모델이 더 정확하고 효율적이었다는 결과가 이를 뒷받침한다.

두 교훈은 데이터를 모델이 쓸 수 있는 형태 — 구조화되고, 정합적이며, 가능한 한 완전한 형태 — 로 다듬는 일이 곧 성능이라는 명제로 모인다. 결손을 후보 순위화로 메울지 생성으로 확장할지는 이제 지식그래프를 운영하는 팀이 마주할 실질적 선택지다. RAG로 환각을 줄이듯, 구조화된 사실 생성은 "근거 있는 새 사실 채움"의 또 다른 축이 될 수 있다.

✏️ Editor's Note — 페블러스의 시선

"구조화된 데이터가 범용 모델을 이긴다"는 명제는 페블러스가 AI-Ready Data와 DataClinic을 통해 다뤄 온 문제의식과 맞닿습니다. KREPE의 출발점인 "지식베이스엔 늘 구멍이 있다"는 진단, 그리고 구조를 직접 학습한 모델이 프런티어 LLM을 넘었다는 결과는, 우리가 강조해 온 방향과 학계·산업의 흐름이 같은 곳을 향하고 있음을 보여 주는 외부 관찰로 읽었습니다. 자랑이 아니라 정렬(alignment)의 신호로 받아들입니다.

R

참고문헌

학술 논문

시장·통계

생태계

  • 13.migalkin/StarE — 초관계형 지식그래프 메시지 전달 구현.