AI 준비도를 이제 AI가 채점한다

Pebblous Data Communication Team

Executive Summary

페블러스가 오래 말해 온 'AI-Ready Data'는 지금까지 필요성을 설파하는 개념에 가까웠다. 무엇이 얼마나 준비됐는지는 대개 사람이 체크리스트를 들고 사후에 판단했다. 2026년 4월 공개된 한 연구는 그 판단의 자리를 통째로 옮긴다. 준비도를 매기는 주체가 사람에서 멀티에이전트 시스템으로, 대상이 학습을 끝낸 모델에서 학습에 들어갈 데이터셋으로, 시점이 사후에서 데이터가 파이프라인에 들어오기 전으로 바뀌었다. 준비도가 처음으로 정량 채점이 가능한 대상이 됐다.

채점의 축은 Sci-TQA²라는 4차원 루브릭이다. 거버넌스 신뢰성, 데이터 품질, AI 호환성, 과학 적응성. 시스템은 천문부터 사회경제까지 6개 분야 약 80개의 이종 데이터셋을 읽고, 데이터셋마다 필요한 분석 도구를 스스로 만들어 점수를 낸다. 전체 평가 성공률은 89.0%였고, 인간 전문가는 이 채점의 정확도에 5점 만점에 4.15점을 줬다. 겉으로는 든든한 숫자다.

그런데 채점을 에이전트가 하는 순간, 신뢰의 질문은 데이터에서 채점표로 한 층 올라간다. 인간과 시스템의 일치도는 ICC 0.742였다. '양호'로 부를 수 있는 문턱(0.75)에 0.008 못 미치는, 쓸 만하지만 완전히 믿기는 이른 자리다. 게다가 채점 결과를 스스로 되짚는 검증 루프를 떼면 성공률이 89.0%에서 33.0%로 무너졌다. 이 글은 준비도가 채점 대상이 된 이 전환을 해부하고, 그래서 채점표의 신뢰를 누가 보증하느냐는 다음 질문을 던진다.

89.0%

평가 성공률

에이전트가 실제로 점수를 산출한 비율

97.4%

도구 자동 생성 성공률

이종 데이터셋별 분석 도구를 스스로 제작 (평균 1.19회 시도)

ICC 0.742

인간-시스템 일치도

'양호' 문턱 0.75에 0.008 미달 — 채점표 신뢰의 상한선

89→33%

검증 루프 제거 시

Self-Correction을 떼면 성공률이 3분의 1로 붕괴

1

준비도, 구호에서 채점 대상으로

데이터 팀이라면 한 번쯤 받아 본 질문이 있다. "우리 데이터, AI에 쓸 수 있는 상태 맞나요?" 지금까지 이 질문에 답하는 방식은 대체로 정해져 있었다. 경험 많은 담당자가 체크리스트를 펼치고, 결측치와 라벨 오류를 훑고, 대략 '쓸 만하다' 혹은 '더 손봐야 한다'로 판정한다. 판정은 사람의 눈과 감에 기댔고, 대부분 데이터를 이미 상당히 만진 뒤에 이뤄졌다.

페블러스가 블로그에서 여러 번 다룬 주제가 정확히 이 지점이었다. '데이터 청소는 AI-레디의 시작일 뿐'이라고 했고, '모델은 준비됐다, 당신의 테이블은?'이라고 물었다. 준비의 필요성은 충분히 이야기했다. 다만 준비도를 누가, 무슨 기준으로 매기는가는 비워 뒀다. SciHorizon-DataEVA라는 이름의 이 연구(arXiv:2604.26645)가 바로 그 빈칸을 채운다.

1.1 세 가지가 한꺼번에 옮겨졌다

이 연구가 흥미로운 이유는 하나가 아니라 셋을 동시에 바꾸기 때문이다. 준비도 판정에서 주체, 대상, 시점이 함께 이동했다.

축	기존 방식	이 연구의 방식
주체 — 누가 매기나	사람이 체크리스트로	멀티에이전트 시스템이 루브릭으로
대상 — 무엇을 매기나	학습을 끝낸 모델의 성능	학습에 들어갈 데이터셋 자체
시점 — 언제 매기나	사후 진단	데이터 인제스션 전 게이트

시점의 이동이 특히 실무적으로 크다. 모델을 다 학습시킨 다음 "데이터가 문제였네"를 알게 되는 것과, 데이터가 파이프라인에 들어오기 전에 걸러 내는 것은 비용의 차원이 다르다. 준비도 채점이 상류로 올라가면, 나쁜 데이터가 만드는 손실을 학습 이전에 차단할 수 있다.

그림 1. 준비도 채점 타이밍 비교. 기존 사후 진단 방식(위)과 SciHorizon-DataEVA의 인제스션 전 AI 채점(아래). 페블러스 원본 도식.

1.2 문제의 크기는 이미 실증돼 있다

준비도를 자동으로 매기는 일이 왜 절박한지는 숫자가 말해 준다. Gartner 조사(2025)에서 조직의 57%가 자사 데이터를 'AI에 준비되지 않은 상태'로 자평했고, 별도 조사(Gartner, 2024년 3분기, 데이터 관리 리더 248명)에서는 63%가 AI를 위한 데이터 관리 체계를 아직 갖추지 못했다고 답했다. 데이터 과학자의 시간 가운데 데이터를 준비하는 데 쓰이는 비중은 조사에 따라 45%에서 80%까지 잡힌다. Gartner는 2026년까지 AI-ready 데이터를 갖추지 못한 프로젝트의 상당수가 중도에 포기될 것으로 내다봤다.

데이터 문제는 AI 프로젝트가 실패하는 첫손에 꼽히는 원인이기도 하다. 조사마다 측정 기준이 달라 실패율은 대략 70%에서 85% 사이를 오간다.^* 어느 숫자를 택하든 방향은 하나로 모인다. 모델이 아니라 데이터가 발목을 잡는다는 것이다. 준비도 자동 채점은 이 병목을 상류에서 거르려는 시도로 읽힌다.

^* Gartner는 데이터 품질을 원인으로 한 실패를 85%로, RAND(2024, 65개 사례 메타분석)는 전체 프로젝트 폐기를 80%로, McKinsey는 목표 미달을 70%로 집계한다. 세 수치는 '실패'의 정의가 서로 달라 단순 비교 대상이 아니다.

2

Sci-TQA² 루브릭 해부

채점을 하려면 채점표가 있어야 한다. 이 시스템의 채점표가 Sci-TQA²다. 이름은 네 축의 머리글자를 딴 것으로, 데이터 준비도를 거버넌스 신뢰성(T), 데이터 품질(Q), AI 호환성(Ac), 과학 적응성(As) 네 차원으로 나눠 본다. 각 차원은 다시 여러 하위 지표로 쪼개진다. 아래 도식은 네 차원과 그 하위 지표를 한눈에 정리한 것이다.

그림 2. Sci-TQA² 4차원 루브릭과 하위 지표. 출처: SciHorizon-DataEVA(arXiv:2604.26645)를 페블러스가 재구성.

2.1 '깨끗함'을 넘어 '믿고 쓸 수 있음'으로

네 차원 가운데 Q(데이터 품질)는 익숙하다. 완전성, 정확성, 유일성, 일관성은 오래된 데이터 품질 교과서의 항목들이다. 새로운 것은 나머지 셋, 특히 T와 As다. T는 데이터가 어디서 왔고 어떤 라이선스로 쓸 수 있으며 윤리적으로 문제가 없는지를 묻는다. As는 이 데이터로 학습한 모델이 낯선 태스크에도 일반화되는지, 데이터가 희소한 구간을 얼마나 견디는지, 인과 구조가 온전한지를 본다.

이 확장이 핵심이다. 전통적 데이터 품질은 데이터가 '깨끗한가'를 물었다. Sci-TQA²는 여기에 '학습에 쓸 수 있는가(Ac)'와 '믿고 쓸 수 있는가(T·As)'를 더한다. 준비도의 정의 자체가 넓어진 셈이다. 데이터 준비도 성숙도 단계(ML Data Readiness Levels)나 데이터셋 문서화 관행(Datasheets for Datasets), FAIR 원칙 같은 선행 논의가 부분적으로 다뤄 온 축들을 하나의 채점 가능한 루브릭으로 묶었다는 데 의미가 있다.

T(거버넌스 신뢰성)와 As(과학 적응성)가 채점표에 들어온 순간, 준비도는 데이터 엔지니어링의 문제에서 데이터 거버넌스의 문제로 넓어진다. 라이선스와 출처, 인과 완전성은 데이터를 '더 깨끗하게' 닦는다고 채워지지 않는다. 데이터가 태어난 맥락과 쓰이는 목적을 함께 봐야 채점되는 항목이다.

3

에이전트는 어떻게 채점하나

채점표가 있어도, 그것을 6개 분야의 서로 다른 데이터셋에 일관되게 적용하는 일은 만만치 않다. 천문 관측 데이터와 사회경제 통계는 형식도 구조도 완전히 다르다. 하나의 고정된 분석 도구로 둘 다 채점할 수는 없다. 이 시스템이 택한 해법은 도구를 미리 만들어 두는 대신, 데이터셋마다 필요한 분석 도구를 그때그때 스스로 생성하는 것이다.

3.1 스스로 도구를 만드는 능력

도구 자동 생성의 성공률은 97.4%였고, 도구 하나를 완성하기까지 평균 1.19회 시도가 필요했다. 거의 첫 시도에 쓸 만한 분석 코드를 만들어 낸다는 뜻이다. 이 능력이 이종 데이터 확장성의 뼈대다. 새로운 분야의 데이터셋이 들어와도 사람이 도구를 새로 짜 줄 필요가 없다. 시스템은 6개 분야(천문·생의학·지구과학·재료·물리·사회경제)에 걸친 약 80개 데이터셋을 이렇게 처리했고, 전체 평가 성공률 89.0%를 기록했다.

6개 분야를 굳이 한자리에 모은 데에는 까닭이 있다. 과학 데이터는 준비도 채점의 가장 가혹한 시험장이기 때문이다. FAIR 원칙을 알고 있다는 응답은 10년 새 40%에서 80%로 배가됐지만, 막상 지켜지는 비율은 분야에 따라 한 자릿수에서 40%대까지 크게 벌어진다. 재현성도 사정이 비슷해서, 2016년 Nature 설문에서는 과학자의 70%가 남의 실험을 재현하는 데 실패했다고 답했다. 형식도, 거버넌스 성숙도도 제각각인 데이터가 모여 있는 세계다.

역설적으로 이 척박함이 채점 실험의 값을 높인다. 이렇게 들쭉날쭉한 데이터를 하나의 루브릭으로 고르게 매길 수 있다면, 그보다 정돈된 기업 데이터에서 통하지 않을 이유는 오히려 적다. 실제로 AI·ML 분야는 오픈 데이터 문화가 자리 잡으며 재현 성공률이 2014년 28%에서 2024년 64%로 올라섰다. 준비도를 파이프라인 상류에서 채점하는 일은 그 개선의 다음 단계로 읽힌다.

실제로 매겨진 점수를 보면 분야별로 고르게 높은 편이다. 아래는 대표 분야별 준비도 점수의 예시다.

분야	준비도 점수
사회경제 (Socio-economic)	95.3
물리 (Physics)	93.2
생의학 (Biomedical)	91.4
지구과학 (Earth)	90.2
천문 (Astronomy)	88.6

3.2 어블레이션이 드러낸 세 기둥

시스템을 뜯어보면 성능을 떠받치는 세 가지 요소가 있다. 무엇이 어디에 필요한지 알아내는 지식 계획(Knowledge Planning), 만든 도구를 기억해 재활용하는 도구 메모리(Tool Memory), 채점 결과를 스스로 되짚어 고치는 자기 검증(Self-Correction)이다. 어블레이션 실험은 이 셋을 하나씩 떼어 내며 성능이 어떻게 변하는지 측정했다.

결과는 이 구조의 취약점을 정확히 짚어 준다. 아래 표에서 보듯, 자기 검증을 떼면 성공률이 89.0%에서 33.0%로 내려앉는다. 세 요소 중 가장 결정적이다.

구성	평가 성공률	전체 대비 하락
전체 시스템 (Full)	89.0%	—
− 지식 계획 (w/o Knowledge Planning)	51.7%	−37.3%p
− 도구 메모리 (w/o Tool Memory)	82.6%	−6.4%p
− 자기 검증 (w/o Self-Correction)	33.0%	−56.0%p

표 1. 구성 요소 어블레이션 결과. 출처: SciHorizon-DataEVA(arXiv:2604.26645).

그림 3. 구성 요소 어블레이션 — 각 요소 제거 시 평가 성공률 변화. 출처: SciHorizon-DataEVA(arXiv:2604.26645)를 페블러스가 재구성.

이 숫자가 다음 장의 문을 연다. 89.0%라는 높은 성공률의 절반 이상이 자기 검증이라는 한 겹의 층에서 나온다. 채점이 잘 굴러가는 것처럼 보여도, 그 신뢰가 실은 얇은 검증 루프에 크게 얹혀 있다는 뜻이다. 그렇다면 그 검증 층 자체는 누가 검증하는가.

4

채점표를 누가 보증하나

채점을 사람이 하면, 우리는 그 사람의 전문성을 신뢰의 근거로 삼는다. 채점을 에이전트가 하면 근거가 달라진다. 이제 물어야 할 것은 "이 데이터가 좋은가"가 아니라 "이 채점표가, 그리고 이 채점 시스템이 믿을 만한가"다. 신뢰의 질문이 데이터에서 채점표로 한 층 올라간다.

4.1 ICC 0.742 — 경계에 선 숫자

연구진은 시스템의 채점을 인간 전문가의 채점과 맞대어 일치도를 쟀다. 결과는 급내상관계수(ICC) 0.742였다. 인간 전문가는 채점 정확도에 5점 만점 기준 4.15점, 관련 평가에서 4.11점을 줬다. 숫자만 보면 준수하다. 문제는 ICC 0.742가 놓인 자리다.

ICC를 해석하는 기준은 두 갈래가 대표적이다. Koo & Li(2016)는 0.5~0.75를 '보통(moderate)', 0.75~0.9를 '양호(good)'로 본다. 이 기준에서 0.742는 '보통'의 맨 위 칸이다. Cicchetti(1994)의 기준으로는 '양호'에 턱걸이한다. 어느 쪽이든 공통점이 있다. 0.75라는 문턱에 0.008 못 미친다는 것이다. 아래 도식이 그 위치를 보여준다.

그림 4. ICC 신뢰도 구간에서 0.742의 위치. 구간 기준은 Koo & Li(2016). 참고로 최근 일부 에이전트 평가 시스템의 일치도도 이 문턱 부근에 몰려 있다(예: GPT-5 계열 κ=0.754).

이 자리를 어떻게 읽어야 할까. 연구나 스크리닝처럼 초기 걸러 내기 용도라면 0.742는 충분히 쓸 만하다. 반대로 임상 결정이나 법적 판단처럼 고위험 맥락(통상 ICC 0.80~0.90 이상을 요구)에는 미달한다. '쓸 만하지만 완전히 믿을 수준은 아닌 경계'라는 표현이 가장 정확하다. 그리고 이 경계값은 지금 나와 있는 에이전트 기반 평가 시스템 상당수가 공유하는 자리이기도 하다.

4.2 채점표가 안는 세 가지 리스크

채점을 자동화하면 데이터 층에서는 잡히지 않는 새로운 리스크가 채점표 층에서 생긴다. 크게 셋이다.

· 루브릭 편향. 채점표가 특정 도메인이나 데이터 형태에 유리하게 설계되면, 그 편향이 점수에 그대로 각인된다. 잘 만든 채점표처럼 보여도 기준 자체가 기울어 있을 수 있다.
· 게이밍. 데이터셋을 만드는 쪽이 '점수를 잘 받도록' 데이터를 최적화하면, 실제 품질과 무관하게 점수만 오른다. 채점자를 LLM에 맡길 때 공통으로 나타나는 취약점이다.
· 검증 루프 과의존. 앞서 본 대로, 신뢰의 절반 이상이 자기 검증 한 겹에 얹혀 있다. 그 층이 흔들리면 채점 전체가 흔들린다.

이 셋은 데이터를 아무리 꼼꼼히 검증해도 걸러지지 않는다. 검증의 대상이 데이터가 아니라 채점 기준 자체이기 때문이다. 필요한 것은 한 층 위의 감사다. 채점 기준의 정당성을 독립적으로 따져 보는 '평가의 평가(evaluation of evaluation)' 계층이다.

데이터 거버넌스의 정의가 여기서 한 칸 넓어진다. 지금까지 거버넌스는 '데이터를 검증하는 층'이었다. 준비도를 에이전트가 채점하는 순간, 거버넌스는 '검증 기준을 검증하는 메타 층'까지 품어야 한다. 채점표를 누가 보증하는가 — 이 질문에 답을 갖춘 조직만이 자동 채점을 안심하고 파이프라인에 심을 수 있다.

5

페블러스 관점: 인제스션부터 추론까지

이 연구를 페블러스 관점에서 읽으면 흥미로운 겹침이 보인다. 페블러스가 DataClinic으로 데이터를 진단하며 경험적으로 도달한 계층 구조가, Sci-TQA² 4차원과 상당 부분 맞물린다. 서로 다른 출발점에서 비슷한 지도에 도착한 셈이다.

5.1 DataClinic 계층과 Sci-TQA²의 겹침

DataClinic은 데이터를 표면(L1)과 내부(L2·L3)로 나눠 진단한다. 이 계층을 Sci-TQA² 네 축에 포개면 아래처럼 정렬된다.

DataClinic 진단 계층	주요 지표	Sci-TQA² 대응 축
L1 · 표면	완전성·정확성·유일성·일관성	Q (데이터 품질)
L2 · 내부	클래스 균형·특성 중요도	Ac (AI 호환성)
L3 · 내부	태스크 일반화·희소성·인과 완전성	As (과학 적응성)
거버넌스	신뢰성·출처·라이선스	T (거버넌스 신뢰성)

이 수렴은 홍보 문구가 아니라 지적 발견에 가깝다. 학술 연구가 정의한 네 축과, 현장 진단에서 쌓인 네 계층이 독립적으로 같은 모양을 그렸다면, 그 모양은 준비도의 실제 구조에 가까울 가능성이 높다. Q와 Ac는 도메인을 가리지 않고 이식되는 축이라 이미 기업 데이터 진단에서 검증돼 있다. T와 As는 과학 특화 색이 짙어, 기업 맥락에서는 지표를 다시 정의해 옮겨야 한다. 루브릭의 '틀'은 이식되고 '지표'는 커스터마이징되는 구조다.

5.2 데이터 팀을 위한 적용 경로

자동 채점을 실무에 들이려는 팀이라면, 순서는 대략 이렇게 잡힌다.

· 네 축 가운데 조직의 리스크가 가장 큰 축부터 루브릭을 커스터마이징한다. 규제 산업이라면 T, 희소 데이터가 많다면 As가 우선이다.
· 에이전트 점수를 어디까지 믿을지 신뢰 임계치를 정하고, 그 아래 구간에는 사람이 개입하는 human-in-the-loop 지점을 배치한다. ICC 0.742라는 경계값이 이 임계치 설계의 현실적 출발점이다.
· 채점을 인제스션 게이트에 심어 파이프라인 상류에서 리스크를 거른다.
· 마지막으로 채점표 자체를 주기적으로 감사하는 메타 절차를 세운다. 편향과 게이밍은 데이터가 아니라 여기서 잡힌다.

그림 5. 데이터팀 자동 채점 도입 4단계 경로. 1~3단계는 채점 적용, 4단계는 채점 기준 자체를 감사하는 메타 거버넌스 계층이다. 페블러스 원본 도식.

준비도가 채점 대상이 됐다는 것은, 데이터 팀의 질문이 두 단으로 늘었다는 뜻이기도 하다. '우리 데이터는 AI 준비가 됐나'에 더해 '그 준비도를 매긴 채점표는 믿을 수 있나'까지. 이 두 질문을 파이프라인에 함께 심는 팀이, 자동화의 속도와 신뢰를 동시에 가져간다.

Editor's Note

데이터 중심 AI 플랫폼 시장은 2024년 약 25억 달러에서 2033년 223억 달러로, 연평균 28.7% 성장할 것으로 전망된다(Growth Market Reports, 2025). '평가의 평가'라는 메타 거버넌스 계층은 아직 뚜렷한 주인이 없는 공백에 가깝다. 페블러스는 DataClinic으로 쌓은 현장 진단 경험과 이번 연구가 제시한 학술 프레임을 잇대어, 데이터 준비도를 채점하는 층과 그 채점표의 신뢰를 감사하는 층을 함께 다루는 방향을 살피고 있다. 이 문단은 편집자 관점의 배경 설명이며, 본문의 분석 논지와는 분리해 읽어 주기 바란다.

R

참고문헌

학술 논문

1.SciHorizon-DataEVA Research Team (2026). "SciHorizon-DataEVA: Evaluating the AI-Readiness of Scientific Data via Sci-TQA² and Multi-Agent Systems." arXiv:2604.26645. (제출 2026-04-29 / 개정 2026-05-28) — 1차 소스
2.SciHorizon Research Team (2025). "SciHorizon: Benchmarking AI-Readiness for Science." arXiv:2503.13503. — 원본 프레임워크
3.Koo, T. K., & Li, M. Y. (2016). "A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research." Journal of Chiropractic Medicine, 15(2), 155–163. PMC4913118.
4.Cicchetti, D. V. (1994). "Guidelines, Criteria, and Rules of Thumb for Evaluating Normed and Standardized Assessment Instruments in Psychology." Psychological Assessment, 6(4).
5.Baker, M. (2016). "1,500 scientists lift the lid on reproducibility." Nature, 533, 452–454. doi:10.1038/533452a
6.Semmelrock, L. et al. (2025). "Reproducibility in Machine Learning." AI Magazine. doi:10.1002/aaai.70002
7."The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation." (2026). arXiv:2606.13685.

정책·통계·시장

8.Gartner (2025-02-26). "Lack of AI-Ready Data Puts AI Projects at Risk." Gartner Newsroom. (조직 57% AI 준비 미비; AI 프로젝트 60% 2026년까지 포기 전망)
9.Gartner (2024 Q3). Data Management Leader Survey. (데이터 관리 리더 248명; 조직 63% AI용 데이터 관리 체계 미비)
10.RAND Corporation (2024). "The Root Causes of Failure for Artificial Intelligence Projects." (기업 AI 프로젝트 80% 포기; 데이터 품질 1위 실패 원인)
11.Anaconda, Inc. (2020). "State of Data Science 2020." (데이터 과학자 업무 시간의 45%가 데이터 준비에 소모)
12.Digital Science; Springer Nature; Figshare (2025). FAIR Data Awareness Report. (151개국 4,700명 응답; 평균 FAIR 준수점수 9.4/22)
13.Growth Market Reports (2025). Data-Centric AI Platform Market: Size, Share & Forecast 2025–2034. (시장 $25.4억 → $223.1억, CAGR 28.7%)

페블러스 관련

14.페블러스 데이터 커뮤니케이션팀 (2026-05-26). "5 Signals of AI-Ready Data — DataClinic Report." Pebblous Blog. (134개 데이터셋 진단; AI 준비도 5가지 신호)
15.페블러스 데이터 커뮤니케이션팀 (2026-06-08). "What Is AI-Ready Data? Quality, Lineage & Governance Guide." Pebblous Blog.
16.페블러스 데이터 커뮤니케이션팀 (2026-07-01). "Claude Science: AI Workbench for Reproducible Research." Pebblous Report.