Executive Summary

기업들이 4년째 AI에 수십억을 쏟아부었는데 성과는 잘 보이지 않는다. 가트너는 올해 안에 AI 프로젝트의 60%가 형편없는 데이터 품질 때문에 폐기될 거라고 본다. 5회 CIO를 지낸 Yousuf Khan이 공동 창업한 스타트업 클라리오(Clario)는 이 진단을 정면으로 받아, 모델을 더 키우는 대신 기업에 쌓인 쓰레기 데이터부터 치우자며 600만 달러 시드를 모았다. 이 글은 그 베팅이 어디까지 닿고 어디서 멈추는지를 본다.

클라리오가 겨냥하는 것은 ROT, 곧 중복(Redundant)·구식(Obsolete)·사소(Trivial)한 데이터다. 파트너사 분석에서는 기업 데이터의 최대 60%가 여기에 해당했다. 클라리오는 구글 드라이브·셰어포인트·컨플루언스 같은 저장소를 연결해 메타데이터 휴리스틱으로 쓰레기 후보를 찾아내고, 슬랙·팀즈 워크플로로 보관·삭제 결정을 받는다. 다만 의미를 읽는 AI 임베딩 분석은 아직 로드맵이고, 현재 기술은 "명백한 쓰레기"를 걷어내는 데 집중한다.

여기서 페블러스 독자가 가져갈 질문이 생긴다. 쓰레기를 치우면 남은 데이터는 곧 AI에 쓸 수 있는 데이터가 되는가. 청소는 필요조건이지 충분조건이 아니다. 구조도 맥락도 라벨도 없는 깨끗한 데이터는, RAG와 LLM 앞에서 여전히 "깨끗한 쓰레기"로 남는다.

$6M

클라리오 시드

Preface Ventures 리드, 11개 투자사(2026.6)

60%

폐기 예측 AI 프로젝트

데이터 품질이 원인, 올해 안(Gartner)

최대 60%

기업 데이터 중 ROT

파트너사 분석 실측치(Clario)

95%

수익 없는 Gen AI 파일럿

측정 가능한 P&L 효과 부재(MIT NANDA)

1

무너지는 자리는 모델이 아니다

AI 프로젝트가 실패할 때 가장 먼저 의심받는 것은 모델이다. 모델을 더 키우거나 더 좋은 것으로 바꾸면 풀릴 거라고 믿는다. 그런데 최근 몇 년의 통계는 다른 곳을 가리킨다. 가트너는 올해 안에 AI 프로젝트의 60%가 데이터 품질 문제로 폐기될 거라고 전망했다. RAND는 2024년에 이미 AI 프로젝트의 80% 이상이 의도한 비즈니스 가치를 내지 못한다고 진단했고, MIT의 Project NANDA는 2025년 생성형 AI 파일럿의 95%가 측정 가능한 손익 효과를 만들지 못했다고 보고했다.

실제로 폐기 비율은 빠르게 오르고 있다. S&P 글로벌 마켓 인텔리전스에 따르면 대부분의 AI 이니셔티브를 접은 기업 비율이 2024년 17%에서 2025년 42%로 뛰었다. 이 숫자들이 공통으로 말하는 것은 단순하다. 막히는 지점이 알고리즘이 아니라 알고리즘에 들어가는 데이터라는 것이다.

AI 프로젝트가 막히는 지점 데이터 입력 단계 ⚠ 60–95% 실패 지점 전처리 Preprocessing AI 모델 AI Model 비즈니스 가치 Gartner · RAND · MIT Project NANDA 통계 기반 · 페블러스 원본 도식
▲ 기업 AI 파이프라인 — 실패는 모델이 아니라 입력 데이터 단계에서 집중된다. | 페블러스 원본 도식

클라리오의 공동 창업자이자 CEO인 Yousuf Khan은 이 벽을 현장에서 봤다. 다섯 차례 CIO를 지내며 수백 명의 동료 CIO와 대화한 그는, 모든 AI 프로젝트가 같은 곳에서 멈춘다고 말한다. 한 번도 정리된 적 없는 데이터다. 그는 "'Garbage in, garbage out'은 클리셰가 아니라 엄청나게 비싼 실수"라고 표현한다. 쓰레기 데이터 수 테라바이트를 혁명적 결과를 약속하는 AI에 집어넣으며 기업들이 실제 돈을 태우고 있다는 것이다.

2

클라리오가 600만 달러로 사는 것

클라리오는 2026년 6월 스텔스에서 나오며 600만 달러 시드 라운드를 공개했다. Preface Ventures가 리드했고 Ridge Ventures, Rain Capital, Transform VC 등 11개 투자사가 참여했다. Khan과 함께 회사를 세운 CTO Madhu Vohra는 오라클 OCI 스토리지, 넷앱 클러스터형 SAN, 뉴타닉스에서 엔지니어링을 이끈 인프라 전문가다. 회사는 스스로를 "기업 데이터 ROT를 제거하기 위해 설계된 최초의 전용 플랫폼"으로 소개한다.

2.1ROT라는 진단

ROT는 중복(Redundant)·구식(Obsolete)·사소(Trivial)한 데이터를 가리킨다. 기업이 저장한 데이터의 78%가 정형화되지 않은 비정형 데이터이고, 보수적으로 잡아도 그중 3분의 1 이상이 사실상 쓰레기라는 것이 클라리오의 진단이다. 파트너사를 실제로 분석했을 때는 쓰레기 비율이 최대 60%까지 올라갔다. 누군가 한참 전에 받아둔 MP3 파일, 단종된 제품의 매뉴얼, 더 이상 열리지도 않는 레거시 포맷, 전 직원이 회사 드라이브에 올려둔 영화 같은 것들이다.

기업 데이터 내 ROT 비율 Clario 파트너사 실측 ROT 최대 60% 활성 40% Veritas Databerg Report ROT + 다크 데이터 85% 15% ROT 구성 중복 (Redundant) — 복본·중복 파일 구식 (Obsolete) — 단종·구버전 문서 사소 (Trivial) — 업무 무관 파일 페블러스 원본 도식
▲ 기업 데이터의 상당 부분이 ROT에 해당한다. Clario 파트너사 실측 최대 60%, Veritas Databerg Report에서는 85%를 ROT 또는 다크 데이터로 분류했다. | 페블러스 원본 도식

2.2작동 방식

제품은 네 단계로 움직인다. 먼저 구글 드라이브, 셰어포인트, 원드라이브, 박스, 컨플루언스 같은 기존 콘텐츠 시스템에 연결한다. 다음으로 파일 체크섬, 네이밍 패턴, 마지막 접근 시각, 포맷 지원 여부 같은 메타데이터를 스캔해 ROT 후보를 추린다. 그 결과를 슬랙이나 팀즈로 보내 보관·아카이브·삭제 결정을 받고, 결정이 일어날 때만 과금하는 pay-per-decision 모델을 쓴다. 사용자의 결정이 쌓이면 정기적으로 자동 정리하는 시스템을 학습한다.

여기서 짚어둘 점이 하나 있다. 이 탐지의 바탕은 메타데이터 기반 휴리스틱이다. 파일의 의미를 읽어 판단하는 AI 임베딩 분석은 아직 로드맵에 있다. 즉 클라리오가 지금 잘하는 일은 "명백한 쓰레기"를 빠르고 안전하게 걷어내는 것이다. 이것 자체로도 가치가 분명하다. 투자자 Preface Ventures의 Saad Siddiqui는 클라리오를 두고 "기업들이 AI-ready 기반에서 출발할 수 있도록 실질적으로 일하는 유일한 회사"라고 평했다.

3

치우고 나면 무엇이 남나

쓰레기를 다 치웠다고 하자. 드라이브가 깨끗해지고 저장 비용이 줄고 검색이 빨라진다. 그런데 남은 데이터로 AI가 답을 잘 내놓느냐는 별개의 질문이다. 청소가 끝난 자리에는 보통 이런 것들이 남는다.

  • 라벨도 분류도 붙지 않은 워드 문서 수천 개
  • 제목 말고는 어떤 메타데이터도 없는 PDF 보고서
  • 서로 연결되지 않은 채 흩어진 컨플루언스 문서
  • 어느 버전이 최신인지 알 수 없는 정책 문서

이것들은 ROT가 아니다. 분명히 가치가 있는 데이터다. 그래서 클라리오의 메타데이터 휴리스틱은 이것들을 건드리지 않고 남겨둔다. 문제는 이 멀쩡한 데이터를 그대로 RAG 파이프라인이나 LLM에 밀어 넣었을 때다. 구조와 맥락과 라벨이 없으면, 모델은 어느 문서가 권위 있는 최신본인지, 어떤 맥락에서 쓰인 문장인지 알 길이 없다. 결과는 다시 garbage in에 가깝다. 정확히 말하면 깨끗한 쓰레기(clean garbage)다.

ROT 제거 ≠ AI-Ready — 깨끗한 쓰레기 개념 기업 전체 데이터 ROT 포함 구식·중복·사소 문서 Clario ROT 제거 완료 깨끗해 보이지만... 라벨 없음 · 맥락 없음 구조 없음 · 버전 불명 RAG/LLM ⚠ 깨끗한 쓰레기 clean garbage 모델이 올바른 맥락을 파악할 수 없음 페블러스 원본 도식
▲ ROT를 제거해도 구조·맥락·라벨이 없으면 AI 앞에서 '깨끗한 쓰레기'가 된다. | 페블러스 원본 도식

Khan 자신도 이 지점을 안다. 그는 한 인터뷰에서, 사내에 구축한 에이전트와 RAG 시스템이 오래된 정책과 단종 제품 문서, 폐기된 지원 문서 위에서 돌면 "LLM이 노이즈를 걸러내는 데 컴퓨팅 예산을 태운다"고 말했다. 클라리오는 이 노이즈를 줄인다. 다만 노이즈를 줄이는 것과 신호를 쓸 수 있게 만드는 것은 다른 작업이다.

4

정리와 정비 사이의 거리

데이터를 AI에 쓸 수 있게 만드는 일은 두 단계로 나뉜다. 앞 단계는 정리, 곧 쓰레기를 빼는 일이고 클라리오가 잘하는 영역이다. 뒷 단계는 정비, 곧 남은 데이터를 AI가 읽을 수 있는 형태로 만드는 일이다. 두 단계는 같은 방향을 보지만 같은 작업이 아니다. 그 거리를 둘로 나눠 보면 이렇다.

정리 (빼기) · 클라리오의 영역

  • 중복 파일 제거
  • 단종·구식 문서 삭제
  • 레거시 포맷 정리
  • 사소한 파일과 미접근 파일 처리

정비 (만들기) · 그다음 단계

  • 구조화 — 스키마와 분류 체계 부여
  • 맥락화 — 출처와 생성 경위 연결
  • 라벨링 — 의미 태그와 주석
  • 검색 최적화 — 임베딩 가능한 형태로 정돈
  • 버전·거버넌스 — 최신본·소유·계보 관리
정리(제거)에서 AI-Ready까지 — 거리의 차이 정리 (빼기) Clario 영역 중복·구식·사소 제거 1단계 정비 (만들기) 그다음 단계 — AI-Ready화 구조화 맥락화 라벨링 검색 최적화 버전·거버넌스 AI-Ready 2단계 (긴 거리) 청소 도구로 정비 문제를 풀 수 없고, 정비 도구로 청소를 대신할 수 없다 페블러스 원본 도식
▲ 정리(제거) 단계는 전체 여정의 시작점이다. AI-Ready에 도달하려면 정비(만들기) 단계가 더 길게 이어진다. | 페블러스 원본 도식

클라리오가 "기초 수준의 AI-ready"라고 부르는 것은, 정확히는 이 여정의 출발점이다. 투자자도 같은 언어를 쓰지만 제품이 실제로 하는 일은 "AI를 방해하는 것을 제거"이지 "AI가 쓸 수 있게 만드는 것"이 아니다. 둘 사이의 거리가 바로 garbage in을 막는 일과 ready를 만드는 일의 거리다.

그래서 조직이 스스로에게 던질 질문은 하나로 모인다. 우리 데이터는 지금 어느 단계에 있는가. 아직 쓰레기를 치우는 중인가, 아니면 치웠는데도 AI가 답을 못 내서 그다음 단계가 필요한가. 두 질문에는 전혀 다른 투자와 도구가 필요하다. 청소 도구로 정비 문제를 풀 수 없고, 정비 도구로 청소를 대신할 수 없다.

페블러스의 시각

페블러스가 AI-Ready Data를 이야기할 때 가리키는 것은 뒷 단계, 곧 정비다. 쓰레기를 치운 데이터가 자동으로 AI에 준비되지 않는다는 것이 출발점이기 때문이다. 클라리오 같은 도구가 1단계를 빠르게 밀어준다면, 남은 작업은 구조·맥락·라벨·계보를 채워 데이터를 신호로 바꾸는 일이다.

그래서 클라리오의 등장은 경쟁 신호라기보다 시장이 같은 문제를 향해 움직인다는 신호로 읽힌다. "모델보다 데이터"라는 명제에 600만 달러가 붙었다는 사실 자체가, 데이터 품질이 더 이상 뒤로 미룰 항목이 아니라는 증거다. 다만 그 명제를 끝까지 밀고 가면, 청소 다음에 반드시 정비가 온다.

R

참고문헌

보도·공식 발표

통계·시장

  • 4.Gartner. (2026). "60%의 AI 프로젝트가 데이터 품질 문제로 폐기될 전망."
  • 5.RAND Corporation. (2024). "AI 프로젝트 80% 이상이 의도한 비즈니스 가치에 도달하지 못함."
  • 6.MIT Project NANDA. (2025). "생성형 AI 파일럿의 95%가 측정 가능한 P&L 효과 없음."
  • 7.S&P Global Market Intelligence. (2025). "대부분의 AI 이니셔티브를 폐기한 기업 비율 17% → 42%."
  • 8.Veritas. "Global Databerg Report — 기업 데이터의 약 85%가 ROT 또는 다크 데이터."

페블러스 인접

※ 클라리오의 채택·쓰레기 비율(최대 60%) 등 수치는 회사 발표 및 파트너사 분석 기준이며 독립 3rd party 검증은 없다. 가트너·RAND·MIT·S&P 통계는 각 기관의 공개 전망·보고를 인용했다.