Executive Summary

2026년 6월, SpaceX는 공모가 $135로 상장하며 첫날 시가총액 $2조를 넘어 사상 최대 IPO를 기록했다. 거의 같은 시기에 한 연구자가 그 상장 서류(S-1)를 가지고 다른 실험을 했다. LLM 재무 분석가들에게 IPO 실사 질문 1,000개를 던지고, 누가 더 정확한지 채점한 것이다. 이 글은 그 채점의 정답표를 누가 만들었는가에 관한 이야기다.

정답표는 사람이 쓰지 않았다. 여러 LLM의 답안을 모아 후보 사실을 뽑고, 누락과 환각과 중복을 감사해 채점 루브릭을 자동으로 생성했다. 사람은 마지막 관문에서 품질만 확인했다. 그렇게 만든 1,000개 중 930개는 끝내 공개하지 않았다. 공개하는 순간 모델들이 답을 학습해 채점 데이터가 오염되기 때문이다.

에이전트가 실무를 대신하기 시작하면 곧바로 따라오는 질문이 있다. 그 결과를 누가, 무엇으로 채점하나. 이 연구가 보여주는 답은 분명하다. AI를 신뢰하려면 먼저 채점 데이터를 신뢰할 수 있어야 하고, 그 채점 데이터 자체가 관리해야 할 자산이라는 것이다.

주요 수치

이 연구를 네 개의 숫자로 요약하면 이렇다. 누가 가장 정확했고, 무엇을 잠갔으며, 채점 한 번에 얼마가 들었고, 정답표 초안을 쓴 사람은 몇 명이었는가. 마지막 숫자가 이 글의 출발점이다.

출처: Benhenda, arXiv:2606.23032 (2026)

79.4%

Qwen 3.7 Max 정확도

기존 상한 57.9% → +21.5%p

930개

공개하지 않고 잠근 질문

공개된 것은 70개뿐

$0.05

MiMo-2.5 Pro 쿼리 비용

Gemini $2.51의 약 1/50

0명

정답표 초안을 쓴 사람

LLM 앙상블이 작성, 사람은 검토

1

SpaceX S-1, 1,000개 질문의 시험지

SpaceX는 2026년 4월 1일 S-1을 비밀 제출하고 5월 20일 공개한 뒤, 6월 12일 상장했다. 공모가는 주당 $135, 발행 주식은 5억 5,560만 주, 목표 조달액은 750억 달러였다. 첫날 시가총액은 1조 7,700억 달러로 출발해 개장 직후 2조 달러를 넘겼다. 규모만으로도 사상 최대 IPO다.

서류 자체도 까다로웠다. S-1에는 2026년 2월 마무리된 xAI 전체 인수가 포함되어, 연결 기준 2025년 매출 186억 7천만 달러와 순손실 49억 4천만 달러가 한데 묶였다. Starlink는 매출 114억 달러에 영업이익 44억 달러로 흑자였지만, xAI는 같은 해 140억 달러를 쓰고 32억 달러를 벌었다. 흑자 사업과 적자 사업, 인수 회계와 지배구조가 한 문서 안에 겹쳐 있는 셈이다.

IPO용 S-1은 상장사가 분기마다 내는 10-K나 10-Q와 결이 다르다. 역사적 재무제표에 더해 프로포마 회계, 자본 조달 구조, 지배구조, 인수 리스크 공시가 들어가고 분량도 훨씬 많다. 기존 재무 분석 벤치마크인 Finance Agent v2는 바로 이 정기 공시만 다뤘다. 검색 방식도 문맥을 덧붙이지 않은 단순 청크 검색이라, IPO처럼 긴 문서에서는 핵심을 놓치기 쉬웠다.

그래서 이 연구는 IPO 실사에 특화된 별도의 시험지를 만들었다. SpaceX S-1을 바탕으로 재무제표 분석, 프로포마 회계, 지배구조, 자본 조달 구조, 리스크 공시를 묻는 질문 1,000개를 생성했다. 이 가운데 70개만 공개하고 930개는 비공개로 잠갔다. 잠근 이유는 뒤에서 따로 본다.

여기서 주목할 점은 시험 문제가 아니라 채점 기준이다. 1,000개의 질문에는 각각 정답이 있어야 채점이 가능하다. 그 정답표를 누가, 어떻게 만들었는가가 이 연구의 진짜 기여다.

2

정답표를 AI가 만들었다

보통 벤치마크의 채점 기준은 전문가가 손으로 쓴다. 재무 분석 같은 영역이라면 회계사나 애널리스트가 질문마다 "이 답에 반드시 들어가야 할 사실"을 정의한다. Finance Agent v2도 537개 질문을 전문가가 직접 작성했다. 비용이 크고 느린 방식이다.

이 연구는 그 작업을 자동화했다. 채점 루브릭, 곧 각 질문의 정답에 무엇이 들어가야 하는지를 정의하는 기준표를 AI가 스스로 생성하게 했다. 사람은 정답을 쓰는 대신, 기계가 만든 기준을 마지막에 검토하는 역할만 맡는다.

파이프라인은 다섯 단계로 움직인다. 먼저 여러 LLM이 같은 질문에 각자 답한다. 이 답변 앙상블에서 후보가 될 사실들을 뽑아내고, 겹치는 기준을 하나로 통합한다. 그다음 세 갈래로 감사한다.

1 LLM 앙상블 다중 모델 동시 답변 2 후보 사실 추출 & 통합 3 3단 감사 누락 · 환각 · 중복 제거 4 인간 검토 최종 품질 확인 5 루브릭 채점 기준 확정
▲ 자동 루브릭 생성 5단계 파이프라인 — 페블러스 원본 도식 (논문 Fig. 재해석) | 출처: Benhenda, arXiv:2606.23032 (2026)

누락 탐지

빠진 핵심 정보가 없는지 확인한다. 정답에 반드시 있어야 할 사실이 기준표에서 누락되면 채점이 헐거워진다.

환각 검증

원문과 맞지 않는 사실을 걸러낸다. 모델이 만들어낸 그럴듯한 거짓이 정답 기준에 섞이면 채점 자체가 오염된다.

중복 제거

같은 내용을 다르게 표현한 기준을 합친다. 중복이 남으면 한 사실을 여러 번 채점해 점수가 왜곡된다.

감사를 통과한 기준만 사람 검토로 넘어가고, 거기서 최종 루브릭이 확정된다. 채점도 한 번으로 끝나지 않는다. 생성된 루브릭으로 모델 답안을 채점하는 단계(평가자)와, 채점 결과를 보고 기준을 다시 조정하는 단계(최적화)가 맞물려 반복된다. 채점 기준 자체가 돌면서 다듬어지는 구조다.

검색 방식도 손봤다. 기존 벤치마크의 단순 청크 검색 대신, 짧은 청크에 주변 맥락을 덧붙여 검색 정확도를 높이는 contextual retrieval을 적용했다. 긴 IPO 서류에서 흩어진 근거를 찾아내는 데 이 차이가 컸다.

정답표를 만드는 데 여러 모델의 답안을 섞은 것은 우연이 아니다. 데이터를 만든 모델과 채점하는 모델이 같으면 서로에게 후한 점수를 주는 편향이 생긴다. 다양한 모델의 답안을 앙상블로 쓰면 그 편향을 흩어 놓을 수 있다. 채점의 공정성은 채점 기준을 만든 데이터의 다양성에서 나온다.

3

왜 930개는 공개하지 않나

좋은 벤치마크에는 역설이 하나 있다. 기준이 좋을수록 공유하고 싶어지지만, 공유하는 순간 망가진다는 점이다. 질문과 정답이 인터넷에 공개되면 다음 세대 모델이 그것을 학습 데이터로 빨아들인다. 그러면 모델은 실제 분석 능력이 아니라 외운 답을 재생해 점수를 받는다. 이것이 벤치마크 오염이다.

가까운 사례가 있다. 코드 수정 능력을 재는 SWE-bench에서, OpenAI는 일부 모델이 정답 패치를 그대로 베껴내는 정황을 발견했다. 결국 해당 점수 보고를 중단했다. 측정하려던 능력 대신 암기를 측정하고 있었던 것이다. 공개된 벤치마크의 점수는 시간이 지날수록 신뢰를 잃는다.

이 연구의 해법은 단순하다. 1,000개 중 70개만 예시로 공개하고, 공식 랭킹은 비공개 930개로만 집계한다. 모델이 미리 답을 볼 수 없으니, 점수는 외운 답이 아니라 실제로 서류를 읽고 분석한 결과에 가까워진다. 잠긴 930개가 이 벤치마크의 신뢰를 떠받친다.

공개 70개 비공개 930개 (잠금) 70 930개 잠금 공식 랭킹 집계 기준 — 모델 학습 방지 SpaceX S-1 기반 총 1,000개 질문 (IPO 실사 전용)
▲ 1,000개 질문 중 70개만 공개, 930개는 비공개 잠금 — 페블러스 원본 도식 | 출처: Benhenda, arXiv:2606.23032 (2026)

여기서 한 가지가 분명해진다. 잘 만든 채점 데이터는 공개하는 순간 가치가 증발하는 희소 자산이다. 930개를 가두는 행위 자체가 그 데이터에 값이 있다는 증거다. 평가 기준은 공짜로 풀어 둘 공공재가 아니라, 오염으로부터 지켜야 할 자산이 된다.

4

Qwen이 Gemini를 이겼다

채점 결과는 예상과 어긋났다. 가장 높은 점수를 받은 것은 가장 비싼 모델이 아니었다. 알리바바의 Qwen 3.7 Max가 79.4%로 1위였고, 쿼리당 비용은 0.30달러였다. 샤오미의 MiMo-2.5 Pro는 76.8%로 그 뒤를 바짝 따랐는데, 쿼리당 비용이 0.05달러에 불과했다.

비교 대상이 된 기존 Finance Agent v2의 최고 성적은 Gemini 3.5 Flash의 57.9%였고, 쿼리당 비용은 2.51달러였다. 새 벤치마크의 상위 모델은 이 상한선을 20%포인트 넘게 끌어올렸다. MiMo-2.5 Pro는 Gemini의 약 50분의 1 비용으로 더 높은 정확도를 냈다.

IPO Finance Agent 모델 성능 비교 이전 상한 Qwen 3.7 Max Alibaba 79.4% $0.30/쿼리 MiMo-2.5 Pro Xiaomi · ★ 최고 가성비 76.8% $0.05/쿼리 Gemini 3.5 Flash Google · 이전 최고 57.9% $2.51/쿼리 ★ MiMo-2.5 Pro: Gemini 비용의 약 1/50로 더 높은 정확도 달성
▲ IPO Finance Agent 모델별 정확도 및 쿼리 비용 비교 — 페블러스 원본 도식 | 출처: Benhenda, arXiv:2606.23032 (2026)

이 역전이 시사하는 바는 명확하다. 재무 분석가로서의 실력은 모델의 크기나 가격이 아니라, 긴 문서에서 근거를 찾아내는 검색 아키텍처와 그 답을 재는 채점 기준의 질에서 갈렸다. 같은 모델이라도 어떻게 검색하고 무엇으로 채점하느냐에 따라 성적이 달라진다는 뜻이다.

점수표를 뒤집은 것은 더 큰 모델이 아니라 더 나은 데이터 설계였다. 검색 단계에서 맥락을 살린 입력과, 자동 생성으로 다듬은 채점 기준이 함께 작동했다. 모델 경쟁의 무대가 파라미터 수에서 데이터와 평가 설계로 옮겨가고 있다.

5

채점 데이터를 신뢰해야 AI를 신뢰한다

이 이야기는 재무 분석에만 해당하지 않는다. 에이전트가 실무를 대신하기 시작하는 모든 자리에서 같은 질문이 따라온다. 모델이 내놓은 결과가 맞는지 누가, 무엇으로 채점하는가. 채점하는 기준이 헐거우면, 그 위에서 매겨진 점수와 순위는 전부 모래 위에 선다.

그래서 평가의 신뢰는 모델이 아니라 채점 데이터에서 출발한다. 채점 기준에 핵심 사실이 빠져 있으면(누락), 그럴듯한 거짓이 섞여 있으면(환각), 같은 것을 여러 번 재면(중복) 점수는 능력을 가리키지 못한다. 이 연구가 세 가지를 명시적으로 감사한 이유가 여기에 있다. 정답표의 품질을 관리하지 않으면 채점 결과도 믿을 수 없다.

공개하면 오염된다는 역설도 같은 줄기다. 평가 기준이 곧 데이터 자산이고, 그 자산은 관리받지 못하면 썩는다. 누락과 환각과 중복을 감사하고, 오염을 막기 위해 일부를 잠그는 일은 모두 데이터 품질의 문제다. AI를 신뢰할 수 있느냐는 질문은, 결국 그 AI를 채점한 데이터를 신뢰할 수 있느냐는 질문으로 되돌아온다.

Editor's Note. 페블러스가 데이터 품질을 다루며 마주하는 과제도 이 지점에 닿아 있다. 모델을 키우기 전에 모델을 채점할 데이터부터 손봐야 한다는 것. 평가 기준 자체의 신뢰성을 확보하는 일은, AI 거버넌스가 다음으로 풀어야 할 데이터 문제다.

?

FAQ

R

참고문헌

R.1학술 논문

R.2공식 문서·보도

읽어주셔서 감사합니다. AI가 내놓은 결과를 만날 때마다 "그 점수는 무엇으로 채점했는가"를 함께 묻는 습관이, 좋아 보이는 성적표와 믿을 만한 성적표를 가려내게 해 줄 것입니다. 이 주제에 대한 생각이나 반론이 있으시면 언제든 나눠 주세요.

(주)페블러스 데이터 커뮤니케이션팀
2026년 6월 24일