Executive Summary
LLM 경쟁의 무게중심이 "더 큰 모델 하나"에서 "여러 모델을 지휘하도록 학습된 코디네이터"로 옮겨 가고 있다. 가장 또렷한 사례가 Sakana AI가 2026년 6월 정식 출시한 Fugu Ultra다. Fugu는 새로운 파운데이션 모델이 아니다. 다른 LLM을 호출하도록 학습된 모델이다. 하나의 엔드포인트 뒤에서 작업을 잘게 쪼개고, 어느 하위 모델이 무엇을 맡을지 정한 다음, 결과를 검증하고 합성한다. if-else 규칙이나 임베딩 유사도 기반 프롬프트 라우팅과 다른 점은, 라우팅 정책 자체를 보상 신호로부터 학습한다는 데 있다. 이 글은 그 변화가 정말 무엇인지, 그리고 왜 결국 데이터 문제인지를 들여다본다.
Sakana는 Fugu Ultra가 Opus 4.8, Gemini 3.1 Pro, GPT-5.5를 상대로 10개 벤치마크 중 8개에서 선두이거나 동률이었다고 발표했다. 그런데 가까이 들여다보면 주장은 들리는 것보다 얇다. 단독 선두는 일곱 개이고, 두 번의 분명한 패배는 모두 장문맥 과제에서 나왔다. 오케스트레이션이 조율 잡음을 줄이기는커녕 더하는 영역이다. 모든 기준 점수는 각 벤더가 자가보고한 수치이고, 모델 풀의 개방형 대 폐쇄형 구성은 공개되지 않았다. 그러니 흥미로운 질문은 순위표 자체가 아니라 그것을 감사(audit)할 수 있느냐에 있다.
Fugu의 마케팅 포장지는 "AI 주권"이다. 수출규제가 풀에서 막아 둔 프런티어 모델 없이도 경쟁력을 유지한다는 주장이다. 그러나 코디네이터가 잘 라우팅하려면 어느 모델이 무엇을 잘하는지에 대한 그림이 정확해야 하고, 그 그림은 뒤에 깔린 벤치마크·평가 데이터만큼만 정확하다. 오케스트레이션 성능의 천장은 모델 평가 데이터의 품질이다. 페블러스의 자리에서 보면 이것은 "모델보다 데이터"의 자연스러운 연장이다. 이제는 모델 자체를 데이터처럼 진단하고, 선택하고, 관리해야 한다.
아래 네 숫자는 그 논지의 모서리를 찍는다. Fugu가 자가보고한 벤치마크 위상, 라우팅을 절박하게 만드는 비용 환경, 그리고 좋은 조합이 단일 모델 하나보다 얻어 내는 측정된 우위다.
8 / 10
선두 또는 동률 벤치마크
Sakana 주장. 그중 일곱은 단독 선두(자가보고)
~10배/년
추론 비용 하락
동일 품질 $/token, a16z "LLMflation"(추정)
75%
라우팅 비용 절감
RouteLLM, GPT-4 품질 95% 유지 기준
+7.6%p
조합의 정확도 우위
Mixture-of-Agents, AlpacaEval에서 GPT-4 Omni 대비
모델을 지휘하는 모델 — Fugu Ultra가 실제로 한 일
Fugu Ultra를 가장 쉽게 오독하는 길은, 그것을 GPT-5.5나 Gemini 3.1 Pro 옆에 또 하나의 프런티어 모델로 끼워 넣는 것이다. Fugu는 종류가 다른 물건이다. 하나의 API 엔드포인트 뒤에서, 들어온 작업을 받아 분해하고, 각 조각을 어느 하위 LLM이 맡을지 정하고, 그 모델들을 호출한 다음(하위 작업이 더 쪼개져야 하면 재귀적으로), 출력을 검증해 하나의 답으로 합성한다. Sakana 자신이 붙인 설명은 직설적이다. 다른 LLM을 호출하도록 학습된 LLM. 여러 모델을 파이프라인으로 엮을 때 사람 시스템 엔지니어가 손으로 하던 일이, 모델 안으로 접혀 들어갔다.
Sakana는 제품을 두 등급으로 낸다. Fugu Mini는 지연 시간에 맞춰 가벼운 조율과 적은 하위 호출을 하고, Fugu Ultra는 최고 성능에 맞춰 더 많은 호출과 검증을 기꺼이 써서 품질을 끌어올린다. 겨냥하는 작업은 분해가 값을 하는 쪽이다. 소프트웨어 엔지니어링, 과학적 추론, 여러 단계를 가로지르는 에이전트 작업. 내부 AutoResearch 실험에서 Fugu Ultra는 H100 한 장으로 약 14시간 동안 123개 실험을 지휘하며 bits-per-byte 최저 0.9748에 도달했고, 그 설정의 모든 단일 모델 기준선을 넘었다. 시연의 핵심은 정확한 숫자가 아니라 그 모양이다. 코디네이터는 여러 구성을 시도하고 가장 좋은 것을 남김으로써 제 몫을 한다.
가격표가 Sakana가 누구를 구매자로 보는지 알려 준다. 구독은 월 $20, $100, $200이고, 기업 사용량은 입력 100만 토큰당 약 $5, 출력 100만 토큰당 약 $30으로 과금하되 장문맥 호출(272K 토큰 초과)은 두 배다. 2026년 7월 말 이전 구독자에게는 둘째 달을 면제하는 출시 프로모션도 걸려 있다. 서류상 출력 토큰 단가는 Opus 4.8 근처에 앉지만, 진짜 비교는 보이는 것보다 까다롭다. Fugu 한 번의 호출이 여러 하위 모델 호출로 번져 나갈 수 있어서, 표시 단가와 실제 비용은 같은 것이 아니다.
주목할 범주는 "또 하나의 모델"이 아니라 "오케스트레이션을 일로 삼는 제품"이다. Fugu의 베팅은 이렇다. 쓸 만한 모델이 쌓일수록 희소해지는 기술은 더 이상 그중 하나를 만드는 일이 아니라, 무엇을 위해 어느 것을 쓸지 자동으로, 그리고 잘 결정하는 일이다. Fugu가 파는 것이 바로 그 결정이다.
학습된 오케스트레이터의 계보
Fugu는 맨땅에서 솟지 않았다. 같은 질문에 답해 온 기법들의 끝자락에 서 있다. 모델 한 무리에서 최고 한 대가 줄 수 있는 것보다 더 많이 뽑아내는 법. 그리고 그 계보는 답을 손으로 박아 넣는 대신 시스템이 학습하게 하는 쪽으로 꾸준히 움직여 왔다. 가장 이른 단계는 단순 프롬프트 라우팅이다. if-else 규칙이나 임베딩 유사도 매칭이 각 질의를 정해진 모델로 보낸다. 쓸모 있지만, 정책은 사람이 고정한다.
거기서부터 아이디어가 쌓인다. Mixture-of-Agents(MoA)는 여러 모델을 층층이 두어 서로의 초안을 다듬게 한다. 가장 인상적인 발견은 "협업성(collaborativeness)"인데, 품질이 낮은 보조 출력조차 본 모델의 답을 끌어올린다는 것이다. FrugalGPT 같은 모델 캐스케이드는 싼 모델부터 비싼 모델까지 순서대로 돌리고, 품질 심판이 언제 상위로 올릴지 정한다. RouteLLM 같은 학습된 라우터는 선호 데이터로 라우터를 훈련해 어느 모델이 가장 낮은 비용으로 품질 기준을 넘길지 예측한다. 가장 최근 단계이자 Fugu의 직계 조상은 학습된 코디네이터다. Sakana 자신의 Conductor·TRINITY 논문은 라우팅 정책 그 자체를 강화학습으로 훈련하며, 정확성과 비용 둘 다를 중심에 두고 보상을 빚는다.
조합이 최고의 단일 모델을 이길 수 있다는 정량적 근거는 이미 기록에 남아 있고, 그 폭도 미미하지 않다.
| 접근 | 선택 방식 | 대표 연구 | 보고된 이득 |
|---|---|---|---|
| 프롬프트 라우팅 | if-else 규칙 / 임베딩 유사도 | OpenRouter류 인프라 | 비용·지연 제어(인프라 수준) |
| Mixture-of-Agents | 여러 모델의 층상 집계 | Wang et al., 2024 | AlpacaEval에서 GPT-4 Omni 대비 +7.6%p(오픈소스만) |
| 모델 캐스케이드 | 싼→비싼, 심판이 상향 게이트 | FrugalGPT, 2023 | GPT-4 대비 비용 73% 절감, 정확도 +1%p |
| 학습된 라우터 | 선호 학습 라우터가 최적 모델 예측 | RouteLLM, 2024 | GPT-4 품질 95% 유지하며 비용 75% 절감 |
| 학습된 코디네이터 | 라우팅 정책에 RL(정확성+비용 보상) | Conductor / TRINITY (Sakana, ICLR 2026) | 7B 코디네이터가 GPQA Diamond 87.5%(> Gemini 2.5 Pro 84.8%) |
오케스트레이션 기법의 계보. 이득은 인용 연구가 보고한 값이며 시스템 간 비교는 근사치다. 출처: arXiv:2406.04692(MoA), arXiv:2406.18665(RouteLLM), FrugalGPT(TMLR 2024), Sakana ICLR 2026.
Fugu에서 진짜 새로운 것은 라우팅을 한다는 사실이 아니다. 라우팅은 오래됐다. 새로운 것은 라우팅 정책을 일등 목표로 삼아 학습한다는 점이다. Qwen2.5-7B 위에 세운 Conductor의 7B 코디네이터가 GPQA Diamond에서 프런티어 모델을 이기는 이유는 그들보다 똑똑해서가 아니라, 언제 어느 쪽에 맡길지를 훈련으로 알기 때문이다. 코디네이터의 지능은 가장 문자 그대로의 의미에서, 그것이 라우팅을 학습한 데이터의 함수다.
"8/10 리드"의 진실 — 무엇을 말하고 무엇을 숨겼나
Sakana의 헤드라인은 Fugu Ultra가 Opus 4.8, Gemini 3.1 Pro, GPT-5.5를 상대로 "10개 벤치마크 중 8개에서 선두 또는 동률"이라는 것이다. 좁은 의미로는 맞고, 보통 사람들이 듣는 방식으로는 오해를 부른다. 단독 선두만 세면 Fugu는 일곱에서 앞선다. SWE-Bench Pro, TerminalBench 2.1, LiveCodeBench, LiveCodeBench Pro, Humanity's Last Exam, CharXiv Reasoning, GPQA-D. 여덟 번째는 SciCode에서의 통계적 동률인데, 여기선 Gemini가 0.2점 앞선다. 그리고 패한 둘, Long Context Reasoning과 MRCRv2는 모두 GPT-5.5에 내줬고, 둘 다 장문맥 과제다.
아래 표는 Sakana가 공개한 수치를 빠짐없이 옮긴 것이다. 모든 숫자는 벤더 자가보고이며, 그 단서는 각주가 아니라 이 섹션의 본론이다.
| 벤치마크 | 영역 | Fugu Ultra | Opus 4.8 | Gemini 3.1 Pro | GPT-5.5 | 선두 |
|---|---|---|---|---|---|---|
| SWE-Bench Pro | 코딩 / SWE | 73.7 | 69.2 | 54.2 | 58.6 | Fugu |
| TerminalBench 2.1 | 에이전트 | 82.1 | 74.6 | 70.3 | 78.2 | Fugu |
| LiveCodeBench | 코딩 | 93.2 | 87.8 | 88.5 | 85.3 | Fugu |
| LiveCodeBench Pro | 코딩 | 90.8 | 84.8 | 82.9 | 88.4 | Fugu |
| Humanity's Last Exam | 일반 지식 | 50.0 | 49.8 | 44.4 | 41.4 | Fugu ≈ Opus |
| CharXiv Reasoning | 과학적 추론 | 86.6 | 84.2 | 83.3 | 84.1 | Fugu |
| GPQA-D | 과학 | 95.5 | 92.0 | 94.3 | 93.6 | Fugu |
| SciCode | 과학 코딩 | 58.7 | 53.5 | 58.9 | 56.1 | Gemini (0.2 차) |
| Long Context Reasoning | 장문맥 | 73.3 | 67.7 | 72.7 | 74.3 | GPT-5.5 |
| MRCRv2 | 장문맥 | 93.6 | 87.9 | 84.9 | 94.8 | GPT-5.5 |
⚠ 모든 점수는 Sakana 자가보고(벤더 보고)이며 독립 검증되지 않았다. 기준선 수치는 각 공급사의 자체 숫자로, 서로 다른 스캐폴드 아래 모은 것이다. 일부 제3자 보고는 서로 어긋난다(예: Fugu의 SWE-Bench Pro가 73.7과 54.2 둘 다로 나타났다). 출처: Sakana AI 공식 표, officechai / explainx 전사, 2026년 6월.
왜 두 번의 패배가 모두 장문맥에서 나왔나
두 패배는 우연이 아니다. Sakana 스스로 인정하기를, 더 가벼운 Fugu가 문서 중심 작업에서 더 낫다고 한다. "과잉 조율(over-coordination)" 잡음을 덜 넣기 때문이다. 솔직하고 또 시사적인 고백이다. 오케스트레이션은 작업을 쪼개고 다시 합칠 수 있을 때 도움이 되고, 작업이 사실은 하나의 긴 단일 흐름이라 모델이 전체 맥락을 한 번에 머릿속에 담아야 할 때는 해가 된다. 두 패배는 반올림 오차가 아니라 오케스트레이션의 자연스러운 경계를 가리키는 정량 신호다.
진짜 약점은 점수가 아니라 투명성
개별 칸에서 한 발 물러서면 더 깊은 문제가 보인다. 이 가운데 독립적으로 재현 가능한 것이 하나도 없다는 점이다. 모든 기준선은 공급사 보고다. Fugu의 에이전트 풀에서 폐쇄형 대 개방형 비율은 공개되지 않았다. Anthropic이 공개한 Opus 점수는 Anthropic 자신의 스캐폴드에서 나왔고 Sakana는 다른 스캐폴드를 돌렸으니, 사과 대 사과의 비교가 아니다. 그리고 단일 수치를 둘러싼 보고 간 충돌(누가 표를 옮겼느냐에 따라 54와 74 사이를 오가는 SWE-Bench Pro)은 중립적 제3자가 그 묶음을 다시 돌려 본 적이 없을 때 정확히 예상되는 그림이다. 감사할 수 없는 벤치마크는, 숫자가 아무리 좋아 보여도 마케팅 산물이다.
"8/10"을 액면 그대로 받으면 Fugu가 코딩·과학에 강하고 장문맥에 약하다는 것을 알게 된다. 그것을 분해하면 더 쓸모 있는 것을 얻는다. 오케스트레이터가 점점 벤치마크로 평가받을 세상에서, 희소하고 값진 것은 신뢰할 수 있는 평가라는 사실이다. 중립적 스캐폴드, 공개된 풀, 재현 가능한 실행. 이것은 순위표의 옷을 입은 데이터 거버넌스 문제다.
AI 주권이라는 외피 — 수출규제와 글로벌 경쟁 구도
Fugu에서 가장 자주 인용되는 화두는 "AI 주권"이고, 그것을 공정하게 읽으려면 그것이 응답하는 규칙부터 봐야 한다. 2025년 1월 미국 산업안보국(BIS)은 "인공지능 확산 프레임워크"를 발표하며 세계를 세 티어로 분류했다. 사실상 무제한 접근의 Tier 1에는 미국과 18개 동맹국이 들어가는데, 한국·일본·대만이 그 안에 있다. Tier 2 국가들은 물량 상한과 검증된 최종사용자 라이선스를 마주한다. Tier 3(중국·러시아·이란·북한 등)은 이름만 아닐 뿐 사실상 수출 금지다. 같은 체제 때문에 특정 프런티어 모델은 세계 어떤 지역에서는 그냥 쓸 수 없다.
Fugu의 서사가 겨누는 곳이 바로 그 틈이다. 주장인즉, 수출 제한된 프런티어 모델 없이도 — 가령 Fable 5나 Mythos를 에이전트 풀에 넣지 않고도 — 합법적으로 닿을 수 있는 모델들을 조합해 경쟁력 있는 성능에 이를 수 있다는 것이다. 일반화하면, 비(非)미국 생태계 누구에게나 통하는 우회 전략이다. 단일 최고 모델을 소유하려 애쓰는 대신, 접근 가능한 것들을 잘 지휘하는 능력을 기르라는 것. Sakana는 GDPR과 EU AI Act 준수 작업이 진행 중인 EU·EEA를 빼고 전 세계에 Fugu를 풀었는데, 이는 둘 다 Tier 1인 한국과 일본이 곧바로 쓸 수 있다는 뜻이다.
짚어 둘 지정학적 저음도 있다. Sakana의 투자자 가운데 In-Q-Tel(미국 정보 공동체와 연관된 벤처 부문)이 있는데, 이는 국방·정보 부문이 바로 이런 종류의 오케스트레이션 역량에 관심을 둔다는 신호로 읽힌다. 여기서 주권은 순전히 상업적인 이야기만은 아니다.
그러나 주권 주장은 떨쳐 낼 수 없는 역설을 안고 있다. Fugu는 여전히 폐쇄형 외부 API를 호출해 일을 하므로, 어떤 완전한 의미로도 독립적이지 않다. 그것이 내놓는 것은 부분적 주권이다. 한 벤더나 한 모델에 묶이지 않고, 부품을 갈아 끼울 수 있다는 것. 이 논의의 정직한 버전은 이렇다. 독립의 토대는 더 이상 모델을 소유하는 것이 아니라 지휘하고 평가하는 역량이며, 그 역량 아래에는 데이터가 깔려 있다.
모델을 데이터처럼 — 오케스트레이션 시대의 데이터 실무
실타래를 한데 모으면 한 곳에서 만난다. 학습된 코디네이터는 자기 풀의 정확한 능력 프로파일을 쥐고 있을 때만 잘 라우팅한다. 어느 모델이 무엇을, 얼마의 비용으로, 얼마의 지연으로 잘하는지. 그 프로파일은 직감이 아니라 데이터다. 평가를 돌리고 결과를 기록해 만들어 낸다. 그 평가 세트에 깃든 편향이나 오염은 무엇이든 라우팅 결정으로 그대로 흘러든다. 그래서 오케스트레이션 품질의 천장은 그 밑에 깔린 평가 데이터의 품질이 정한다. 데이터 품질 문제는 오케스트레이션 시대에 사라지지 않는다. 한 층 위로, 모델 선택으로 올라갈 뿐이다.
이 계층이 가치를 잃기는커녕 계속 얻어 가는 경제적 이유도 있다. 동일 품질 출력의 토큰당 단가는 대략 연 10배씩 떨어지는데, 얼핏 라우팅의 중요성을 줄일 것 같다. 실은 반대다. 단가가 내릴수록 호출량이 폭증한다. Hugging Face에는 이제 200만 개가 넘는 공개 모델이 올라와 있고, OpenRouter 한 곳만 해도 최근 한 달에 약 8.4조 토큰을 처리하며 전년 대비 네 배로 늘었다. 그래서 토큰 하나하나가 싸져도 기업 전체 추론 지출은 오히려 오른다. 이것이 추론에 적용된 제번스 역설이다. 자원이 싸질수록 우리는 더 많이 쓰고, 그래서 그것을 현명하게 쓰는 일이 더 중요해진다. 무엇을 언제 호출할지 정하는 계층은, 바로 그 밑단 호출이 싸지는 만큼 더 값져진다.
자체 LLM 파이프라인을 짓는 팀에게 이것은 세 가지 구체적 규율로 바뀐다. 화려하지 않지만, 지렛대가 있는 곳이다.
- •능력을 데이터로 측정하라. 벤더 순위표가 아니라 자체 평가 세트 위에서 모델별 프로파일(작업 유형 × 정확도 × 비용 × 지연)을 만든다. 라우팅은 이 프로파일만큼만 좋아지고, 측정하지 않은 프로파일은 신뢰할 수 없는 프로파일이다.
- •재현을 위해 결정을 기록하라. 어느 모델이 어느 하위 작업을 왜 맡았고 어떻게 채점됐는지 로그를 남긴다. 그 흔적이 없으면 라우팅 시스템은 감사 불가능하고, 답이 왜 그렇게 나왔는지 설명하거나 재현할 수 없다.
- •의존성을 거버넌스하라. 폐쇄형 API 의존을 관리되는 리스크로 다룬다. 모델을 갈아 끼울 수 있게 유지하고, 능력이 발밑에서 바뀌는 드리프트를 지켜보며, 락인(lock-in)의 값을 매긴다. 지능적 라우팅을 이미 적용한 팀들은 비용을 40~85% 줄였다고 보고하는데, 이것이 우연이 아니라 의도적으로 이 일을 해야 하는 ROI의 근거다.
이 일의 모양은 낯익을 것이다. 모델이 무엇을 잘하는지 진단하고, 측정된 프로파일에 비춰 선택하고, 그 결과를 시간에 걸쳐 관리하는 것은 데이터 팀이 데이터셋을 두고 이미 돌리는 바로 그 루프다. "AI-Ready Data"라는 말은 "AI-Ready Model"로 깔끔하게 연장된다. 오케스트레이션 세상에서 모델은, 깨끗하고 최신이며 장부에 잡혀 있어야 할 또 하나의 자산이다.
"AI 주권"이 정말 모델을 소유하는 데서 모델을 잘 지휘하는 데로 옮겨 가고 있다면, 그 역량 아래 깔린 기반암은 데이터다. 능력 프로파일, 평가 세트, 결정 로그. 오케스트레이션 시대는 데이터 질문을 은퇴시키지 않는다. 그것을 승진시킨다.
편집자 노트
페블러스가 집중해 온 일, 곧 데이터 품질을 진단하고 정제하는 일(DataClinic)과 데이터를 쓸 수 있는 형태로 빚어 내는 일(AI-Ready Data)은 이 글이 설명하는 기본 수요와 같은 자리에 떨어진다. 우리는 이 오케스트레이션 전환을 모델 간의 경쟁이라기보다, 모델 역시 우리가 데이터에 들이는 규율로 다뤄야 할 이유로 읽는다. 측정하고, 기록하고, 거버넌스하는 규율로.
참고문헌
학술 (arXiv / 학회)
- 1.Wang, J., et al. (2024). "Mixture-of-Agents Enhances Large Language Model Capabilities." arXiv:2406.04692 (ICLR 2025). AlpacaEval 2.0 65.1% (+7.6%p).
- 2.Ong, I., et al. (LMSYS). (2024). "RouteLLM: Learning to Route LLMs with Preference Data." arXiv:2406.18665 (ICLR 2025). GPT-4 품질 95%에서 비용 75% 절감.
- 3.Chen, L., Zaharia, M., & Zou, J. (2023). "FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance." TMLR 2024. 비용 73% 절감, 정확도 +1%p.
- 4.Sakana AI. (2026). "Conductor: Learning to Orchestrate Agents in Natural Language." ICLR 2026. 7B (Qwen2.5-7B) 코디네이터, GPQA Diamond 87.5%.
- 5.Sakana AI. (2026). "TRINITY: Evolved LLM Coordinator." ICLR 2026.
업계 & 1차 출처
- 6.Sakana AI. (2026). "Fugu" (공식 발표, 베타 2026년 4월 → 정식 2026년 6월).
- 7.Digg. (2026). "Sakana AI launches Fugu Ultra, an agent orchestration model." Digg (주제 출처).
- 8.TechCrunch. (2025, November 17). "Sakana AI raises Series B at a $2.65B valuation." TechCrunch.
- 9.OpenRouter. (2026). "State of AI" (100조 토큰 분석); Sacra, OpenRouter 프로필.
- 10.Hugging Face. (2026). "State of Open Source — Spring 2026" (200만+ 공개 모델).
정책 · 통계 · 시장
- 11.US Bureau of Industry and Security. (2025, January 13). "Framework for Artificial Intelligence Diffusion" (AI 확산 규칙 — 3티어 구조).
- 12.Appenzeller, M. (a16z). (2024). "LLMflation"; Epoch AI, LLM 추론 단가 추세(연 ≈10배 하락).
- 13.MarketIntelo. (2025). "AI Multi-Agent Orchestration Market" (2025년 $5.8B → 2034년 $37.4B, CAGR 23.7%; 기관마다 추정 편차).
※ Fugu Ultra 벤치마크 수치는 벤더 자가보고이며 독립 검증되지 않았다. 시장 규모는 출처의 정의에 따라 달라지며 추정치로 제시한다. 보고가 충돌하는 경우(예: SWE-Bench Pro 54.2 대 73.7)는 더 널리 전사된 값을 표에 쓰고 충돌을 표기했다.