에이전트 프레임워크 빅뱅 — 자율 AI 운영의 3가지 갈림길

Executive Summary

2025년 하반기, GitHub에 세 개의 레포지토리가 잇따라 등장했습니다. Microsoft의 agent-lightning(강화학습 기반 에이전트 훈련, 2025.06), NousResearch의 hermes-agent(자기개선형 에이전트, 2025.07), obra의 superpowers(자율코딩 방법론, 2025.10). 누적 스타만 16.4천 · 21.0천 · 129.4천 개. 오픈소스 커뮤니티가 특정 주제에 이 속도로 집중되는 것은 드문 일입니다.

이 세 프레임워크는 각각 다른 질문에 답합니다. "어떻게 에이전트를 더 잘 훈련할 것인가(RL)", "어떻게 에이전트가 스스로 발전하게 할 것인가(자기개선)", "어떻게 에이전트가 신뢰할 수 있는 코드를 생성하게 할 것인가(TDD)". 방법은 다르지만 목적지는 같습니다. 사람의 개입 없이 더 오래, 더 정확하게 작동하는 AI.

그리고 여기서 놓치기 쉬운 것이 하나 있습니다. 에이전트가 자율화될수록, 그 에이전트가 다루는 데이터의 품질이 결과를 결정한다는 사실입니다. 보상 신호가 잘못되면 RL 에이전트는 엉뚱한 방향을 학습합니다. 오염된 스킬이 축적되면 자기개선 에이전트는 점점 더 나쁜 방향으로 진화합니다. 테스트 데이터가 불완전하면 자율코딩 에이전트는 겉으로는 통과하지만 실제로는 망가진 코드를 납니다. 에이전트 프레임워크 전쟁의 진짜 결승선은 데이터 품질에 있습니다.

1

왜 지금 프레임워크 전쟁인가

LLM이 충분히 강력해지면 다음 질문은 자연스럽게 이것이 됩니다. "한 번 추론하는 것을 넘어, 어떻게 연속적으로 행동하게 할 것인가?" GPT-4가 등장한 이후 2~3년간 업계는 이 질문의 답을 탐색했습니다. 단순한 함수 호출(function calling)에서 시작해, ReAct 패턴, Multi-agent 협업, 툴 체인 자동화까지 다양한 접근이 시도됐습니다.

그런데 2025년 하반기부터 분위기가 달라졌습니다. "어떻게 에이전트가 행동하는가"보다 "어떻게 에이전트가 더 잘하도록 만드는가"로 관심이 이동했습니다. 훈련 방법론, 자기개선 루프, 코딩 에이전트의 신뢰성 — 이 세 영역에서 각각 유력한 오픈소스 프레임워크가 동시에 등장한 것은 우연이 아닙니다. LLM이 에이전트의 기반이 될 만큼 충분히 성숙해졌고, 이제 그 위에 올라타는 운영 계층을 누가 먼저 표준으로 만드느냐의 경쟁이 시작된 것입니다.

에이전트 AI 진화의 3단계

1

단일 추론 (2022~2023)

프롬프트 → 응답. LLM이 질문에 답하는 단계. GPT-3.5, Claude 1 시대.

2

도구 호출 에이전트 (2023~2024)

검색, 코드 실행, API 호출을 연쇄적으로 수행. ReAct, LangChain, Claude Tool Use 시대.

3

자율 운영 에이전트 (2025~)

스스로 학습하고, 스스로 개선하며, 스스로 코드를 검증하는 에이전트. 지금 이 프레임워크들이 싸우는 무대.

이 세 단계는 단순한 기술 발전의 나열이 아닙니다. 각 단계마다 병목이 달라집니다. 1단계의 병목은 모델 성능이었습니다. 2단계의 병목은 도구 통합의 신뢰성이었습니다. 3단계의 병목은 무엇일까요? 이 글의 마지막 섹션에서 답을 다룹니다.

2

agent-lightning — RL로 에이전트를 훈련한다

microsoft/agent-lightning은 강화학습(Reinforcement Learning) 기반으로 AI 에이전트를 훈련하는 프레임워크입니다. 2025년 6월 Microsoft가 공개했고, 현재 16,372개의 GitHub 스타를 받았습니다. MIT 라이선스로 자유롭게 사용할 수 있습니다.

2.1 핵심 아이디어: 행동의 결과로 학습한다

기존 LLM 파인튜닝은 "이 입력에 이 출력을 내라"는 정답 데이터가 필요합니다. 그런데 에이전트의 행동은 정답이 명확하지 않은 경우가 많습니다. 웹을 검색해서 리포트를 작성하는 에이전트라면, "좋은 검색"과 "나쁜 검색"을 어떻게 레이블링할 것인가? agent-lightning은 이 문제를 강화학습으로 풉니다.

에이전트가 환경과 상호작용하면서 행동을 취하고, 그 결과로 보상(reward) 신호를 받습니다. 보상이 높은 행동 패턴은 강화되고, 낮은 패턴은 약화됩니다. 체스 AI가 승패로 학습하듯, 에이전트가 "태스크를 잘 완료했는가"라는 결과 신호로 행동 전략을 개선하는 방식입니다.

agent-lightning 핵심 정보

개발사

Microsoft

GitHub Stars

16,372 ★

라이선스

MIT

공개일

2025년 6월

핵심 접근

강화학습(RL) 기반 에이전트 행동 최적화

2.2 어떤 팀에 맞는가

agent-lightning은 AI 연구팀이나 고도화된 MLOps 팀에 적합합니다. RL 훈련 인프라를 구축하고 보상 함수를 설계하는 것은 상당한 기술적 투자가 필요합니다. 반면 한 번 잘 훈련된 에이전트는 특정 도메인에서 매우 높은 성능을 낼 수 있습니다. 코드 리뷰 에이전트, 데이터 파이프라인 모니터링 에이전트처럼 "잘한다"의 기준이 명확한 도메인에서 특히 강점을 발휘합니다.

3

hermes-agent — 에이전트가 스스로 진화한다

NousResearch/hermes-agent는 자기개선(self-improving) 에이전트 프레임워크입니다. 2025년 7월 공개됐고, 현재 21,017개의 스타를 받았습니다. 오픈소스 LLM 커뮤니티에서 특히 주목받는 NousResearch의 작품답게, 철학이 명확합니다. "에이전트는 쓸수록 더 잘해야 한다."

3.1 세 가지 핵심 메커니즘

hermes-agent는 세 축으로 자기개선을 구현합니다. 첫째, 스킬 생성(Skill Generation)입니다. 에이전트가 특정 태스크를 성공적으로 완료하면, 그 경험에서 재사용 가능한 스킬을 추출해 저장합니다. 두 번째로 비슷한 태스크가 오면, 저장된 스킬을 먼저 시도합니다. 인간이 경험에서 요령을 터득하듯, 에이전트가 노하우를 쌓는 방식입니다.

둘째, 사용자 모델링(User Modeling)입니다. 에이전트는 특정 사용자와 상호작용하면서 그 사용자의 선호, 작업 패턴, 자주 쓰는 표현을 내부적으로 모델링합니다. 시간이 지날수록 개인화된 에이전트가 되는 것입니다. 셋째, 다채널 인터페이스(Multi-channel Interface)로 슬랙, 이메일, 웹훅 등 다양한 채널을 통해 학습 신호를 수집하고, 일관된 사용자 모델을 유지합니다.

hermes-agent 핵심 정보

개발사

NousResearch

GitHub Stars

21,017 ★

라이선스

MIT

공개일

2025년 7월

핵심 접근

스킬 축적 + 사용자 모델링을 통한 자기개선

3.2 어떤 팀에 맞는가

hermes-agent는 프로덕트 팀, 특히 사용자와 반복적으로 상호작용하는 AI 어시스턴트를 만드는 팀에 적합합니다. 처음에는 평범하게 시작해도, 고객 인터랙션이 쌓일수록 에이전트가 그 회사, 그 고객, 그 도메인에 특화된 전문가가 됩니다. 고객 지원, 내부 헬프데스크, 반복 업무 자동화 에이전트 등에서 장기적인 ROI를 기대할 수 있습니다.

4

superpowers — 에이전트가 테스트부터 짠다

obra/superpowers는 세 프레임워크 중 단연 가장 큰 커뮤니티를 형성했습니다. 2025년 10월 공개 이후 현재까지 129,443개의 GitHub 스타 — 코딩 에이전트 관련 레포 중 최상위권입니다. 핵심 아이디어는 AI 코딩 에이전트에 테스트 주도 개발(TDD, Test-Driven Development) 방법론을 적용하는 것입니다.

4.1 왜 TDD인가

기존 코딩 에이전트의 가장 큰 문제는 "코드가 실행은 되지만 제대로 작동하지 않는" 경우입니다. 에이전트가 표면적으로는 요구사항을 만족하는 코드를 작성하지만, 엣지 케이스에서 실패하거나 보안 취약점을 포함합니다. superpowers는 이 문제를 TDD로 해결합니다.

순서는 이렇습니다. 에이전트가 코드를 짜기 전에 먼저 테스트를 작성합니다. 어떤 입력이 오면 어떤 출력이 나와야 하는지, 어떤 상황에서 에러를 던져야 하는지를 명세합니다. 그런 다음 그 테스트를 통과하는 코드를 작성합니다. 마지막으로 테스트를 실행하고, 통과하지 못한 케이스가 있으면 코드를 수정합니다. 인간 개발자들이 수십 년간 발전시킨 소프트웨어 공학 방법론을 AI 에이전트에 이식한 것입니다.

superpowers 핵심 정보

개발사

obra (오픈소스 커뮤니티)

GitHub Stars

129,443 ★

공개일

2025년 10월

핵심 접근

TDD 방법론 기반 자율코딩

4.2 왜 12만 스타인가

superpowers가 다른 두 프레임워크에 비해 압도적으로 많은 스타를 받은 이유는 타깃의 차이에 있습니다. agent-lightning과 hermes-agent는 주로 AI 엔지니어를 위한 도구입니다. superpowers는 모든 소프트웨어 개발자가 공감하는 문제를 건드렸습니다. "AI가 짜준 코드, 믿을 수 있나?" 이 질문은 GPT-4 코파일럿을 한 번이라도 써본 개발자라면 누구나 경험하는 불안입니다. superpowers는 그 불안에 대한 구체적인 답을 제시했습니다.

5

3종 비교와 선택 기준

세 프레임워크는 목적이 다르기 때문에 직접 비교보다 "어느 문제를 풀고 싶은가"로 선택하는 것이 맞습니다. 아래 표는 주요 차원에서의 비교입니다.

구분	agent-lightning	hermes-agent	superpowers
핵심 질문	어떻게 잘 훈련하나	어떻게 스스로 나아지나	어떻게 신뢰할 코드를 짜나
기술 기반	강화학습 (RL)	스킬 축적 + 사용자 모델	TDD 방법론
GitHub Stars	16,372 ★	21,017 ★	129,443 ★
라이선스	MIT	MIT	공개 (오픈소스)
진입 난이도	높음 (RL 인프라 필요)	중간	낮음 (개발자 친화적)
적합한 팀	AI 연구팀 · MLOps	프로덕트팀 · CS팀	소프트웨어 개발팀 전반
데이터 의존성	보상 신호 품질이 핵심	축적된 스킬 품질이 핵심	테스트 데이터 품질이 핵심

표의 마지막 행 — "데이터 의존성"을 눈여겨보시기 바랍니다. 세 프레임워크 모두 다른 이름의, 그러나 본질적으로 동일한 의존성을 가집니다. 좋은 데이터, 혹은 좋은 신호. 이것이 다음 섹션의 주제입니다.

6

데이터 품질이 결정한다

자율 에이전트 운영의 3단계 중 병목이 무엇이냐는 질문의 답이 여기 있습니다. 1단계(단일 추론)의 병목은 모델 성능이었습니다. 2단계(도구 호출)의 병목은 통합 신뢰성이었습니다. 3단계(자율 운영)의 병목은 데이터 품질입니다.

6.1 RL 에이전트와 보상 신호

강화학습은 보상 함수의 품질에 전적으로 의존합니다. "에이전트가 좋은 행동을 했다"는 신호가 정확해야 에이전트가 올바른 방향으로 학습합니다. 그런데 현실의 보상 신호는 종종 노이즈를 포함합니다. 사용자가 "좋아요"를 눌렀지만 실제로는 형편없는 답이었을 수도 있고, 비즈니스 지표가 개선됐지만 그것이 에이전트의 행동 덕분인지 다른 요인 때문인지 불명확한 경우가 많습니다. 잘못 설계된 보상 신호로 훈련된 에이전트는 "보상 해킹(reward hacking)" — 지표를 조작하는 방법을 학습합니다. 결과물은 높은 점수를 받지만 실제 도움이 되지 않는 에이전트가 됩니다.

6.2 자기개선 에이전트와 스킬 오염

hermes-agent처럼 스킬을 축적하고 재사용하는 에이전트는 초기 스킬의 품질이 장기적 성능을 결정합니다. 잘못된 접근 방식이 "성공적인 스킬"로 기록되면, 이후 모든 유사 태스크에서 그 잘못된 방식이 반복됩니다. 더 나쁜 것은, 잘못된 스킬이 다른 스킬과 결합되면서 오류가 증폭될 수 있다는 점입니다. 인간 조직에서 잘못된 관행이 오랫동안 관례로 굳어지는 것과 같은 문제입니다. 주기적인 스킬 감사(audit)와 데이터 정제가 필수입니다.

6.3 자율코딩 에이전트와 테스트 데이터

TDD는 테스트의 품질만큼만 신뢰할 수 있습니다. 테스트가 중요한 케이스를 빠뜨리면, 에이전트는 그 케이스를 커버하지 않는 코드를 작성하고도 "통과"라고 판단합니다. 불완전한 테스트 스위트는 불완전한 보장을 줄 뿐입니다. superpowers의 힘은 테스트를 먼저 쓴다는 방법론에서 나오지만, 그 테스트가 얼마나 포괄적이고 정확한지는 여전히 사람과 데이터에 달려 있습니다.

세 프레임워크의 공통 결론: 에이전트가 자율화될수록, 인간의 개입이 줄어들수록, 그 에이전트가 기반으로 삼는 데이터의 품질이 결과의 상한을 결정합니다. 프레임워크는 구조를 제공하지만, 신뢰는 데이터에서 옵니다. 에이전트 프레임워크 선택보다 먼저 해야 할 질문은 "우리 데이터는 이 에이전트를 신뢰할 수 있을 만큼 좋은가"입니다.

✓

결론

에이전트 AI 프레임워크 전쟁은 2025년에 시작됐고, 2026년인 지금도 진행 중입니다. agent-lightning은 보상으로 에이전트를 훈련하고, hermes-agent는 경험으로 에이전트를 진화시키며, superpowers는 테스트로 에이전트 코딩을 검증합니다. 방법은 다르지만, 이 세 접근이 가리키는 방향은 같습니다. 사람의 개입 없이 더 오래, 더 정확하게 작동하는 AI.

그 방향으로 나아가기 위한 조건도 명확해지고 있습니다. 에이전트가 학습하는 신호가 깨끗해야 하고, 에이전트가 축적하는 스킬이 정확해야 하며, 에이전트가 코드를 검증하는 테스트가 포괄적이어야 합니다. 이것은 결국 데이터 품질의 문제입니다. 프레임워크가 아무리 정교해도, 입력이 오염되면 출력도 오염됩니다.

페블러스가 이 트렌드를 주목하는 이유가 여기 있습니다. 에이전트 시대의 AI는 데이터 파이프라인의 끝에 있는 소비자가 아닙니다. 에이전트는 데이터를 만들고, 데이터로 학습하고, 데이터를 기반으로 판단합니다. 데이터 품질이 에이전트의 품질을 결정하는 시대가 왔습니다.

이 글이 도움이 됐다면, 다음에 다뤄야 할 주제나 질문을 편하게 알려 주세요. 에이전트 AI와 데이터 품질의 교차점에서 페블러스는 계속 리포트를 쌓아갑니다.

(주)페블러스 데이터 커뮤니케이션팀
2026년 4월 1일