Executive Summary
hermes-agent는 7주 만에 GitHub 61,000 스타를 돌파했고, 2026년 5월 다시 +2,065 stars/day 트렌딩에 복귀했다. 이 폭발적 성장의 본질은 단순한 기술적 우월성이 아니라 "사용자와 함께 성장하는 에이전트"라는 약속이다. Task Execution → Outcome Evaluation → Skill Abstraction → Skill Refinement으로 이어지는 4단계 자가 학습 루프, Honcho 기반 변증법적 사용자 프로파일링, 세션 간 영속 메모리는 LangChain의 무상태, CrewAI의 제한적 메모리, AutoGPT의 자기 프롬프팅을 한꺼번에 넘어서는 패러다임 전환을 보여준다.
이것은 에이전틱 AI 시장 $43.5억(2025)→$1,391.9억(2034)의 성장이 단순한 도구 시장이 아니라 자율형 데이터 운영체제(Autonomous Data OS) 시장임을 시사한다. 사용할수록 스스로 더 나아지는 에이전트는, 곧 사용할수록 더 정교해지는 데이터 파이프라인이다. 페블러스의 데이터 그린하우스가 추구하는 자율 데이터 운영체제 비전과 정확히 같은 궤도에 있다.
물론 자가 진화에는 그림자도 있다 — 우리는 그것을 페어 글: hermes-agent의 자가 학습 루프, 왜 데이터 품질이 무너지는가에서 정면으로 다뤘다. 두 글은 같은 현상의 양면이다. 본문은 에이전트가 어떻게 성장하는지, 그 성장이 페블러스가 그리는 자율형 데이터 미래와 어떻게 만나는지를 다룬다.
에이전트는 도구에서 동반자로
2026년 4월의 hermes-agent는 GitHub 트렌딩의 정상에 올랐다. 그리고 한 달 뒤인 5월 13일, 다시 +2,065 stars/day로 트렌딩 1위에 복귀했다. 누적 145,000 스타를 넘어선 이 프로젝트가 보여주는 것은 단순한 인기가 아니다. 개발자 커뮤니티 전체가 "도구가 아닌 동반자"라는 새로운 에이전트 패러다임에 표를 던졌다는 신호다.
기존의 LLM 기반 에이전트는 "지시를 받으면 답한다"의 무상태(stateless) 모델이었다. 매 세션이 백지 상태에서 시작하고, 사용자는 매번 자신을 다시 설명해야 했다. 이것은 AI를 도구로 다루는 방식이다. 망치는 매번 같은 망치고, 어제 무엇을 박았는지 기억하지 않는다.
hermes-agent의 약속은 다르다. "함께 성장한다(grows with you)"는 단순한 마케팅 카피가 아니라 아키텍처 선언이다. 사용자와의 모든 상호작용이 에이전트의 스킬 라이브러리에 축적되고, 사용자의 선호와 사고 패턴이 변증법적으로 프로파일링되며, 세션이 끝나도 학습이 소실되지 않는다. 오늘 가르친 것이 내일도 살아있는 에이전트가 처음으로 오픈소스로 등장한 것이다.
핵심 통찰: 5월 트렌딩 복귀의 의미는 "성장하는 에이전트"라는 컨셉이 4월의 일시적 유행이 아니라 지속 가능한 패러다임 전환임을 검증한다는 데 있다. 한 달 사이 393명의 기여자가 합류했고, 393개 이상의 PR이 통합되었다.
4단계 학습 루프의 내부
hermes-agent의 심장은 Closed Learning Loop다. 이것은 단순한 강화학습 루프가 아니다. 매 태스크 실행마다 네 단계가 자동으로 작동한다.
① Task Execution
사용자 의도를 파싱하고, 적절한 스킬을 호출하거나 새로 합성한다. 실행 컨텍스트는 메모리에 남는다.
② Outcome Evaluation
결과의 성공·실패를 자체 평가한다. 사용자 피드백, 오류 로그, 도구 호출 패턴이 입력이 된다.
③ Skill Abstraction
반복되는 패턴을 일반화 가능한 스킬로 추상화한다. 일회성 코드가 재사용 가능한 메서드가 된다.
④ Skill Refinement
기존 스킬을 새로운 경험으로 갱신한다. 같은 일을 더 빠르고 정확하게 처리하는 진화 메커니즘이다.
이 4단계는 매 세션 종료 시점이 아니라 매 태스크마다 작동한다. 즉 에이전트는 일을 하면서 동시에 학습한다. 분리된 학습 단계가 존재하지 않는다는 점이 LangChain의 LCEL(LangChain Expression Language) 기반 정적 체인과 결정적으로 다르다.
중요한 것은 이 루프가 도구의 점진적 마스터리(progressive mastery of tools)를 가능하게 한다는 점이다. 첫날 어색하게 사용하던 도구가 100번째 호출에서는 거의 인간 전문가 수준의 패턴으로 사용된다. 이것이 단순한 캐싱이나 retrieval-augmented generation으로 흉내낼 수 없는 진정한 학습이다.
3중 메모리 아키텍처
hermes-agent가 "함께 성장한다"는 약속을 실제로 구현하는 방법은 3중 메모리 시스템이다. 각각 다른 시간 척도, 다른 데이터 형식, 다른 학습 목적을 가진다.
3.1. Skill Library — 절차적 메모리
에이전트가 학습한 모든 스킬은 검색 가능한 라이브러리에 저장된다. Python 함수, API 호출 시퀀스, 도구 조합 패턴이 메타데이터(태그, 설명, 사용 빈도, 성공률)와 함께 저장된다. 이것은 인간의 "하는 법을 안다(know-how)"에 해당하는 절차적 지식이다.
3.2. Honcho — 변증법적 사용자 프로파일링
Honcho는 hermes-agent가 채택한 변증법적(dialectical) 사용자 모델링 시스템이다. 단순히 "사용자가 이렇게 말했다"를 기록하는 것이 아니라, 대화 속 사용자의 가정, 선호, 추론 패턴, 가치 체계를 추출하여 진화하는 사용자 프로파일을 구축한다. 사용자가 모순된 선호를 보이면 시스템은 그 모순 자체를 더 깊은 컨텍스트로 흡수한다.
3.3. Session Persistence — 영속 메모리
대화 컨텍스트, 작업 중인 프로젝트 상태, 미완료 태스크는 세션 간에 영속된다. 사용자가 어제 작성하던 코드를 오늘 이어서 작업할 때, 에이전트는 "어디까지 했는지"를 안다. 이것은 OpenAI Assistants API의 thread 개념을 확장한 형태로, 메타데이터 인덱싱과 시맨틱 검색이 결합되어 있다.
핵심 차별점: 이 세 메모리는 서로 분리된 것이 아니라 상호 참조하는 그래프로 결합되어 있다. 사용자 프로파일이 스킬 선택에 영향을 주고, 스킬 사용 패턴이 사용자 프로파일을 정교화한다. 단방향이 아닌 양방향 학습이다.
왜 LangChain·CrewAI를 넘어섰나
기존 에이전트 프레임워크들은 각자의 한계를 가지고 있었다. hermes-agent의 등장은 이 한계들을 동시에 해소하는 첫 시도다.
| 프레임워크 | 메모리 모델 | 학습 메커니즘 | 한계 |
|---|---|---|---|
| LangChain | 무상태 체인 | 없음 | 매 호출이 독립적, 학습 부재 |
| CrewAI | 제한적 short-term | 롤플레이 합의 | 장기 기억 부재, 스킬 진화 없음 |
| AutoGPT | 자기 프롬프팅 | 자기 비판 | 발산적, 수렴 보장 없음 |
| hermes-agent | 3중 영속 | 4단계 루프 | 자가 진화의 그림자 (페어 글) |
hermes-agent가 결정적으로 다른 지점은 "학습이 사용의 부산물이다"라는 설계 철학이다. LangChain은 학습을 위해서는 별도의 fine-tuning 파이프라인이 필요하다. CrewAI는 메모리를 명시적으로 관리해야 한다. AutoGPT는 자기 프롬프팅의 비용이 통제되지 않는다. hermes-agent는 이 세 가지를 모두 아키텍처 레벨에서 해소했다.
자율형 데이터 운영체제(Data OS)와의 만남
여기서 페블러스가 주목하는 지점이 시작된다. hermes-agent가 보여준 것은 "에이전트가 자가 진화하면, 그 에이전트가 처리하는 데이터 파이프라인도 자가 진화한다"는 사실이다. 그리고 이것은 정확히 페블러스 데이터 그린하우스(Data Greenhouse)가 추구해 온 자율형 데이터 운영체제(Autonomous Data OS) 비전과 같은 궤도다.
Hermes Agent의 자가 진화
사용자 의도 → 스킬 합성 → 평가 → 스킬 라이브러리 갱신. 시간이 갈수록 더 정교한 도구 호출.
Data Greenhouse의 자율 운영
데이터 진단 → 품질 보강 → 학습 → 파이프라인 갱신. 시간이 갈수록 더 정교한 데이터 운영.
두 시스템은 같은 메타 아키텍처를 가진다. "실행하면서 학습하고, 학습한 것이 다음 실행을 개선한다". 차이는 학습의 대상이다. Hermes는 스킬을 학습하고, Data Greenhouse는 데이터 파이프라인을 학습한다. 그리고 이 둘이 결합될 때, 진정한 자율형 데이터 운영체제가 가능해진다.
에이전틱 AI 시장 규모가 $43.5억(2025)에서 $1,391.9억(2034)으로 32배 성장한다는 전망은 단순한 도구 시장의 확장이 아니다. 도구가 자가 진화하는 시스템으로 전환된다는 의미다. 그리고 그 시스템이 처리하는 데이터 역시 같은 속성을 가져야 한다 — 자가 진단, 자가 보강, 자가 갱신하는 데이터.
성장의 그림자, 한 페이지의 균형
"성장한다"는 말은 그 자체로 절반의 진실이다. 모든 성장에는 비용이 있고, 자가 진화에는 통제되지 않은 발산의 위험이 있다. 우리는 이 글의 페어로 hermes-agent의 그림자 — 자가 학습 루프가 데이터 품질에 미치는 구조적 위험 — 를 정면으로 다뤘다.
📖 페어 글로 이동: hermes-agent의 자가 학습 루프, 왜 데이터 품질이 무너지는가
위험 글은 Feedback Loop Contamination, Distribution Shift, Error Fossilization이라는 세 가지 구조적 위험을 다룬다. Nature 논문이 실증한 모델 붕괴 현상(합성 데이터 1/1000만 섞여도 발생), EU AI Act 2026년 8월 전면 시행에 따른 문서화 의무, 그리고 외부 검증자 삽입이 학술적으로 증명된 유일한 해결책이라는 사실까지.
두 글의 관계는 비판과 옹호가 아니라 같은 현상의 양면이다. 페블러스는 자가 진화하는 에이전트의 가능성을 인정하고(이 글), 동시에 그 진화가 통제되지 않을 때의 위험을 직시한다(페어 글). 이 입체적 시각이 단순한 도구 비교가 아닌 아키텍처적 통찰로 이어진다.
"성장하는 에이전트"의 진짜 가치는 그것이 통제 가능할 때만 실현된다. 그리고 그 통제는 외부에서 와야 한다 — 에이전트 자체가 아닌, 데이터 품질을 지속적으로 진단하는 독립된 검증 시스템에서.
한 달의 응답: NousResearch는 무엇을 바꿨나
페어 글이 발행된 2026년 4월 12일 이후, NousResearch는 5번의 정식 릴리스를 발행했다 — v0.9.0(4/13), v0.10.0(4/16), v0.11.0(4/23), v0.12.0(4/30), v0.13.0(5/7). 같은 기간 누적 4,000건이 넘는 커밋과 2,000건 이상의 PR이 통합되었다. 이 폭발적 개발 속도 속에서 위험 글이 지적한 세 가지 구조적 위험이 어떻게 다뤄졌는지를 사실 기반으로 짚어본다.
7.1. Autonomous Curator (v0.12.0, 4월 30일) — Error Fossilization 직접 대응
v0.12.0의 핵심 신기능은 Autonomous Curator다. hermes curator는 게이트웨이 cron 위에서 백그라운드 에이전트로 동작하며 기본 7일 주기로 스킬 라이브러리를 등급화(grade) · 통합(consolidate) · 가지치기(prune)한다. 사용 빈도와 성공률 기반으로 죽은 스킬을 폐기하고, 유사 스킬을 모델 + 휴리스틱으로 분류하여 합친다. 매 실행은 logs/curator/run.json과 REPORT.md로 감사 흔적을 남긴다.
이것은 페어 글이 지적한 Error Fossilization(오류 화석화)을 정면으로 겨냥한 첫 공식 메커니즘이다. 잘못된 스킬이 무한정 누적되지 않도록 자체 정리 루프가 들어간 것이다. 동시에 v0.12.0은 self-improvement loop(매 턴 이후 무엇을 저장할지 결정하는 background review fork) 자체를 "대폭 업그레이드"했다고 명시한다.
7.2. Hallucination Gate & Kanban (v0.13.0, 5월 7일) — Outcome Evaluation 보완
v0.13.0 "Tenacity Release"는 멀티 에이전트 Kanban 보드를 도입하면서 heartbeat, reclaim, zombie detection, per-task retries, hallucination recovery, hallucination gate를 함께 탑재했다. 이는 위험 글이 지적했던 자기 평가 실패 — "항상 자기가 잘했다고 생각한다" — 에 대한 부분적 응답으로 읽힌다. 외부 검증자는 여전히 없지만, 내부 게이트와 재시도 예산이 무한 발산을 막는 안전장치 역할을 한다.
7.3. 보안·거버넌스 강화 (v0.13.0) — 8개 P0 보안 이슈 해소
같은 릴리스에서 보안 영역 8건의 P0 이슈가 해소됐다. redaction(민감정보 마스킹) 기본 ON, Discord 권한 화이트리스트의 길드 범위 한정, WhatsApp 기본 거부 정책, auth.json과 MCP OAuth 영역의 TOCTOU 윈도우 폐쇄. EU AI Act 2026년 8월 시행을 앞두고 거버넌스 면이 빠르게 강화되고 있다는 신호다.
7.4. 사실 기반 점검표 — 무엇이 해소되었고 무엇이 남았나
| 위험 글의 지적 (2026-04-12) | 한 달 뒤의 응답 | 평가 |
|---|---|---|
| Error Fossilization | v0.12.0 Autonomous Curator — 7일 주기 자동 prune/consolidate | 부분 해소 (내부 자동화) |
| Feedback Loop Contamination | v0.12.0 self-improvement review fork "대폭 업그레이드", v0.13.0 hallucination gate | 부분 보완 (내부 게이트 강화) |
| Distribution Shift | 릴리스 노트에 직접적 대응 명시 없음 | 미해결 |
| 외부 검증자 부재 | 모든 신규 메커니즘이 내부 자기 평가 기반 | 미해결 — 페블러스 솔루션 유효 |
| 규제·거버넌스 대응 | v0.13.0 P0 보안 8건 해소, redaction 기본 ON | 개선 진행 중 |
공정한 평가: NousResearch는 위험 글이 지적한 문제들을 외면하지 않았다. Autonomous Curator는 진지한 응답이고, hallucination gate는 옳은 방향이다. 다만 모든 새 메커니즘이 여전히 에이전트 내부에서 작동한다는 점은 변하지 않았다. 자기가 자기를 평가하고, 자기가 자기 스킬을 정리한다. 이것이 페어 글이 지적한 핵심 한계 — "외부 검증자가 학술적으로 증명된 유일한 해결책" — 가 여전히 유효한 이유다.
2026년 5월 트렌딩의 의미
2026년 5월 13일, hermes-agent는 GitHub 트렌딩에서 +2,065 stars/day로 다시 1위에 올랐다. 4월 정점 이후 한 달이 지났음을 고려하면, 이것은 단순한 "신규 프로젝트 하이프"가 아니다.
5월 트렌딩 복귀의 세 가지 의미
- • ① 컨셉의 지속성 검증: "함께 성장하는 에이전트"가 4월의 일시적 유행이 아니라 개발자 커뮤니티의 지속적 수요라는 증거다. 한 달 사용 후에도 트래픽이 유지된다는 것은 실제로 작동한다는 의미다.
- • ② 엔터프라이즈 도입 신호: 5월 별점 폭증의 상당 부분은 4월에 도입한 팀들이 동료에게 추천한 결과로 추정된다. 즉 1:N 확산이 시작되었다.
- • ③ 시장의 합의 형성: NousResearch의 기업가치가 Series A에서 $10억에 도달한 것은 단순 유행이 아닌 "무상태 에이전트의 시대는 끝났다"는 시장의 합의를 반영한다.
동시에 5월에 새롭게 떠오른 시그널이 있다. GitHub 이슈 트래커에서 "메모리 비용"과 "학습 데이터 감사"가 가장 많이 논의되는 주제로 부상했다. 사용자들이 자가 진화의 마법에 매료된 단계를 지나, 운영적 통제와 거버넌스를 묻기 시작한 것이다. 이것이 정확히 페블러스 DataClinic이 답해야 할 질문이다.
페블러스의 응답: 진화하는 데이터 + 진화하는 에이전트
자가 진화하는 에이전트의 시대에 페블러스가 제시하는 답은 단순하다. "에이전트만 진화시키지 마라. 데이터도 함께 진화시켜라."
현재의 hermes-agent 도입은 한 가지 가정에 기반한다 — 학습에 사용되는 데이터의 품질이 시간이 지나도 유지된다는 가정. 그러나 자가 진화 에이전트는 자신이 생성한 데이터를 다시 학습에 사용한다. 페어 글에서 다룬 대로, 이것은 모델 붕괴와 오류 화석화로 이어질 수 있다. 해결책은 학습을 막는 것이 아니라, 학습되는 데이터를 지속적으로 진단하고 보강하는 것이다.
DataClinic의 역할
에이전트가 생성한 데이터를 외부에서 진단. 분포 이동, 오염, 화석화 패턴을 조기 탐지하여 학습 루프에 신호를 보낸다.
Data Greenhouse의 역할
진단된 데이터를 자동으로 정제, 합성, 보강. 에이전트의 자가 진화와 데이터의 자가 진화가 같은 호흡으로 작동한다.
PebbloSim의 역할
물리 시뮬레이션 기반 합성 데이터로 분포 이동을 보정. GenAI가 만들지 못하는 "정합성 있는 다양성"을 공급한다.
페블러스의 접근은 hermes-agent의 자가 진화를 막으려는 것이 아니다. 그 진화를 안전하게, 지속 가능하게 만드는 것이 목표다. Closed Learning Loop에 외부 검증자(DataClinic)를 삽입하고, 외부 데이터 공급자(Data Greenhouse + PebbloSim)를 연결하면, 자가 진화 에이전트는 단기 마법이 아닌 장기 자산이 된다.
요약: hermes-agent는 에이전트의 미래를 보여줬다. 페블러스는 그 에이전트가 처리하는 데이터의 미래를 책임진다. 두 미래는 분리될 수 없다.
더 깊은 위험 분석과 EU AI Act 시행 대응 전략은 페어 글에서 확인할 수 있다.