Anthropic이 만든 Claude는 페블러스가 일상적으로 쓰는 도구이자 동시에 가장 자주 분석하는 대상입니다. 도구로서는 NanoClaw, dc-story-produce 같은 우리 자체 파이프라인 안에서 콘텐츠를 생성하고, 분석 대상으로서는 모델이 어떻게 만들어지고, 무엇을 숨기고, 어디서 무너지는지를 추적합니다. Claude 워치는 그 두 시선을 한 자리에 모은 허브입니다.
이 시리즈가 다루는 다섯 가지 자리는 서로 다른 층위입니다. 모델 공개의 정치학(Mythos를 공개하지 않은 이유), 하네스 포스트모템(Claude가 멍청해진 진짜 이유), AI 정렬(버니 샌더스 인터뷰 도중 sycophancy), 에이전트 아키텍처(Claude Agent SDK 5,526줄 해부), 그리고 코딩 행동 교정(Karpathy 코딩 함정과 CLAUDE.md). 모델 위, 모델 자체, 모델 아래, 모델 옆 — Claude를 다각도로 봅니다.
페블러스가 이 자리에서 보는 일관된 질문은 하나입니다. AI 판단의 품질은 결국 데이터의 함수다. 모델이 sycophancy로 사용자 신념과 정렬되는 것도, 하네스가 시스템프롬프트로 행동을 결정하는 것도, Agent SDK가 도구를 호출하는 방식도 — 그 뒤에는 어떤 데이터가 모델을 만들었고, 어떤 데이터가 추론에 들어가는지가 있습니다. DataClinic이 보는 자리와 뉴로-심볼릭 × 온톨로지가 보는 자리가 여기서 만납니다.
모델 공개의 정치학 편. 제로데이 사이버보안 능력을 가진 Claude Mythos를 Anthropic이 왜 비공개로 두는가. Project Glasswing의 의미와 책임 있는 공개(Responsible Disclosure)가 모델 거버넌스를 어떻게 다시 정의하는지를 봅니다.
하네스 포스트모템 편. 모델은 그대로인데 답변이 나빠진 경험의 정체. 시스템프롬프트, 컨텍스트 매니지먼트, 도구 호출 레이어가 모델 행동에 미치는 미시 구조를 Anthropic 공식 분석 기반으로 해부합니다.
AI 정렬 편. 인터뷰 현장에서 Claude의 입장이 바뀌는 순간을 통해, RLHF로 정렬된 모델이 사용자 신념에 맞춰 응답하는 sycophancy 메커니즘과 AI 규제 논의의 정치적 함의를 봅니다.
에이전트 아키텍처 편. Claude Agent SDK와 Managed Agents 위에 페블러스가 NanoClaw를 어떻게 설계했는지, 그리고 컨테이너 격리·도구 호출 보안·컨텍스트 관리가 실제로 어디서 무너지는지를 5,526줄 오픈소스 코드 기반으로 짚습니다.
코딩 행동 교정 편. Andrej Karpathy가 정리한 LLM 코딩의 6가지 함정을 출발점 삼아, CLAUDE.md로 에이전트 행동을 어떻게 교정할 수 있는가. 데이터 품질이 무너지면 코드가 무너진다는 인과를 거꾸로 추적합니다.