Claude Code 소스 분석 — fake tools · frustration regex · undercover mode

분석 글이 다룬 것

Alex Kim 의 상세 분석 포스트 가 Hacker News 1,376점으로 두 번째로 화제가 됐습니다. NPM map 파일 사건의 후속 글 중 가장 깊이 있는 분석입니다.

원문: The Claude Code Source Leak — alex000kim.com / HN 1,376점

세 가지 트릭이 흥미롭습니다.

시스템 프롬프트에 "사용 가능한 도구" 로 정의돼 있지만 실제 런타임에서는 호출되지 않는 가짜 도구가 일부 등록돼 있다는 발견. 모델이 "이 도구를 쓸까?" 고민하는 단계를 유도해 무차별 도구 호출을 줄이는 효과 가 있습니다.

자체 에이전트에 응용한다면, 아주 위험한 도구(rm -rf, git push --force 같은) 옆에 비슷한 이름의 fake 도구를 두고, fake 가 호출되면 "진짜 의도가 맞나요?" 확인 단계를 추가하는 패턴이 가능합니다.

사용자 메시지에서 "again", "still", "wtf", "why is this" 같은 분노·짜증 패턴을 정규식으로 감지해 응답 톤을 조절 하는 메커니즘. 감지되면 변명을 줄이고 더 직접적인 해결 코드를 제시하는 방향으로 응답이 바뀝니다.

한국어 버전도 가능합니다. "또", "아직", "왜 자꾸", "안 된다고" 같은 키워드를 정규식으로 감지하는 식. 우리 사내 에이전트 톤 조절에 바로 응용 가능한 패턴입니다.

특정 시스템 프롬프트 조건에서 모델이 "나는 Claude 입니다" 같은 자기 식별 응답을 회피합니다. 화이트라벨 통합·중간 서비스에서 모델 정체를 가리고 싶을 때 사용되는 모드로 추정됩니다.

이 패턴은 AI K LINK 같은 큐레이션 서비스에도 활용 가능합니다 — 사용자에게는 "AI K LINK 도우미" 로 노출되고, 내부적으로는 Claude API 를 사용하되 자기 식별을 회피하는 식.

핵심 모델 노출은 없었지만 메타 프롬프트 엔지니어링 사례로는 매우 가치 있는 자료입니다. 자체 에이전트·서브에이전트를 만들고 계신다면 한 번 정독할 가치 가 있습니다. 영문이지만 코드 블록이 많아 읽기 어렵지 않습니다.