Post

이걸 왜 이제 알았을까? API 요금 폭탄과 속도 제한을 날려버린 claude-relay-service 솔직 리뷰

이걸 왜 이제 알았을까? API 요금 폭탄과 속도 제한을 날려버린 claude-relay-service 솔직 리뷰

“최근 AI 코딩 에이전트 시대가 열렸지만, 우리를 가로막는 건 AI의 지능이 아니라 ‘지갑 사정’과 ‘Rate Limit’이었습니다.”

TL;DR; 한 마디로? claude-relay-service(CRS)는 여러 개의 AI 계정(Claude, GPT, Gemini)을 하나로 묶어 로드밸런싱하고, 팀원들과 API 비용을 효율적으로 분배하게 해주는 자가 호스팅(Self-hosted) 엔터프라이즈급 API 중계기입니다.

안녕하세요! 요새 터미널에서 Claude Code 돌리면서 “와, 이제 진짜 개발 패러다임이 바뀌고 있구나” 체감하시는 분들 많으시죠? 저도 최근에 완전히 푹 빠져서 살고 있는데요.

하지만 현실적인 문제에 부딪히기 시작했습니다. 첫째, Rate Limit. 조금만 컨텍스트 긴 프로젝트를 던져주면 어김없이 뱉어내는 “429 Too Many Requests”. 둘째, 비용과 계정 관리. 팀원 여러 명이 각자 API 키를 발급받아 쓰다 보니, 비용 청구서가 날아올 때마다 식은땀이 납니다. 계정별 한도 관리도 안 되고요.

“이걸 좀 우아하게 해결할 방법이 없을까?” 하고 GitHub를 뒤지다가, 무려 별 8,000개를 넘게 받은 엄청난 프로젝트를 발견했습니다. 바로 Wei-Shaw의 claude-relay-service (이하 CRS) 입니다. 솔직히 말씀드리면, 이걸 왜 이제 알았나 싶더라고요. 오늘 커피 한 잔 하면서 이 녀석이 왜 물건인지, 그리고 실무에서 어떻게 써먹을 수 있을지 썰을 좀 풀어보겠습니다. ☕️


🔥 Deep Dive: 단순한 프록시가 아닙니다

처음엔 그저 지역 제한(Geo-block)을 우회하거나 API 키를 숨겨주는 단순한 프록시 서버인 줄 알았습니다. 하지만 아키텍처를 까보니 개발자들의 가려운 곳을 정확히 긁어주는 ‘종합 선물 세트’였습니다.

1. 🎯 계정 풀링(Account Pooling)과 스마트 로드밸런싱

가장 충격적이었던 기능입니다. 여러 개의 Claude (혹은 OpenAI, Gemini) 계정을 CRS에 등록해두면, 마치 하나의 거대한 API 엔드포인트처럼 작동합니다. 만약 A 계정이 Rate Limit에 걸리면? CRS가 알아서 B 계정으로 트래픽을 넘깁니다(Auto-rotation). 트래픽이 몰리면 분산 처리도 해주고요.

2. 🔌 완벽한 네이티브 호환성

Claude Code, Codex CLI, 심지어 Gemini CLI 같은 네이티브 툴에 그대로 꽂아서 쓸 수 있습니다. 코어 로직을 건드릴 필요 없이, 환경 변수(Base URL)만 우리 서버로 바꿔주면 끝납니다.

비교 항목공식 API 직접 사용claude-relay-service 도입 후
API 키 관리팀원 각자 발급 (보안 위험 🚨)중앙 서버에서 통합 관리 (안전 🔒)
Rate Limit계정 한도 도달 시 작업 중단다중 계정 자동 스위칭 (무중단)
비용 추적월말에 청구서 보고 깜짝 놀람토큰 단위, 팀원별 실시간 대시보드
구독 효율성개인별 Max 구독 (비용 낭비)구독 쪼개기(N빵) 및 리소스 100% 활용

🚀 Hands-on: 직접 띄워보고 물려봤습니다

과연 성능은 어땠을까요? 세팅부터 사용까지 진짜 쾌적했습니다. 복잡한 환경 설정 없이 Docker Compose로 1분이면 서버가 뜹니다.

1
2
3
4
5
# 정말 이게 끝입니다.
curl -fsSL https://pincc.ai/crs-compose.sh -o crs-compose.sh
chmod +x crs-compose.sh
./crs-compose.sh
docker-compose up -d

서버를 띄우고, 관리자 대시보드(웹 UI가 꽤 깔끔합니다!)에 들어가서 팀원들과 공용으로 쓸 Claude 계정들의 OAuth 인증을 마쳤습니다. 그리고 제 터미널의 Claude Code 엔드포인트를 CRS 서버로 틀어봤죠.

결과는? 체감 속도 저하 제로. 마치 Anthropic 서버에 직결한 것처럼 빠릿하게 동작하더라고요. 특히 사내 토이 프로젝트 팀원 4명과 함께 하나의 “계정 풀”을 공유해서 써봤는데, 누가 어떤 모델을 얼마나 썼는지, 대시보드에서 실시간으로 쫙 뽑아주는 걸 보고 소름이 돋았습니다. 심지어 최근 업데이트로 Ephemeral Token(5분, 1시간 단위) 지원이나 길어진 컨텍스트 비용 계산 로직까지 다 커버하더군요.


💡 솔직한 리뷰: 무조건 좋기만 할까? (Honest Review)

이거 진짜 물건인 것 같습니다만, 엔지니어로서 냉정하게 한계점도 짚고 넘어가야겠죠. 공식 문서의 화려한 설명 뒤에 숨겨진 ‘현실적인 고민’들입니다.

  1. 보안, 또 보안 (치명적인 취약점 이슈) 🚨 최근 v1.1.248 이하 버전에서 심각한 관리자 인증 우회 취약점이 발견된 적이 있습니다 (공격자가 관리자 패널에 무단 접근 가능). 다행히 빠르게 패치되긴 했지만, 이런 중앙 집중형 중계 서버가 뚫리면 사내 소스코드가 통째로 유출될 수 있다는 뜻입니다. 절대 Public 인터넷에 그냥 열어두지 마세요. Tailscale 같은 VPN이나 사내 폐쇄망 안에서만 접근하도록 구성하는 게 필수입니다.

  2. Anthropic 서비스 약관(TOS) 위반 리스크 ⚖️ 소위 ‘구독 쪼개기(拼车, Carpooling)’ 기능이 강력하긴 하지만, 엄밀히 말해 공식 벤더사들의 계정 공유 금지 약관을 아슬아슬하게 타는 기능입니다. 기업 단위에서 무작정 도입하기보다는, 정식 API를 묶어서 캐싱/로드밸런싱 용도로 쓰는 ‘합법적인(?)’ 선에서만 보수적으로 활용하는 것을 개인적으로 추천합니다.

  3. 초기 세팅의 은근한 귀찮음 계정을 풀에 추가할 때 브라우저를 열어 OAuth 인증 코드를 수동으로 따와야 하는데, 이 과정이 살짝 번거롭습니다. 세션이 만료되면 다시 갱신해줘야 하는 유지보수 소요도 분명 존재하고요.


🏁 Conclusion: 그래서 쓸 거냐고요?

한 마디로 정리해볼게요. “소규모 팀이나 스타트업에게 이보다 완벽한 AI API 인프라는 당분간 없을 겁니다.”

팀원들에게 마음껏 AI 도구를 쓰게 해주고 싶지만, 한 달에 수백만 원씩 찍히는 API 비용이 두려우셨나요? 혹은 매일같이 Rate Limit에 걸려 커피만 타 마시던 동료가 불쌍하셨나요?

claude-relay-service는 단순한 프록시를 넘어, 우리 팀만의 프라이빗한 AI API 게이트웨이 역할을 톡톡히 해낼 겁니다. 오늘 당장 남는 인스턴스에 Docker로 한 번 올려보세요. 대시보드에 찍히는 실시간 토큰 절약 통계를 보면, 아마 저처럼 실없이 웃음이 나실 겁니다.

여러분의 로컬 터미널에는 지금 어떤 혁신이 돌아가고 있나요? 재미있는 활용 사례가 있다면 언제든 공유해주세요! 👋

References

  • https://github.com/Wei-Shaw/claude-relay-service
  • https://pincc.ai/
This post is licensed under CC BY 4.0 by the author.