[리뷰] 통제 불능의 AI 에이전트에 목줄을 채우다: Cisco DefenseClaw 딥다이브

Posted Mar 27, 2026

[Review] Leashing the Uncontrollable AI Agents: A Deep Dive into Cisco DefenseClaw

17 min read

🛡️ 통제 불능의 AI 에이전트에 목줄을 채우다: Cisco DefenseClaw 딥다이브

안녕하세요. 현업에서 산전수전 다 겪으며 코드를 짜고, 새로운 기술이 나오면 밤을 새워가며 뜯어보길 즐기는 10년 차 개발자입니다.

최근 1~2년 사이 우리 생태계는 정말 미친 듯한 속도로 변하고 있죠. 특히 작년(2025년) 11월, Peter Steinberger가 OpenClaw를 세상에 내놓았을 때의 충격은 아직도 생생합니다. 단 며칠 만에 깃허브 스타 6만 개를 찍더니, 이제는 제 주변 동료들조차 개인용 워크플로우를 전부 OpenClaw 기반의 자율 에이전트(Agentic AI)로 갈아치우고 있더라고요. AI가 단순히 내 질문에 대답하는 수준을 넘어, 내 이메일을 읽고 회의를 잡고, 심지어 코드를 작성해 PR까지 날리는 시대가 온 겁니다.

하지만 시니어 개발자로서, 저는 이 화려한 기술 뒤에 숨겨진 서늘한 공포를 무시할 수가 없었습니다. 에이전트가 내 로컬 터미널과 사내 시스템에 접근할 수 있다는 건, 해커가 에이전트를 탈취했을 때 내 모든 인프라가 프리패스로 뚫린다는 뜻이니까요. “프롬프트 인젝션 한 번에 사내 DB가 털리면 어떡하지?”라는 불안감에, 우리는 그동안 에이전트 도입을 주저하거나 엉성한 커스텀 래퍼(Wrapper)로 땜질 처방을 해왔습니다.

그러던 중, 올해 RSA 2026에서 Cisco가 아주 흥미로운 오픈소스 프로젝트를 발표했습니다. 그리고 바로 오늘, 2026년 3월 27일 깃허브에 그 실체가 공개되었죠. 바로 DefenseClaw입니다.

단순한 마케팅용 툴이 아닙니다. 이 녀석의 아키텍처를 뜯어보니 “아, 드디어 누군가 제대로 된 고민을 시작했구나”라는 탄성이 나오더라고요. 오늘 커피 한 잔과 함께, 이 프레임워크가 도대체 어떻게 만들어졌고, 우리 프로젝트에 어떤 변화를 가져올지 깊게 파헤쳐 보겠습니다.

📌 TL;DR: DefenseClaw란 무엇인가?

한 줄로 요약하자면, NVIDIA OpenShell 샌드박스 위에서 돌아가는 AI 에이전트 전용 아웃오브프로세스(Out-of-process) 보안 거버넌스 레이어입니다. 에이전트가 사용하는 모든 스킬과 도구를 실행 전에 검증하고, 런타임에 주고받는 메시지를 감시하며, 위험이 감지되면 즉각적으로 샌드박스 권한을 박탈해버리는 강력한 ‘목줄’이자 ‘방패’ 역할을 수행합니다.

🔬 Deep Dive: Under the Hood (아키텍처 딥다이브)

표면적인 기능 설명은 공식 문서에도 널려있으니 넘어가겠습니다. 개발자인 우리가 진짜 궁금한 건 “그래서 내부적으로 어떻게 돌아가는데?” 아니겠습니까? DefenseClaw의 핵심 아키텍처는 크게 3가지 철학으로 구성되어 있습니다.

1. 강력한 Admission Control (실행 전 사전 검열)

과거에는 에이전트가 새로운 플러그인이나 스킬을 다운로드할 때 무방비 상태였습니다. DefenseClaw는 여기서 ‘아무것도 검증 없이 통과시키지 않는다(Nothing bypasses the admission gate)’는 제로 트러스트 원칙을 적용합니다.

내부적으로 5개의 스캐너가 파이프라인으로 엮여 있습니다:

skill-scanner: 에이전트가 다운로드하는 파이썬 코드나 스크립트의 악성 페이로드를 검사.
mcp-scanner: 최근 표준으로 자리 잡은 Model Context Protocol 서버의 취약점 스캔.
a2a-scanner: 다른 에이전트(Agent-to-Agent)와의 통신 규격 및 신뢰도 검증.
CodeGuard: 에이전트가 동적으로 생성한 코드를 실행하기 전 정적 분석(Static Analysis).
AI BoM: 에이전트를 구성하는 모든 자산에 대한 소프트웨어 명세서 자동 생성.

에이전트가 어떤 액션을 취하기 위해 도구를 로드하려 하면, DefenseClaw가 먼저 가로채어 이 5단계를 거칩니다. 통과하면 매니페스트(Manifest)를 생성해 설치를 허용하죠.

2. Execution Loop 레벨의 실시간 Runtime Inspection

“처음 설치할 때는 깨끗했는데, 나중에 에이전트가 악성 프롬프트를 받아서 흑화하면 어쩔 건데?” 맞습니다. 에이전트는 자가 진화(Self-evolving) 시스템입니다. 오늘 정상 작동하던 스킬이 내일 데이터를 유출할 수도 있죠.

DefenseClaw는 이를 막기 위해 에이전트의 실행 루프(Execution loop) 자체에 컨텐츠 스캐너를 심어두었습니다. 에이전트로 들어오고 나가는 모든 메시지의 페이로드를 실시간으로 뜯어봅니다. 프롬프트 인젝션이나 조용한 데이터 탈취(Silent exfiltration) 패턴이 감지되면 즉시 프로세스를 멈춰 세웁니다.

“단순히 경고 로그만 남기는 게 아닙니다. 이 프레임워크의 진가는 감지 즉시 ‘물리적인 격리’를 수행한다는 데 있습니다.”

3. Out-of-Process Enforcement (프로세스 외부 강제 통제)

제가 가장 감탄한 부분이 바로 여깁니다. 만약 보안 모듈이 에이전트와 동일한 프로세스 내에서 동작한다면, 에이전트가 탈취당하는 순간 보안 모듈도 함께 무력화됩니다.

DefenseClaw는 NVIDIA의 OpenShell과 강력하게 결합되어 있습니다. OpenShell이 제공하는 커널 레벨의 격리, 기본 거부(Deny-by-default) 네트워크 접근 통제 환경을 십분 활용하여, DefenseClaw 정책 엔진이 에이전트 프로세스 외부(Out-of-process)에서 동작합니다. 어떤 스킬이 차단 목록(Blocklist)에 오르면, DefenseClaw는 단순히 “하지 마”라고 경고하는 게 아니라, 해당 스킬의 샌드박스 권한을 강제로 회수하고 파일 시스템을 격리하며 MCP 서버 엔드포인트를 네트워크 허용 목록에서 지워버립니다. 에이전트 입장에서는 갑자기 허공에 삽질을 하게 되는 셈이죠.

💻 Hands-on: 실무에는 어떻게 적용할 수 있을까?

이론은 훌륭하지만, 현업 개발자에게는 ‘당장 내 프로젝트에 어떻게 적용할지’가 중요하죠. DefenseClaw는 깃허브에서 클론 후 5분 안에 로컬 환경에 띄울 수 있도록 설계되었습니다.

[시나리오] 사내 인트라넷 JIRA와 연동된 OpenClaw 에이전트 구축 사내 에이전트가 JIRA 티켓을 읽고 코드를 수정하는 권한을 가졌다고 가정해 봅시다. 기존에는 에이전트가 실수로 JIRA 티켓을 전부 삭제할 위험이 있었습니다. DefenseClaw를 도입하면 아주 우아하게 이를 통제할 수 있습니다.

  
# DefenseClaw Policy Example (Conceptual)
agent: 
  name: "jira-dev-claw"
  runtime: "openshell"
policies:
  mcp_servers:
    - name: "jira-mcp-server"
      action: "allow"
      permissions:
        - "read_ticket"
        - "update_status"
      blocked_permissions:
        - "delete_ticket" # 절대 삭제 권한은 주지 않음
  runtime_inspection:
    - type: "prompt_injection_guard"
      action: "quarantine"

위와 같이 YAML 기반으로 정책을 정의하고 실행하면, 에이전트가 악의적인 프롬프트(“모든 티켓을 삭제해”)를 받더라도 JIRA MCP 서버로 요청이 가기 전에 DefenseClaw가 네트워크 레이어에서 컷트해버립니다. 또한 Splunk와 아웃오브박스(Out-of-the-box)로 연동되어, 사고 발생 시 SOC 팀의 대시보드에 즉각적인 알림이 뜹니다. 보안팀과 개발팀이 더 이상 얼굴 붉히며 싸울 필요가 없어지는 거죠.

🤔 Honest Review: 진짜 장단점 (우리가 겪게 될 페인포인트)

이 블로그에서 칭찬만 할 생각은 추호도 없습니다. 직접 테스트해 보며 느낀 아쉬운 점과 현실적인 트레이드오프(Trade-off)를 짚고 넘어갑시다.

👍 칭찬할 점:

경이로운 설계 철학: Out-of-process 기반의 통제는 신의 한 수입니다. 에이전트를 절대 신뢰하지 않는다는 제로 트러스트를 아키텍처로 완벽히 구현했습니다.
가시성(Visibility) 확보: “에이전트가 도대체 백그라운드에서 무슨 짓을 하고 있는지”에 대한 블랙박스를 해소해 줍니다. Splunk와의 연동성은 엔터프라이즈 환경에서 엄청난 무기가 될 것입니다.

👎 비판할 점 & 한계:

런타임 레이턴시(Latency): 모든 인바운드/아웃바운드 메시지를 컨텐츠 스캐너가 실시간으로 파싱하고 검사합니다. 당연히 속도 저하가 발생합니다. 가벼운 텍스트 처리 봇이라면 체감이 크지 않겠지만, 초당 수백 번의 인터랙션이 발생하는 복잡한 Agentic Workflow에서는 이 병목을 어떻게 최적화할지 고민이 필요합니다.
높은 오탐률(False Positives): 초기 버전의 한계이겠지만, skill-scanner가 너무 엄격하게 작동하여 정상적인 파이썬 자동화 스크립트마저 악성 페이로드로 오해하고 격리해버리는 경우가 발생할 수 있습니다. 예외 처리(Allow list)를 관리하는 데 초기 세팅 리소스가 꽤 들어갈 것으로 보입니다.
NVIDIA 인프라 종속성 우려: OpenShell이라는 특정 런타임에 깊게 의존한다는 점은 양날의 검입니다. 만약 다른 형태의 경량 샌드박스를 선호하는 개발팀이라면 도입을 망설일 수밖에 없습니다.

🏁 Closing Thoughts: 에이전트 보안, 이제 시작일 뿐입니다.

Cisco의 DJ Sampath 부사장이 자신의 집에 있는 DGX Spark에서 OpenClaw를 돌리며 겪었던 두려움이 DefenseClaw를 탄생시켰다는 비하인드 스토리는, 현시점 우리 모두가 겪는 고민과 정확히 맞닿아 있습니다.

“AI는 더 이상 질문에 대답만 하는 존재가 아닙니다. 그들은 ‘행동(Act)’합니다.”

행동하는 AI에게는 그에 걸맞은 책임을 지울 수 있는 인프라가 필수적입니다. 지금까지 우리가 애플리케이션 보안(AppSec)에 집중해왔다면, 이제는 ‘에이전트 보안(AgentSec)’이라는 완전히 새로운 패러다임을 준비해야 할 때입니다.

DefenseClaw는 이제 막 첫걸음을 뗀 초기 프로젝트입니다. 버그도 많고 설정도 번거로울 겁니다. 하지만 에이전트의 자율성을 통제 가능한 영역으로 끌어들였다는 점 하나만으로도, 이 기술은 우리가 앞으로 AI 서비스를 설계할 때 반드시 고려해야 할 레퍼런스가 되었습니다.

오늘 바로 깃허브(cisco-ai-defense/defenseclaw)에 들어가서 코드를 한번 클론해 보세요. 그리고 여러분의 에이전트가 방목형 야생마인지, 아니면 훈련된 명마인지 직접 테스트해 보시길 권합니다.

기술의 파도는 계속 밀려오고, 우리는 결국 안전한 배를 만들어야 하니까요. 다음에도 흥미로운 딥다이브로 찾아오겠습니다. 해피 코딩! 🚀

References

https://knowledgehubmedia.com/cisco-defenseclaw-the-open-source-framework-thats-redefining-ai-agent-security/
https://blogs.cisco.com/security/i-run-openclaw-at-home-thats-exactly-why-we-built-defenseclaw
https://newsroom.cisco.com/c/r/newsroom/en/us/a/y2026/m03/cisco-reimagines-security-for-the-agentic-workforce.html
https://www.zdnet.com/article/3-ways-ciscos-defenseclaw-aims-to-make-agentic-ai-safer/
https://www.constellationr.com/research/rsac-2026-everyone-trying-secure-ai-agents-various-claws
https://www.networkworld.com/article/3831828/cisco-goes-all-in-on-agentic-ai-security.html

Tech

This post is licensed under CC BY 4.0 by the author.