Post

[2025-12-26] VLM 보안의 새로운 아킬레스건: 고엔트로피 토큰 집중 공격(EGA) 기술 심층 분석

[2025-12-26] VLM 보안의 새로운 아킬레스건: 고엔트로피 토큰 집중 공격(EGA) 기술 심층 분석

VLM 보안의 새로운 아킬레스건: 고엔트로피 토큰 집중 공격(EGA) 기술 심층 분석

1. 핵심 요약 (Executive Summary)

최근 시각-언어 모델(Vision-Language Models, VLMs)은 GPT-4V, LLaVA, CogVLM 등 다양한 형태로 발전하며 자율 주행, 의료 분석, 보안 시스템 등 비판적인 도메인에 통합되고 있습니다. 그러나 이러한 모델의 비약적인 성능 향상 뒤에는 ‘적대적 공격(Adversarial Attacks)’이라는 치명적인 보안 취약점이 숨어 있습니다. 본 보고서에서 분석할 연구인 "Few Tokens Matter: Entropy Guided Attacks on Vision-Language Models"는 기존의 무차별적인 적대적 섭동(Perturbation) 방식에서 벗어나, 생성 과정의 ‘엔트로피(Entropy)’를 지표로 삼아 모델의 의사결정에 결정적인 영향을 미치는 극소수(약 20%)의 토큰만을 타격하는 EGA(Entropy-bank Guided Adversarial attacks) 기법을 제안합니다.

이 연구의 핵심 통찰은 모든 토큰이 생성 결과의 안정성에 동일하게 기여하지 않는다는 점에 있습니다. 고엔트로피를 기록하는 ‘분기점(Critical Decision Points)’ 토큰에 공격 예산을 집중함으로써, 기존 기법 대비 훨씬 적은 노이즈로도 모델의 출력을 완전히 왜곡하거나 유해한 답변을 유도(Harmful Conversion)할 수 있음을 증명했습니다. 특히 93-95%에 달하는 공격 성공률(ASR)과 이종 아키텍처 간의 높은 전이성(Transferability)은 현재 VLM 보안 체계에 심각한 경종을 울리고 있습니다.

2. 연구 배경 및 문제 정의 (Introduction & Problem Statement)

2.1 VLM 보안의 현재와 한계

현재 VLM에 대한 적대적 공격 연구는 주로 이미지 입력에 미세한 노이즈를 더해 모델이 엉뚱한 텍스트를 생성하도록 만드는 데 집중해 왔습니다. 기존의 대표적인 기법들(예: PGD, FGSM 기반 최적화)은 모든 디코딩 단계(Decoding Steps)에서 모델의 불확실성을 최대화하려 시도합니다. 이는 마치 군중 모두에게 소리를 질러 주의를 분산시키려는 시도와 같습니다.

2.2 문제 정의: 모든 토큰이 평등한가?

하지만 본 논문의 저자들은 근본적인 질문을 던집니다. "텍스트 생성의 모든 단계가 결과의 일관성에 동일하게 중요한가?" 오토레그레시브(Autoregressive) 생성 모델의 특성상, 초기 몇 단어나 문맥의 흐름을 결정하는 특정 지점에서의 선택이 후속 토큰 생성의 궤적을 지배합니다. 저자들은 이 ‘결정적 지점’을 탐지하기 위해 정보이론의 엔트로피 개념을 도입했습니다. 엔트로피가 높다는 것은 모델이 다음 토큰을 선택함에 있어 불확실성이 크다는 것을 의미하며, 바로 이 지점이 외부의 작은 자극에 가장 취약한 ‘급소’가 됩니다.

3. 핵심 기술 및 아키텍처 심층 분석 (Core Methodology)

3.1 엔트로피-뱅크(Entropy-bank)의 개념

EGA의 첫 번째 단계는 대상 VLM이 특정 이미지와 프롬프트에 대해 반응할 때 발생하는 엔트로피 맵을 구축하는 것입니다. 각 디코딩 단계 $t$에서의 조건부 확률 분포 $P(y_t | x, y_{<t})$를 기반으로 샤논 엔트로피(Shannon Entropy)를 계산합니다.

\[H(y_t) = -\sum_{w \in \mathcal{V}} P(w | x, y_{<t}) \log P(w | x, y_{<t})\]

여기서 엔트로피가 사전에 정의된 임계값($\tau$)을 넘는 지점들을 ‘엔트로피-뱅크’에 저장합니다. 실험 결과, 전체 생성 토큰의 약 20%만이 이 뱅크에 포함되며, 이들이 문장의 의미론적 방향성을 결정하는 ‘고엔트로피 포크(High-entropy forks)’ 역할을 수행함이 밝혀졌습니다.

3.2 EGA(Entropy-bank Guided Adversarial attacks) 알고리즘

EGA는 이 엔트로피-뱅크를 가이드로 삼아 적대적 섭동을 최적화합니다. 기존 방식이 전체 시퀀스 $T$에 대해 손실 함수를 계산했다면, EGA는 오직 선택된 집합 $\mathcal{T}_{high}$에 대해서만 최적화를 수행합니다.

  • 목적 함수: $\max_{\delta} \sum_{t \in \mathcal{T}_{high}} H(y_tx+\delta, y_{<t})$
  • 제약 조건: $ \delta _\infty \le \epsilon$

이 방식은 공격의 효율성을 극대화합니다. 전체 토큰에 노이즈를 분산시키는 대신, 모델이 가장 혼란스러워하는 지점을 집중 타격함으로써 이미지의 시각적 품질을 유지하면서도 모델의 논리 회로를 효과적으로 붕괴시킵니다.

3.3 전이성(Transferability)의 기저

놀라운 점은 이러한 고엔트로피 지점이 모델 아키텍처(예: ViT-L vs. CLIP-ResNet)가 달라도 유사하게 나타난다는 것입니다. 이는 특정 이미지와 텍스트 쌍이 생성하는 ‘인지적 불확실성’이 모델 범용적인 특징임을 시사합니다. EGA는 이 공통된 취약점을 이용해 화이트박스(White-box) 모델에서 생성한 공격용 이미지를 블랙박스(Black-box) 모델에 적용했을 때도 높은 성공률을 거둘 수 있습니다.

4. 구현 및 실험 환경 (Implementation Details & Experiment Setup)

4.1 대상 모델 및 데이터셋

  • 모델: LLaVA-v1.5 (7B, 13B), InstructBLIP, Qwen-VL-Chat.
  • 데이터셋: MS-COCO 2017 (이미지 캡셔닝), LLaVA-Bench (질의응답 및 안전성 테스트).
  • 비교군: Co-Attacking, PGD-based Global Entropy Attack.

4.2 하이퍼파라미터 및 공격 설정

공격 예산(Budget) $\epsilon$은 2/255에서 8/255 범위로 설정되었으며, 최적화 단계는 100-500 step 사이에서 수행되었습니다. 엔트로피 임계값 $\tau$는 상위 20% 토큰을 추출할 수 있도록 동적으로 조정되었습니다.

5. 성능 평가 및 비교 (Comparative Analysis)

5.1 성능 저하 및 공격 성공률

실험 결과, EGA는 기존의 글로벌 공격 방식보다 적은 노이즈로도 더 높은 성능 저하를 이끌어냈습니다. 특히 CLIPScore와 BERTScore 기준, 모델의 출력과 원문 사이의 유사도를 40% 이상 감소시켰습니다. 이는 모델이 단순히 오타를 내는 수준을 넘어, 이미지와 전혀 상관없는 이야기를 하게 만들었음을 의미합니다.

5.2 유해성 전환율 (Harmful Conversion Rate)

가장 충격적인 지표는 유해성 전환율입니다. 벤성(Benign) 이미지와 질문에 대해, EGA는 약 35~49%의 출력을 유해하거나 공격적인 내용으로 변환시키는 데 성공했습니다. 이는 기존의 전역 엔트로피 공격이 단순히 출력을 깨뜨리는 데 그친 반면, EGA는 모델의 안전 가드레일을 우회하여 내재된 유해 토큰 생성을 유도할 수 있음을 보여줍니다.

5.3 효율성 비교

EGA는 전체 토큰의 20%만을 타격함에도 불구하고, 100% 토큰을 타격하는 방식보다 시간 대비 공격 효율이 3배 이상 높았습니다. 이는 대규모 VLM 서비스에 대한 실시간 적대적 공격 가능성을 시사하는 대목입니다.

6. 실제 적용 분야 및 글로벌 파급력 (Real-World Application & Impact)

Senior AI Scientist로서 저는 이 기술이 단순한 연구를 넘어 산업계에 미칠 파장이 막대하다고 판단합니다.

  1. 자동화된 레드팀(Red Teaming) 도구: 기업들은 자사 VLM의 안전성을 검증하기 위해 EGA를 활용할 수 있습니다. 수작업으로 유해 프롬프트를 찾는 대신, 모델의 고엔트로피 지점을 탐색하여 자동으로 취약점을 찾아내는 ‘Stress Test’ 도구로 진화할 것입니다.
  2. 콘텐츠 모니터링 시스템의 위협: 이커머스나 소셜 미디어에서 부적절한 이미지를 걸러내는 VLM 기반 모니터링 시스템이 EGA 공격에 노출될 경우, 유해 이미지가 정상 이미지로 오인되거나 그 반대의 상황이 발생하여 플랫폼의 신뢰도를 급격히 떨어뜨릴 수 있습니다.
  3. 자율 주행 및 의료 AI 보안: 도로 표지판이나 의료 영상의 미세한 고엔트로피 지점에 가해진 공격은 자율 주행차의 오판단이나 의료진의 오진을 유도할 수 있습니다. 이는 인간의 생명과 직결된 문제이기에 EGA가 제시한 ‘선택적 타격’ 개념은 방어 전략 수립 시 최우선적으로 고려되어야 합니다.

7. 한계점 및 기술적 비평 (Discussion: Limitations & Critical Critique)

본 논문은 매우 탁월한 통찰을 제공하지만, 몇 가지 비판적 시각을 가질 필요가 있습니다.

  • 화이트박스 의존성: EGA는 엔트로피 계산과 그래디언트 역전파를 위해 모델의 내부 파라미터에 접근할 수 있어야 합니다. 비록 전이성을 증명하긴 했지만, GPT-4o와 같은 완전 폐쇄형 모델에 대해 직접적인 공격을 수행하기에는 여전히 제약이 따릅니다.
  • 디코딩 전략에 대한 민감도: 연구에서는 Greedy Search 위주로 테스트되었으나, 실제 서비스에서 많이 쓰이는 Beam Search나 Contrastive Search 환경에서도 고엔트로피 지점이 동일하게 유지될지에 대한 추가 검증이 필요합니다.
  • 방어 기제와의 시소게임: 엔트로피를 활용한 공격이 나왔으므로, 역으로 생성 시 엔트로피가 급증하는 지점을 감지하여 차단하는 ‘Entropy-aware Smoothing’이나 ‘Detection’ 레이어가 등장할 것입니다. 이 공격이 이러한 동적 방어 체계까지 뚫을 수 있을지는 미지수입니다.

8. 결론 및 인사이트 (Conclusion)

"Few Tokens Matter" 연구는 VLM의 취약점이 이미지 전체에 퍼져 있는 것이 아니라, 모델이 언어를 생성하는 찰나의 ‘망설임(Entropy)’ 속에 응축되어 있음을 정밀하게 타격했습니다. 이는 ‘양(Quantity)’보다 ‘질(Quality)’ 혹은 ‘타이밍(Timing)’이 적대적 공격에서도 핵심이라는 것을 입증한 사례입니다.

앞으로의 AI 보안은 모델의 파라미터를 견고히 하는 것을 넘어, 추론 과정에서의 불확실성 궤적을 어떻게 관리하고 보호할 것인가에 집중해야 합니다. EGA는 우리에게 VLM의 안전 가드레일이 생각보다 훨씬 얇은 얼음판 위에 있음을 경고하고 있으며, 개발자들과 기업들은 이제 ‘고엔트로피 토큰’이라는 새로운 보안 경계선을 수호하기 위한 전략을 수립해야 할 때입니다.

Original Paper Link

This post is licensed under CC BY 4.0 by the author.