[2026-03-01] [AgilePruner] 시각 토큰, 무작정 잘라내다간 환각만 늘어난다? LVLM 최적화의 딜레마와 해법

Posted Mar 8, 2026

Paper Thumbnail

By OPSOAI

14 min read

[2026-03-01] [AgilePruner] 시각 토큰, 무작정 잘라내다간 환각만 늘어난다? LVLM 최적화의 딜레마와 해법

[Metadata]

Project Page: AgilePruner (CVSP Lab)
Arxiv ID: 2603.01236
Date: March 2026

어제도 LLaVA나 Qwen-VL 같은 대형 비전-언어 모델(LVLM)을 로컬에 올리다가 VRAM 초과(OOM) 에러 로그를 보며 뒷목을 잡으셨나요? 고해상도 이미지 한 장을 모델에 밀어 넣었을 뿐인데 수천 개의 시각 토큰(Visual Token)이 생성되고, 결국 컨텍스트 윈도우가 터져버리는 건 현업에서 너무나 흔한 일입니다.

이 문제를 해결하려고 우리는 흔히 ‘토큰 푸루닝(Token Pruning)’ 기법을 씁니다. 배경이나 여백 같은 쓸모없는 이미지 토큰을 가지치기해서 컴퓨팅 오버헤드를 줄이는 거죠. 그런데 말입니다, 이 토큰들을 무작정 쳐내다 보면 모델이 갑자기 사진에 없는 물체를 만들어내는 ‘환각(Hallucination)’을 미친 듯이 뿜어내기 시작한다는 사실, 알고 계셨나요?

AgilePruner는 바로 이 지독한 트레이드오프의 원인을 수학적으로 파헤치고, 영리하게 토큰을 솎아내는 실용적인 해법을 들고나왔습니다.

한 줄 요약: 무거운 비전-언어 모델에서 불필요한 이미지 토큰을 쳐낼 때 발생하는 ‘환각’ 부작용을 erank로 증명하고, 이미지 복잡도에 따라 동적으로 푸루닝 방식을 바꾸는 초경량 적응형 라우팅 전략.

⚙️ 어텐션 vs 다양성: 시각 토큰 푸루닝의 불편한 진실

LVLM 최적화 씬에서 토큰을 줄이는 방법은 크게 두 파벌로 나뉘어 있었습니다. 하나는 모델이 어디를 보고 있는지(Attention)를 기준으로 덜 중요한 토큰을 날리는 방식이고, 다른 하나는 토큰들 사이의 군집(Diversity)을 유지하면서 중복된 정보만 병합하는 방식이죠. 직관적으로 생각하면 ‘다양성’을 보존하는 방식이 이미지의 디테일을 잃지 않으니 더 좋을 것 같잖아요?

그런데 AgilePruner 팀이 이 두 방식의 밑바닥을 까보니 충격적인 결과가 나왔습니다.

단순한 이미지는 어텐션을 믿고, 복잡한 이미지는 다양성을 챙기는 하이브리드 라우팅 구조. 맹목적으로 토큰을 날리면 어떤 대참사(환각)가 발생하는지 잘 보여줍니다.

연구진은 유효 랭크(erank, effective rank)라는 수학적 잣대를 들이댔습니다. erank는 피처(feature) 다양성을 측정하는 지표인데, 놀랍게도 ‘다양성 지향(Diversity-oriented)’ 푸루닝 메서드들이 실제로는 의도한 것보다 훨씬 적은 다양성만 보존하고 있었습니다. 심지어 CHAIR 데이터셋(환각 측정용 벤치마크)으로 테스트해 보니, 억지로 남겨둔 그 어설픈 다양성이 오히려 모델의 착각을 유도해서 어텐션 기반 방식보다 훨씬 더 높은 빈도로 환각을 일으킨다는 걸 증명해냈죠.

그럼 어텐션 기반이 무조건 짱이냐? 그것도 아닙니다.

🔹 어텐션 기반 푸루닝의 한계: 중앙에 강아지 한 마리만 덜렁 있는 단순한 이미지(시각적 증거가 집중된 경우)에서는 기가 막히게 잘 작동합니다. 하지만 책상 위에 온갖 물건이 어질러진 복잡한 이미지에서는 모델의 어텐션이 분산되어 버려, 정작 중요한 작은 물체 토큰을 싹둑 잘라먹는 대참사가 발생합니다.

🔹 AgilePruner의 동적 라우팅 (Adaptive Mechanism): 그래서 이들이 내놓은 해결책은 단순명쾌합니다. 입력된 이미지의 어텐션 스코어 엔트로피를 먼저 쓱 훑어봅니다. 엔트로피가 낮다? (단순한 이미지) -> 어텐션 기반으로 팍팍 쳐냅니다. 엔트로피가 높다? (복잡한 이미지) -> 다양성 기반 로직을 섞어 디테일을 보존합니다. 입력 데이터의 성격에 따라 프록시 로직이 동적으로 스위칭되는 겁니다.

⚔️ 기존 무지성 가지치기 vs 적응형(Adaptive) 패러다임

기존의 SOTA 푸루닝 모델들과 AgilePruner를 프로덕션 환경 관점에서 비교해 볼까요?

평가 항목	기존 단일 전략 (예: ToMe 기반)	AgilePruner (적응형 하이브리드)	Tech Lead의 코멘트
VRAM 최적화	🔴 30~50% 감소	🔴 30~50% 감소	메모리 절약 폭은 비슷합니다. 이미 정해진 비율만큼 토큰을 날리기 때문이죠.
추론 속도(Speed)	🟢 매우 빠름	🟡 약간의 오버헤드 존재	이미지 복잡도를 판별(Entropy 계산)하는 사전 작업 때문에 미세한 지연이 생깁니다.
환각 억제력(CHAIR)	❌ 복잡한 이미지에서 환각 폭발	✅ 매우 안정적	이게 핵심입니다. 속도 조금 빠르자고 없는 물건을 지어내는 봇을 서비스에 올릴 순 없잖아요?
개발자 경험(DX)	🟢 구현 단순함	🟡 초기 통합 까다로움	하이브리드 전략이라 vLLM 내부 어텐션 코드를 직접 건드려야 할 수도 있습니다.

수치적인 VRAM 감소량이나 초당 토큰 생성 속도(TPS)만 보면 기존 방식과 큰 차이가 없어 보일 수 있습니다. 하지만 실제 서비스를 운영하는 개발자 입장에서, 모델이 사용자의 영수증을 읽다가 있지도 않은 ‘서비스 차지 10%’를 환각으로 만들어내는 빈도를 절반 이하로 줄일 수 있다면 그 약간의 연산 오버헤드는 기꺼이 지불할 가치가 있습니다.

🚀 내일 당장 프로덕션에 쓸 수 있을까?

이런 논문이 쏟아져 나올 때마다 제가 가장 먼저 하는 고민은 “그래서 내일 당장 우리 서비스에 박아넣을 수 있나?” 입니다. 구체적으로 어떤 시나리오에서 빛을 발할까요?

1. 저사양 엣지 디바이스(라즈베리파이, 젯슨)에서의 실시간 비전 AI 스마트 보안 카메라나 로봇에 소형 LVLM(예: Moondream, Qwen-VL-Chat)을 올린다고 가정해 봅시다. 엣지 환경은 메모리가 극도로 쪼들립니다. 하지만 카메라는 아무것도 없는 빈 복도(단순한 이미지)를 비추다가도, 갑자기 수십 명의 사람이 쏟아져 나오는 로비(복잡한 이미지)를 비추기도 하죠. 이때 AgilePruner의 적응형 메커니즘을 적용하면, 프레임의 상황에 맞춰 동적으로 토큰을 최적화하며 VRAM OOM 없이 안정적으로 동작을 유지할 수 있습니다.

2. 복잡한 표와 텍스트가 섞인 문서(Document) QA 봇 단순한 사진이 아니라 사내 슬랙에 업로드되는 복잡한 아키텍처 다이어그램이나 대시보드 스크린샷을 분석하는 RAG 봇을 생각해 보세요. 기존 푸루닝 방식을 쓰면 다이어그램 구석에 있는 중요한 텍스트 토큰을 ‘배경’으로 오인해 날려버리는 경우가 많습니다. 이미지 인식률(엔트로피)을 기반으로 보존 전략을 바꾸는 이 접근법은 문서 OCR 및 복합 추론 환경에서 할루시네이션을 극적으로 낮춰줄 치트키가 될 수 있습니다.

🧐 Tech Lead’s Verdict

👍 Pros (찬양할 만한 점): LVLM 최적화 씬에서 단순히 “우리 알고리즘 짱 빠름!”이라고 외치는 논문은 널렸습니다. 하지만 AgilePruner는 왜 특정 푸루닝 기법이 환각을 유발하는지를 erank라는 명확한 지표로 까발렸다는 점에서 박수를 쳐주고 싶습니다. ‘어텐션 vs 다양성’이라는 이분법을 깨고, 입력 데이터에 맞춰 태세를 전환하는 철저한 실용주의적 접근도 현업 개발자 입장에서 아주 매력적입니다.

👎 Cons (까야 할 점): 논문에서는 “최소한의 인스턴스화(minimal instantiation)”로 간단히 구현했다고 주장하지만, 솔직히 vLLM이나 TGI 같은 거대한 프로덕션 프레임워크에 커스텀 토큰 라우팅 로직을 끼워 넣는 건 엄청난 삽질을 동반합니다. 공식 리포지토리에 제공된 코드는 연구용(Research-grade)이라, 당장 내일 아침 서비스에 복붙(Ctrl+C, V)해서 쓸 만큼 친절하게 패키징되어 있진 않습니다.

🔥 최종 판정: Wait for Framework Integration, but Steal the Insight! 당장 깃허브에서 클론 받아서 무리하게 프로덕션에 올릴 필요는 없습니다. 하지만 이들이 증명한 “이미지의 엔트로피(복잡도)를 측정해 푸루닝 강도와 방식을 동적으로 조절한다”는 아이디어는 기가 막힙니다. 오픈소스 생태계(HuggingFace Transformers 등)에 이 아키텍처가 공식적으로 병합될 때까지 조금 기다리시되, 자체적인 LVLM 서빙 파이프라인을 깎고 계신 분들이라면 이 적응형 로직의 핵심 아이디어만은 당장 훔쳐서 적용해 보시길 강력히 권합니다.

Original Paper Link

tech

This post is licensed under CC BY 4.0 by the author.

⚙️ 어텐션 vs 다양성: 시각 토큰 푸루닝의 불편한 진실

⚔️ 기존 무지성 가지치기 vs 적응형(Adaptive) 패러다임

🚀 내일 당장 프로덕션에 쓸 수 있을까?

🧐 Tech Lead’s Verdict

Support OPSOAI ☕