[2026-03-10] [MM-Zero] 데이터 0개로 VLM을 학습시킨다고? 코드를 렌더링 엔진으로 쓰는 자가진화 아키텍처 해부

Posted Mar 11, 2026

Paper Thumbnail

By OPSOAI

14 min read

[2026-03-10] [MM-Zero] 데이터 0개로 VLM을 학습시킨다고? 코드를 렌더링 엔진으로 쓰는 자가진화 아키텍처 해부

[Metadata]

Paper: MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data
ArXiv ID: 2603.09206
Keywords: VLM, Reinforcement Learning, Self-Evolving, GRPO, Synthetic Data

🚨 VLM 파인튜닝, 언제까지 캡셔닝 알바만 돌릴 건가요?

요즘 사내에서 VLM(Vision Language Model) 좀 깎아보신 분들은 뼈저리게 느끼실 겁니다. 모델 아키텍처 자체가 부족해서 프로젝트가 망하는 경우는 거의 없어요. 진짜 지옥은 ‘데이터 파이프라인’에서 시작됩니다. 모델을 똑똑하게 만들려면 고품질의 ‘이미지-텍스트-질문-정답’ 세트가 수십만 개 필요한데, 이거 웹 스크래핑으로 긁어오면 라이선스 문제에 걸리고, 노이즈 잡느라 엔지니어들이 하루 종일 데이터 클렌징만 하고 있죠.

LLM 진영은 이미 스스로 문제를 내고 풀면서 진화하는 ‘Self-Evolving(자가진화)’의 시대로 넘어갔습니다. 하지만 VLM은 시각적(Visual) 모달리티라는 거대한 장벽 때문에 항상 ‘시드(Seed) 이미지 데이터’가 필수적이라고 여겨졌어요.

그런데 오늘 뜯어볼 MM-Zero는 이 업계의 불문율을 박살내버립니다. 외부 이미지 데이터요? 단 0개(Zero Data). 인간의 개입 없이, 모델 스스로 이미지를 상상해내고, 문제를 만들고, 정답을 맞히면서 똑똑해집니다. 도대체 어떤 흑마법을 부렸길래 이게 가능한 걸까요?

한 줄 요약: 확산(Diffusion) 모델의 비싼 연산량을 버리고, 파이썬/SVG 코드를 ‘렌더링 엔진’으로 활용해 무한한 시각적 환경을 창조해내는 미친 발상의 RL 프레임워크. 하지만 실사 이미지 추론에는 아직 뼈아픈 한계가 있습니다.

⚙️ 코드 몇 줄로 이미지를 연성하다: 3각 편대(Tri-Role) 아키텍처의 비밀

기존의 자가진화 모델들은 보통 문제를 내는 Proposer(출제자)와 문제를 푸는 Solver(해결사)라는 두 가지 역할을 핑퐁처럼 주고받았습니다. 하지만 시각 정보가 개입되면 이 구조는 처참하게 무너집니다. 언어 모델이 텍스트로 “빨간 사과”라고 출제해봤자, 정작 이미지가 없으면 Solver가 시각적 추론을 연습할 수 없으니까요.

그렇다고 Proposer에 무거운 이미지 생성 모델(Stable Diffusion 등)을 붙인다? 강화학습 루프가 돌아갈 때마다 생성 모델을 호출하면 GPU 서버 비용으로 회사가 파산할 겁니다. 게다가 환각(Hallucination) 현상 때문에 문제의 텍스트와 실제 생성된 이미지가 다를 확률도 높죠.

MM-Zero 연구진은 여기서 아주 영악한 해법을 들고 옵니다. “코드로 그림을 그리자.”

이 다이어그램은 단순한 구조도가 아닙니다. 언어 모델이 ‘코드’라는 매개체를 통해 추상적 아이디어를 결정론적(Deterministic) 픽셀로 변환하여 강화학습의 피드백 루프를 완성하는 핵심 설계도입니다.

MM-Zero는 베이스 모델 하나를 복제해 세 가지 특화된 페르소나(Role)로 나눕니다.

🔹 The Proposer (기획자): 추상적인 시각적 개념과 질문을 생성합니다. “좌표 평면 위에 반지름이 5인 파란색 원이 있고, 중심을 지나는 빨간 선이 있다. 교차점의 좌표는?”

🔹 The Coder (렌더링 엔진 - 핵심 기술): Proposer의 기획안을 받아 실행 가능한 코드(Python Matplotlib, SVG 등)로 번역합니다. 이 코드를 로컬 환경에서 실행(Execute)하면 완벽하게 통제된, 픽셀 단위로 정확한 이미지가 렌더링됩니다. 생성 AI의 랜덤성에 의존하지 않기 때문에 노이즈가 0%에 수렴하죠.

🔹 The Solver (추론자): Coder가 렌더링한 이미지와 Proposer의 질문을 받아 실제 VLM 추론을 수행합니다.

이 세 모델은 DeepSeek-R1에서 증명된 GRPO(Group Relative Policy Optimization) 알고리즘으로 동시 학습됩니다. 특히 리워드 함수 설계가 예술인데, Coder가 짠 파이썬 코드에서 Syntax Error가 나면 즉시 마이너스 보상을 때리고(Execution Feedback), 생성된 이미지가 Proposer의 의도와 다르면 시각적 검증(Visual Verification)에서 감점을 줍니다. 난이도 조절 보상까지 있어서, 모델이 계속 쉬운 원이나 네모만 그리는 꼼수를 원천 차단했습니다.

⚔️ 전통적 파이프라인 vs 제로 데이터 패러다임

기존의 LLaVA 스타일 데이터 파이프라인과 MM-Zero를 비교해보면, 왜 이 접근법이 개발자들의 수명을 늘려줄 수 있는지 명확해집니다.

비교 항목	기존 방식 (Data-Driven VLM)	MM-Zero (Code-Driven RL)
데이터 수집 비용 (Cost)	수만 달러 (GPT-4V API 호출, 휴먼 라벨링)	0원 (순수 컴퓨팅 파워만 소모)
시각적 정확도 (Precision)	이미지와 텍스트 쌍의 미세한 불일치 존재	코드로 렌더링하므로 100% 논리적 일치
콜드 스타트 (Cold Start)	대량의 시드 데이터셋 구축할 때까지 대기	베이스 모델만 있으면 오늘 당장 학습 시작 가능
다양성 제어 (Diversity)	크롤링한 데이터셋의 도메인에 심각하게 종속됨	RL의 난이도/페널티 함수 튜닝으로 무한 생성 가능
Developer Experience (DX)	데이터 클렌징, 중복 제거, 라이선스 검토 지옥	순수 엔지니어링. 리워드 설계와 파이썬 샌드박스 관리만 하면 됨

표를 보시면 아시겠지만, MM-Zero의 방식은 데이터 문제를 ‘소프트웨어 엔지니어링 문제’로 치환해버립니다. 우리는 더 이상 데이터 라벨러를 관리할 필요가 없습니다. 대신 파이썬 코드를 안전하게 실행할 샌드박스 환경(Docker 등)과 강화학습 리워드 최적화에만 집중하면 됩니다.

🚀 내일 당장 프로덕션에 쓸 수 있을까? (Use Cases)

이 논문을 읽고 “아, 학계에서 또 재밌는 장난감 만들었네” 하고 넘기시면 안 됩니다. 당장 실무에 적용해볼 만한 기가 막힌 시나리오들이 있습니다.

1. B2B SaaS를 위한 대시보드/차트 특화 VLM 구축 사내 데이터베이스를 연동해 “이번 달 매출 그래프 보고 분석해줘” 같은 기능을 만드는 중이신가요? 기존 VLM들은 기하학적 차트나 복잡한 표를 잘 못 읽습니다. MM-Zero의 Coder에게 matplotlib으로 수십만 개의 꺾은선, 막대, 파이 차트를 그리게 하고, 거기에 엣지 케이스(글씨가 겹침, 범례가 꼬임 등)를 섞어 Solver를 가혹하게 학습시켜 보세요. 금융/데이터 분석 특화 VLM을 데이터 크롤링 없이 바닥부터 만들 수 있습니다.

2. 자율주행 및 로보틱스 UI/HMI 테스팅 에이전트 디스플레이에 뜨는 수많은 UI 컴포넌트(버튼, 경고등, 내비게이션 경로)를 인식하는 경량(Edge) 모델이 필요할 때 최고입니다. UI 화면은 본질적으로 코드로 구현된 결과물입니다. Coder에게 CSS나 SVG를 무한정 생성하게 하여, 세상에 존재하지 않는 온갖 해괴한 UI 레이아웃을 학습시킬 수 있습니다. 모바일 앱 매크로 테스팅 봇을 만들 때 완벽한 솔루션이죠.

🧐 Tech Lead’s Verdict

👍 Pros (합격점):

데이터 병목의 완벽한 해소: VLM 발전을 가로막던 가장 큰 장애물을 ‘코드 렌더링’이라는 우아한 엔지니어링으로 우회했습니다.
검증 가능한 피드백 루프: 코드 실행(Execution) 결과와 에러 로그를 직접적인 RL 리워드로 쓴다는 건, 모델의 추론 과정을 명확히 디버깅할 수 있다는 뜻입니다. 환각을 물리적으로 차단하는 가장 좋은 방법이죠.

👎 Cons (불만족스러운 점):

실사(Photorealistic) 도메인의 한계: 파이썬 코드나 SVG로 고양이나 사람의 복잡한 표정을 그려낼 순 없습니다. 기하학, 차트, UI, 물리 다이어그램 같은 수학적/논리적 시각 도메인에는 깡패지만, 일상적인 사진을 이해해야 하는 B2C 서비스에 당장 적용하기엔 무리입니다.
컴퓨팅 인프라의 부담: 3개의 모델(Proposer, Coder, Solver)이 동시에 메모리에 상주하며 GRPO를 돕니다. 심지어 파이썬 샌드박스도 수천 개가 병렬로 돌아가야 합니다. 웬만한 중소기업 GPU 클러스터로는 OOM(Out of Memory) 파티를 면치 못할 겁니다.

🔥 최종 판정: “핵심 아이디어만 훔쳐서 파이프라인에 적용해라” 당장 MM-Zero 전체를 클론해서 쌩으로 돌리는 건 서버비 낭비일 수 있습니다. 하지만 “LLM에게 코드를 짜게 해서 합성 이미지를 대량으로 만들고, 이를 학습 데이터로 쓴다”는 핵심 컨셉은 지금 당장 우리 팀의 데이터 파이프라인에 이식해야 합니다. VLM 튜닝을 계획 중이라면 이 논문의 Coder-SVG 생성 방식은 무조건 테스트해보시길 권합니다.

Original Paper Link

tech