[2025-12-27] 디퓨전 언어 모델(dLLM) 기반의 차세대 VLA 혁명: Dream-VL 및 Dream-VLA 심층 분석

Posted Dec 30, 2025

Paper Thumbnail

By OPSOAI

14 min read

[2025-12-27] 디퓨전 언어 모델(dLLM) 기반의 차세대 VLA 혁명: Dream-VL 및 Dream-VLA 심층 분석

디퓨전 언어 모델(dLLM) 기반의 차세대 VLA 혁명: Dream-VL 및 Dream-VLA 심층 분석

1. 핵심 요약 (Executive Summary)

최근 대규모 시각-언어 모델(Vision-Language Models, VLMs) 분야는 GPT-4V로 대변되는 오토레그레시브(Autoregressive, AR) 방식이 주도해 왔습니다. 하지만 AR 모델은 순차적 토큰 생성 방식의 특성상 복잡한 시각적 계획(Visual Planning)과 실시간 로봇 제어(Robotic Control)에서 구조적인 한계를 보입니다.

본 분석에서 다룰 Dream-VL 및 Dream-VLA는 기존의 AR 구조를 탈피하여 디퓨전 언어 모델(Diffusion Language Model, dLLM)을 백본으로 채택한 오픈소스 시각-언어-행동 모델입니다. Dream-VL은 시각적 이해와 계획에서 기존 dVLM들을 압도하며, 이를 확장한 Dream-VLA는 로보틱스 데이터셋에서 LIBERO 기준 97.2%의 성공률을 기록하는 등 업계 선두 모델인 π_0와 GR00T-N1을 능가하는 성능을 입증했습니다. 이는 로보틱스 분야에서 디퓨전 기반 모델이 AR 모델의 강력한 대안이자 미래임을 시사합니다.

2. 연구 배경 및 문제 정의 (Introduction & Problem Statement)

AR 모델의 아킬레스건: 로보틱스에서의 한계

현재 AI 학계의 주류인 AR 기반 VLM은 이전 토큰을 기반으로 다음 토큰을 예측하는 방식입니다. 이는 텍스트 생성에는 탁월하나, 다음과 같은 로보틱스 특유의 문제에 직면합니다:

순차적 오류 누적 (Error Accumulation): 한 번의 예측 오류가 이후 모든 행동 시퀀스에 영향을 미칩니다.
비효율적인 액션 청킹 (Action Chunking): 로봇은 수십 개의 관절 제어 값을 동시에 출력해야 하는데, AR 방식은 이를 순차적으로 생성해야 하므로 지연 시간이 발생합니다.
양방향 문맥 이해 부족: AR은 과거의 정보만을 참조하지만, 로봇의 계획(Planning)은 목표 상태와 현재 상태를 동시에 고려하는 전역적인 최적화가 필요합니다.

디퓨전 모델의 부상

디퓨전 모델은 이미지 생성 분야에서 입증되었듯, 데이터의 전체 분포를 한 번에 모델링하는 데 강점이 있습니다. 연구진은 “언어 모델링 역시 디퓨전 방식으로 수행한다면, 시각적 계획과 로봇 행동 제어에서 발생하는 AR의 한계를 극복할 수 있지 않을까?”라는 근본적인 질문에서 출발했습니다.

3. 핵심 기술 및 아키텍처 심층 분석 (Core Methodology)

3.1 dLLM 백본: 생성의 패러다임 전환

Dream-VL의 핵심은 MDLM(Masked Diffusion Language Model) 스타일의 백본을 사용하는 것입니다. 이는 텍스트 토큰을 이산적(Discrete) 디퓨전 과정을 통해 생성합니다.

양방향성(Bidirectional Nature): 디퓨전 과정에서 모든 토큰 위치는 서로를 참조할 수 있습니다. 이는 시각적 정보를 텍스트와 결합할 때 훨씬 풍부한 표현력을 제공합니다.
병렬 생성(Parallel Generation): 모든 행동 시퀀스(Action Tokens)를 동시에 노이즈 제거(Denoising) 과정을 통해 생성하므로, 로봇 제어에 필요한 고차원 액션 출력이 매우 빠르고 정교합니다.

3.2 Dream-VL: 강력한 Vision-Language 정렬

Dream-VL은 시각적 인코더(SigLIP 등)를 통해 추출된 특징을 디퓨전 언어 모델의 임베딩 공간으로 투영(Projection)합니다.

Visual Planning Advantage: 연구 결과에 따르면, Dream-VL은 특히 ‘다음에 수행할 동작을 텍스트로 설명’하거나 ‘이미지 내의 공간적 관계를 파악’하는 작업에서 일반 AR VLM보다 뛰어난 성과를 보입니다. 이는 디퓨전 모델이 전체 문맥을 한 번에 조망하는 특성 때문입니다.

3.3 Dream-VLA: Action으로의 확장

Dream-VL을 기반으로 로보틱스 데이터를 지속 학습(Continuous Pre-training)시킨 모델이 Dream-VLA입니다.

Action Chunking 최적화: Dream-VLA는 한 번의 추론으로 여러 단계의 로봇 동작(Action Chunk)을 동시에 생성합니다.
빠른 수렴 속도: 논문에서는 디퓨전 백본이 AR 백본보다 로보틱스 미세 조정(Fine-tuning) 단계에서 훨씬 빠르게 목표 성능에 도달함을 증명했습니다. 이는 디퓨전 과정이 행동의 연속적인 분포를 학습하는 데 더 적합한 귀납적 편향(Inductive Bias)을 가졌음을 의미합니다.

4. 구현 및 실험 환경 (Implementation Details)

학습 데이터 및 인프라

Pre-training: 대규모 오픈소스 VLM 데이터셋(ShareGPT4V 등)을 사용하여 Dream-VL을 학습.
Robotic Tuning: Open X-Embodiment 데이터셋 및 LIBERO, Bridge 등 다양한 로봇 조작 데이터를 사용.
모델 크기: 효율성과 성능의 균형을 위해 수십억(Billion) 파라미터 규모로 설계되었으며, 이는 온디바이스(On-device) 로봇 적용을 고려한 전략적 선택으로 보입니다.

5. 성능 평가 및 비교 (Comparative Analysis)

5.1 시뮬레이션 환경 (LIBERO & SimplerEnv)

Dream-VLA의 진가는 벤치마크 결과에서 극명하게 드러납니다.

LIBERO: 평균 성공률 97.2% 달성. 이는 기존의 강력한 모델들을 유의미한 차이로 따돌린 수치입니다.
SimplerEnv (Bridge & Fractal): 실제 환경과 유사한 물리 엔진 환경에서도 각각 71.4%, 60.5%의 성공률을 기록했습니다. 특히 구글의 RT-1 기반 모델들이나 최신 π_0 모델보다 높은 일반화 성능을 보였습니다.

5.2 AR Baseline과의 정면 승부

연구팀은 동일한 파라미터와 데이터를 가진 AR 모델과 직접 비교 실험을 수행했습니다. 결과적으로, 모든 태스크에서 디퓨전 기반 모델이 AR 모델을 능가했습니다. 이는 단순히 모델의 크기 문제가 아니라, 디퓨전이라는 아키텍처 자체가 VLA 태스크에 더 적합함을 입증한 것입니다.

6. 실제 적용 분야 및 글로벌 파급력 (Real-World Application & Impact)

6.1 차세대 스마트 팩토리 및 물류

Dream-VLA의 높은 성공률과 병렬 액션 생성 능력은 복잡한 조립 공정이나 물류 분류 로봇에 즉각 투입 가능합니다. 특히 예외 상황(Exception Handling)이 발생했을 때, 전체 계획을 빠르게 재수정(Re-planning)하는 디퓨전의 특성은 큰 장점이 됩니다.

6.2 가정용 서비스 로봇

사용자의 모호한 언어 명령(“주방 좀 치워줘”)을 시각적 정보와 결합하여 구체적인 행동 시퀀스로 변환하는 데 최적입니다. Dream-VL의 뛰어난 시각적 계획 능력은 로봇이 가구 배치를 이해하고 장애물을 회피하며 효율적인 동선을 짜는 데 핵심적인 역할을 할 것입니다.

6.3 자율 주행 및 모빌리티

복잡한 도심 주행 상황에서 보행자의 움직임을 예측하고 자신의 경로를 생성하는 과정은 VLA의 전형적인 사례입니다. Dream-VLA의 아키텍처는 다중 객체 간의 상호작용을 병렬로 처리하는 데 유리하므로 차세대 자율주행 스택의 핵심 모델로 고려될 수 있습니다.

7. 한계점 및 기술적 비평 (Discussion & Critique)

7.1 추론 속도와 리소스의 트레이드오프

디퓨전 모델의 고질적인 문제는 ‘반복적인 노이즈 제거(Iterative Denoising)’ 과정입니다. 비록 액션 청킹을 통해 병렬성을 확보했다 하더라도, 단 한 번의 전방향 계산(Forward Pass)으로 끝나는 AR 모델에 비해 추론 시 계산 비용이 높을 수 있습니다. 실시간성(Real-time)이 극도로 중요한 로봇 환경에서 이 지연 시간을 어떻게 획기적으로 줄일 것인가에 대한 고민이 더 필요합니다.

7.2 데이터 효율성 문제

실험 결과는 훌륭하지만, 디퓨전 모델이 AR 모델만큼 데이터 효율적인지에 대해서는 여전히 의문이 남습니다. 특히 희귀한 상황(Corner Cases)에 대한 데이터가 부족할 때, 디퓨전 분포가 무너지는 현상을 어떻게 방지할 것인지에 대한 구체적인 분석이 보강되어야 합니다.

7.3 오픈소스 모델의 지속 가능성

Dream-VL/VLA는 오픈소스로 공개되었다는 점에서 큰 의의가 있지만, 폐쇄형 모델(예: Google DeepMind의 RT-2 향후 버전)과의 성능 격차를 지속적으로 유지할 수 있을지는 커뮤니티의 기여와 대규모 컴퓨팅 자원 지원 여부에 달려 있습니다.

8. 결론 및 인사이트 (Conclusion)

Dream-VL과 Dream-VLA는 시각-언어-행동의 통합에 있어 ‘디퓨전 아키텍처’라는 새로운 이정표를 세웠습니다. AR 모델이 가진 구조적 한계를 디퓨전의 양방향성과 병렬성으로 해결한 점은 매우 영리한 접근입니다.

시니어 AI 과학자로서 필자는 이 연구가 향후 로보틱스 AI의 표준을 바꿀 잠재력이 있다고 판단합니다. 이제 모델의 규모(Scale) 경쟁을 넘어, 데이터의 본질적 특성(로봇의 연속적 움직임)에 가장 잘 부합하는 수학적 구조(디퓨전)를 선택하는 것이 성능의 차이를 만드는 핵심이 되었습니다. Dream-VLA의 등장은 로봇이 인간의 언어를 이해하고 현실 세계에서 정교하게 움직이는 시대를 앞당기는 중요한 촉매제가 될 것입니다.

Original Paper Link

tech

This post is licensed under CC BY 4.0 by the author.