Post

[2026-01-21] 로봇의 언어 이해를 혁신하는 BayesianVLA: Information Collapse 해결과 베이지안 분해 기술의 심층 분석

[2026-01-21] 로봇의 언어 이해를 혁신하는 BayesianVLA: Information Collapse 해결과 베이지안 분해 기술의 심층 분석

로봇의 언어 이해를 혁신하는 BayesianVLA: Information Collapse 해결과 베이지안 분해 기술의 심층 분석

1. Executive Summary (핵심 요약)

최근 로보틱스 분야에서는 시각(Vision), 언어(Language), 그리고 행동(Action)을 단일 신경망으로 통합한 VLA(Vision-Language-Action) 모델이 비약적인 발전을 거듭하고 있습니다. 하지만 이러한 모델들이 실제 환경, 특히 학습 데이터셋에 포함되지 않은 ‘분포 외(Out-of-Distribution, OOD)’ 상황에서 언어 지시사항을 무시하고 시각 정보에만 의존해 동작하는 ‘정보 붕괴(Information Collapse)’ 현상이 심각한 문제로 대두되었습니다.

본 분석에서 다룰 BayesianVLA는 이러한 고질적인 문제를 ‘베이지안 분해(Bayesian Decomposition)’와 ‘잠재 액션 쿼리(Latent Action Queries)’라는 혁신적인 방법론으로 해결한 연구입니다. 핵심 기여는 다음과 같습니다:

  1. 현상 진단: VLA 모델이 시각 정보만으로 다음 행동을 예측할 수 있는 데이터셋 편향 때문에 언어 지시사항을 무시하게 됨을 수학적으로 증명했습니다.
  2. 방법론 제시: 시각 정보만을 고려하는 ‘Prior’와 언어 지시사항을 포함하는 ‘Posterior’를 분리하는 이중 브랜치 아키텍처를 제안했습니다.
  3. 목적 함수 최적화: 조건부 점별 상호 정보량(Conditional Pointwise Mutual Information, PMI)을 최대화하여, 모델이 ‘언어 지시사항 없이는 설명할 수 없는 행동’을 선택하도록 강제했습니다.
  4. 성과: 추가적인 데이터 수집 없이도 SimplerEnv OOD 벤치마크에서 기존 모델 대비 11.3%의 성능 향상을 기록하며 로봇 제어의 강건성을 입증했습니다.

2. Introduction & Problem Statement (연구 배경 및 문제 정의)

2.1 VLA 모델의 현주소와 한계

RT-2, OpenVLA 등 대규모 멀티모달 모델(VLM)을 기반으로 한 로봇 정책은 복잡한 조작 작업을 수행하는 데 탁월한 능력을 보여왔습니다. 이들은 수만 건의 로봇 궤적 데이터를 학습하여 시각적 상황을 이해하고 텍스트로 된 명령어를 실행합니다. 하지만 연구팀은 한 가지 의문을 제기했습니다. “과연 이 로봇들이 진짜로 명령어를 ‘이해’하고 움직이는가?”

2.2 Information Collapse: 언어가 사라진 로봇 제어

현실의 로봇 학습 데이터셋(예: BridgeV2, OXE)은 대부분 ‘목표 지향적(Goal-driven)’입니다. 즉, 로봇이 사과를 집으려 할 때 화면에는 이미 사과 앞에 로봇 팔이 위치해 있거나, 특정 물체에 집중된 구도로 데이터가 구성됩니다. 이 경우, 모델 입장에서는 굳이 “사과를 집어라”라는 텍스트를 읽지 않아도 시각적 특징 $v$만으로 다음 행동 $a$를 90% 이상의 확률로 맞출 수 있습니다.

수학적으로 표현하면, 시각 정보가 주어졌을 때 행동과 명령어 사이의 조건부 상호 정보량(Conditional Mutual Information) $I(A; LV)$가 0에 가깝게 수렴하는 현상이 발생합니다. 이를 Information Collapse라고 정의합니다. 이 현상이 발생하면 모델은 언어 입력을 노이즈로 취급하고 무시하게 되며, 결과적으로 명령어를 조금만 비틀거나 새로운 환경에 놓이면 엉뚱한 행동을 하게 됩니다.

3. Core Methodology (핵심 기술 및 아키텍처 심층 분석)

BayesianVLA의 핵심은 모델이 행동을 결정할 때 “시각적으로 당연한 행동”과 “언어 명령어 때문에 수행해야 하는 행동”을 구분하게 만드는 것입니다.

3.1 베이지안 분해 (Bayesian Decomposition)

저자들은 정책 $\pi(a | v, \ell)$을 다음과 같이 베이지안 법칙을 이용해 재정의합니다.

\[\pi(a | v, \ell) \propto p(a | v) \cdot \frac{p(\ell | v, a)}{p(\ell | v)}\]
여기서 $p(av)$는 Prior(사전 확률)로, 언어 지시 없이 시각 정보만으로 예측되는 행동의 분포입니다. 오른쪽의 분수 항은 PMI(Pointwise Mutual Information)를 의미하며, 이는 행동 $a$가 수행되었을 때 지시사항 $\ell$이 얼마나 잘 설명되는지를 나타냅니다.

3.2 Dual-branch 아키텍처와 Latent Action Queries

BayesianVLA는 단일 트랜스포머 기반의 VLA를 두 개의 브랜치로 확장합니다.

  1. **Prior Branch ($p(av)$)**: 언어 입력을 제외하고 시각 토큰만을 입력받아 가능한 행동의 분포를 학습합니다. 이는 환경에서 발생 가능한 일반적인 움직임을 담당합니다.
  2. **Posterior Branch ($\pi(av, \ell)$): 시각과 언어 정보를 모두 입력받습니다. 여기서 핵심은 **Latent Action Queries입니다. 기존 VLA가 모든 비전 토큰을 통해 액션을 직접 예측했다면, BayesianVLA는 별도의 학습 가능한 쿼리 토큰을 사용하여 시각과 언어 사이의 상호작용을 집계(Aggregate)하고 최종 액션 토큰을 생성합니다.

3.3 PMI 기반의 목적 함수

단순히 두 브랜치를 학습시키는 것에 그치지 않고, 연구팀은 다음과 같은 손실 함수를 설계했습니다.

\[\mathcal{L} = \mathcal{L}_{MLE}(\pi) + \alpha \cdot \text{PMI}(a; \ell | v)\]
여기서 $\text{PMI}(a; \ellv) = \log \pi(av, \ell) - \log p(av)$입니다. 이 수식은 모델이 Prior($p(av)$)가 낮게 예측하더라도 언어 명령($\ell$)에 부합하는 행동($\pi$)을 선택했을 때 큰 보상을 줍니다. 즉, “시각적으로는 생소하지만 언어가 시킨 행동”을 하도록 강제하는 장치입니다.

4. Implementation Details & Experiment Setup (구현 및 실험 환경)

4.1 Base Model: OpenVLA

본 연구는 가장 성능이 뛰어난 오픈소스 VLA 모델인 OpenVLA (7B)를 베이스 모델로 사용했습니다. Llama-2 기반의 아키텍처에 SigLIP 시각 인코더가 결합된 구조입니다.

4.2 데이터셋 및 학습 전략

  • BridgeV2: 실제 로봇 데이터셋을 사용하여 Fine-tuning을 진행했습니다.
  • Low-rank Adaptation (LoRA): 효율적인 학습을 위해 파라미터 전체를 업데이트하는 대신 LoRA를 적용했습니다.
  • 학습 파라미터: $\alpha$ (PMI 가중치) 값에 따른 민감도 분석을 통해 최적의 밸런스를 찾았습니다.

4.3 벤치마크 환경

  • SimplerEnv: Google Robot 데이터를 기반으로 한 시뮬레이션 환경으로, 배경 변화(OOD) 및 카메라 각도 변화에 대한 강건성을 테스트합니다.
  • RoboCasa: 주방 환경에서의 복잡한 멀티태스크 조작 능력을 평가합니다.

5. Comparative Analysis (성능 평가 및 비교)

5.1 OOD 환경에서의 압도적 성능

SimplerEnv의 Visual Matching (Out-of-Distribution) 테스트 결과는 놀랍습니다.

  • OpenVLA (Baseline): 34.5% 성공률
  • BayesianVLA: 45.8% 성공률 (+11.3%p 향상)

기존 모델들이 배경 색상이나 조명이 바뀌면 언어 지시사항을 잊어버리고 방황하는 반면, BayesianVLA는 언어 명령과의 상호 정보량을 극대화했기 때문에 환경 변화 속에서도 목표 물체를 정확히 찾아냈습니다.

5.2 RoboCasa: 복잡한 태스크 수행 능력

다양한 가전제품을 조작해야 하는 RoboCasa 환경에서도 BayesianVLA는 기존 SOTA 모델인 Octo나 RT-1-X보다 높은 일반화 성능을 보였습니다. 특히 “전자레인지 문을 열고 사과를 넣어라”와 같이 명령어가 행동 결정에 결정적인 역할을 하는 태스크에서 차별화된 성능을 입증했습니다.


6. Real-World Application & Impact (실제 적용 분야 및 파급력)

BayesianVLA의 등장은 로봇 산업에 몇 가지 중요한 비즈니스적 시사점을 제공합니다.

  1. 데이터 효율적 업그레이드: 새로운 데이터를 수집하는 비용은 천문학적입니다. BayesianVLA는 기존 데이터를 ‘해석하는 방식’을 바꿈으로써 추가 비용 없이 모델의 지능을 한 단계 높였습니다.
  2. 가정용 및 서비스 로봇의 안정성: 가정 환경은 조명, 가구 배치 등이 매일 달라지는 OOD의 연속입니다. 사용자의 음성 명령을 시각 정보보다 우선순위에 두고 처리할 수 있는 BayesianVLA의 메커니즘은 서비스 로봇의 신뢰도를 높이는 핵심 기술이 될 것입니다.
  3. HCI (Human-Computer Interaction)의 강화: 사용자가 명령어를 조금 수정(예: “빨간 컵” -> “오른쪽 컵”)했을 때, 로봇이 민감하게 반응하여 행동을 수정할 수 있게 됩니다. 이는 진정한 의미의 협동 로봇 구현을 앞당깁니다.

7. Discussion: Limitations & Critical Critique (한계점 및 기술적 비평)

본 연구가 훌륭한 성과를 거두었음에도 불구하고, 시니어 사이언티스트의 시각에서 몇 가지 비판적 지점을 짚어보겠습니다.

첫째, 연산 비용의 증가입니다. 이중 브랜치 구조와 PMI 계산은 추론 시에는 단일화될 수 있지만, 학습 과정에서 메모리 점유율과 연산 시간을 늘립니다. 특히 대규모 파라미터를 가진 VLM 기반 모델에서 이러한 오버헤드는 실시간 학습(On-device learning)에 제약이 될 수 있습니다.

둘째, Prior 모델의 의존성입니다. 만약 Prior 브랜치 $p(av)$가 너무 강력하게 학습되어 버리면, 오히려 유용한 시각적 단서까지 PMI 계산 과정에서 상쇄될 위험이 있습니다. 즉, ‘시각적 상식’과 ‘언어적 지시’ 사이의 적절한 균형점에 대한 이론적 가이드라인이 부족합니다.

셋째, 정적인 텍스트 명령의 한계입니다. 현재는 단일 문장 명령어를 다루고 있지만, 실제 환경에서의 로봇은 대화의 맥락이나 동적인 피드백을 수용해야 합니다. BayesianVLA의 프레임워크가 시계열적인 대화 맥락에서도 동일한 효과를 낼지는 미지수입니다.


8. Conclusion (결론 및 인사이트)

BayesianVLA는 VLA 모델이 빠지기 쉬운 ‘지름길 학습(Shortcut Learning)’의 함정을 수학적 통찰력으로 간파하고 이를 베이지안 기법으로 우아하게 해결했습니다. “행동은 언어를 증명해야 한다”는 PMI 기반의 철학은 단순한 성능 향상을 넘어, AI 모델이 입력을 처리하는 ‘의도’를 제어할 수 있는 가능성을 보여주었습니다.

앞으로의 로봇 AI는 단순히 거대해지는 것을 넘어, 인간의 명령어를 시각적 노이즈 속에서도 정확히 추출해내는 ‘강건한 인지 구조’를 갖춰야 합니다. BayesianVLA는 그 여정에서 매우 중요한 이정표가 될 것입니다. 개발자들과 비즈니스 리더들은 이제 ‘데이터의 양’만큼이나 ‘데이터 내 정보의 흐름(Information Flow)’을 어떻게 설계할 것인지 고민해야 할 때입니다.

Original Paper Link

This post is licensed under CC BY 4.0 by the author.