Post

[2026-03-03] [멀티모달] 텍스트만 파먹던 LLM은 잊어라, 근본부터 다시 짠 비전-언어 모델의 등장

[2026-03-03] [멀티모달] 텍스트만 파먹던 LLM은 잊어라, 근본부터 다시 짠 비전-언어 모델의 등장

Link: arXiv:2603.03276 Authors: Research Team Date: March 2026

솔직히 요즘 쏟아지는 VLM(비전-언어 모델)들 보면 좀 답답하지 않나요? LLaMA나 GPT 같은 텍스트 모델 기깔나게 깎아놓고, 그 위에 CLIP 같은 비전 인코더 하나 띡 붙여서 파인튜닝한 다음 “자, 이제 우리 모델도 눈이 생겼습니다!”라고 홍보하는 거요.

이런 ‘땜질식’ 멀티모달은 치명적인 한계가 있습니다. 텍스트와 이미지가 뇌의 전혀 다른 영역에서 따로 노는 느낌이랄까요? 이미지 속의 미묘한 물리적 맥락이나 인과관계를 제대로 이해하지 못하고 그저 텍스트로 치환해서 뱉어낼 뿐입니다.

오늘 뜯어볼 이 페이퍼는 이 바닥의 썩은 관행에 정면으로 도전합니다. 텍스트 먼저 가르치고 이미지를 주입하는 게 아니라, “처음부터 아무것도 모르는 상태에서 텍스트와 비전을 동시에 때려 넣으면 어떻게 될까?”라는 무식하지만 근본적인 질문을 던졌죠. 그리고 그 결과는 꽤나 충격적입니다.

텍스트는 다음 단어 예측, 비전은 디퓨전으로 ‘처음부터 동시에’ 학습시켰더니, 모델이 단순한 이미지 인식을 넘어 세상의 물리 법칙(World Modeling)까지 스스로 깨우치기 시작했다.


🤔 땜질식 멀티모달은 가라, 진짜 ‘융합’은 어떻게 돌아가는가?

이해를 돕기 위해 비유를 하나 들어볼게요. 기존의 VLM 방식은 20년 동안 한국어만 파고든 국문학자에게 갑자기 영어 단어장 몇 달 외우게 한 뒤 동시통역을 시키는 격입니다. 당연히 어색하겠죠? 반면, 이 페이퍼가 제안하는 방식은 아기 때부터 한국어와 영어를 동시에 듣고 자란 완벽한 바이링구얼(Bilingual)을 키우는 것과 같습니다.

하지만 텍스트와 이미지는 태생부터가 다릅니다. 텍스트는 끊어져 있는 ‘이산적(Discrete)’ 데이터고, 이미지는 연속적인(Continuous) 픽셀 덩어리잖아요. 이 연구팀은 이 두 가지 언어를 하나의 뇌 안에서 처리하기 위해 Transfusion 프레임워크라는 기가 막힌 구조를 들고 왔습니다.

구체적으로 어떻게 작동하는지 뜯어보면 이렇습니다.

🔹 언어는 예측하고, 비전은 확산한다: 하나의 트랜스포머 모델 안에서 텍스트 토큰이 들어오면 기존 LLM처럼 ‘다음 단어 예측(Next-token prediction)’을 수행합니다. 그런데 비전 데이터가 들어오면? ‘디퓨전(Diffusion)’ 방식을 사용해 노이즈를 제거하며 이미지를 생성하거나 이해합니다. 억지로 이미지를 텍스트 토큰으로 쪼개지 않고, 각자의 본성에 맞는 학습 방식을 하나의 모델 안에 우겨넣은 거죠.

🔹 RAE (Representation Autoencoder)의 재발견: 이들은 시각 정보를 처리하기 위해 RAE를 도입했습니다. 기존에 흔히 쓰던 VQ-VAE처럼 억지로 시각 정보를 이산적인 토큰으로 압축하려 들지 않고, 연속적인 잠재 공간(Continuous latent space)을 그대로 활용합니다. 그 결과, 이미지를 ‘이해’하는 능력과 ‘생성’하는 능력 두 마리 토끼를 완벽하게 잡았습니다.

🔹 시너지와 월드 모델링의 발현: 텍스트와 비전 데이터를 섞여 먹였더니, 서로가 서로의 학습을 돕는 ‘시너지’가 폭발했습니다. 더 소름 돋는 건, 행동이 조건으로 부여된 비디오(Action-conditioned video)까지 같이 학습시켰더니 모델이 단순한 픽셀의 나열이 아니라 “내가 운전대를 왼쪽으로 꺾으면 화면이 왼쪽으로 이동한다”는 식의 물리적 세계의 법칙(World Modeling)을 자연스럽게 터득했다는 겁니다.

Transfusion Architecture Setup

  • 억지로 토큰화하지 않고 텍스트는 예측, 비전은 디퓨전으로 처리하는 투트랙 구조가 진정한 멀티모달 확장의 열쇠다.

🔥 기존 VLM(비전-언어 모델)들 싹 다 찢어버리는 압도적 차이점

제가 이 페이퍼에서 가장 전율을 느낀 부분은 바로 ‘스케일링 비대칭성(Scaling Asymmetry)’을 발견하고 이를 MoE(Mixture-of-Experts)로 해결한 대목입니다.

연구팀이 IsoFLOP(동일한 연산량을 주었을 때의 성능 최적화) 분석을 해보니, 아주 뼈때리는 진실이 드러났습니다. 비전(Vision)은 텍스트보다 훨씬 더 많은 ‘데이터(Data)’에 굶주려 있고, 텍스트(Language)는 비전보다 훨씬 더 큰 ‘모델 용량(Capacity)’을 필요로 한다는 것이죠.

기존의 단일(Dense) 모델 구조에서는 이걸 맞출 수가 없습니다. 텍스트에 맞춰 모델 크기를 키우면 비전 데이터가 부족해서 과적합(Overfitting)이 나고, 비전에 맞추면 텍스트가 멍청해지거든요.

비교 항목기존 SOTA VLM (LLaMA + CLIP 등)이번 연구 (Transfusion + MoE)
학습 방식텍스트 사전학습 후 비전 어댑터 땜질텍스트 + 비전 스크래치 동시 학습
비전 처리이미지를 텍스트 토큰처럼 강제 변환디퓨전(Diffusion)으로 네이티브하게 처리
스케일링 병목텍스트/비전 중 하나는 무조건 성능 손해MoE 도입으로 각 모달리티별 리소스 최적화
물리 법칙 이해약함 (그저 이미지를 묘사할 뿐)강함 (행동에 따른 비디오 변화 예측 가능)

연구팀은 MoE 구조를 도입해 이 딜레마를 박살냈습니다. 텍스트를 처리할 때는 수많은 Expert 파라미터를 동원해 뇌의 용량을 최대로 쓰고, 비전을 처리할 때는 파라미터는 적게 쓰되 방대한 데이터를 들이부어 학습하는 식이죠. 모델이 알아서 데이터의 종류에 따라 최적의 뇌 회로를 스위칭하는 셈입니다. 이게 진짜 ‘엔지니어링의 예술’ 아닙니까?


🚀 실전에서는 어떻게 쓰일까? (이게 내 월급에 미치는 영향)

이론이 아무리 좋아도 우리가 써먹을 데가 없으면 예쁜 쓰레기죠. 하지만 이 기술은 산업 현장을 통째로 바꿀 잠재력을 가지고 있습니다.

  1. 자율주행 및 로보틱스를 위한 완벽한 ‘월드 시뮬레이터’ 구축 이제 더 이상 비싸게 3D 엔진으로 가상 환경을 구축할 필요가 없어질지도 모릅니다. 행동 조건부 비디오(Action-conditioned video)를 이해하는 이 모델은, 로봇의 센서 입력과 제어 명령을 동시에 받아들여 “1초 뒤에 일어날 상황”을 비디오로 정확히 예측하고 생성할 수 있습니다. 로봇은 현실에 나가서 구를 필요 없이, 이 모델이 만들어낸 상상 속의 세계에서 수만 번의 시뮬레이션을 돌릴 수 있게 됩니다.

  2. 초고효율 멀티모달 AI 에이전트의 등장 (서버비 다이어트) 기존의 거대한 멀티모달 모델을 서비스에 올리면 GPU 서버비 때문에 스타트업들은 등골이 휘죠. 하지만 이 MoE 기반의 네이티브 멀티모달 모델은 다릅니다. 유저가 텍스트만 물어보면 텍스트 Expert만 깨우고, 이미지를 던지면 비전 Expert만 활성화합니다. 훠씬 적은 연산량(FLOPs)으로도 GPT-4V 뺨치는 성능을 낼 수 있으니, 기업 입장에선 인퍼런스 비용을 획기적으로 줄일 수 있는 치트키가 됩니다.


🧐 Editor’s Honest Review: 이거 당장 도입해, 말아?

👍 Pros (이건 미쳤다):

  • 스케일링 법칙의 비대칭성 규명: 텍스트와 비전이 필요로 하는 자원(데이터 vs 파라미터 용량)이 다르다는 걸 IsoFLOP 분석으로 증명하고 MoE로 해결한 논리는 올해 읽은 페이퍼 중 가장 깔끔하고 완벽합니다.
  • 진정한 월드 모델링의 가능성: 땜질이 아니라 근본부터 멀티모달로 크는 AI가 물리 법칙을 스스로 학습한다는 건, AGI로 가는 가장 큰 허들을 하나 넘었다는 뜻입니다.

👎 Cons (그래서 내 PC에서 돌아감?):

  • “From-scratch”의 압박: 네, 처음부터 동시에 학습해야 하죠. 이건 곧 수천 대의 H100 GPU 클러스터를 가진 빅테크가 아니면 이 아키텍처를 직접 바닥부터 훈련시킬 엄두조차 낼 수 없다는 뜻입니다. 우리 같은 평범한 개발자나 스타트업은 누군가 이 구조로 훈련된 오픈소스 웨이트(Weights)를 자비롭게 뿌려주기만을 기도해야 합니다.
  • 데이터 확보의 지옥: 비전이 텍스트보다 훨씬 더 데이터에 굶주려 있다는 걸 스스로 증명해버렸습니다. 고품질의 비디오-액션 페어, 이미지-텍스트 페어를 천문학적인 단위로 구해야 한다는 숙제가 남습니다.

🔥 Verdict: Deployment Ready (단, 빅테크 한정)

이 페이퍼는 단순한 연구실의 장난감이 아닙니다. 앞으로 나올 차세대 파운데이션 모델(GPT-5, Llama 4 등)이 멀티모달을 어떻게 설계해야 하는지 명확한 청사진을 던져줬습니다. 당장 내일 우리 회사 프로덕트에 복붙해서 쓸 수 있는 코드는 아니지만, 앞으로 1~2년 내에 AI 씬이 텍스트 중심에서 ‘네이티브 월드 모델’로 어떻게 진화할지 보여주는 완벽한 예고편입니다.

지금 당장 GPU 서버를 살 돈이 없다면, 적어도 이 MoE 기반 멀티모달 구조가 오픈소스로 풀리는 그 날을 위해 프로젝트 아키텍처를 유연하게 설계해 두시길 권합니다. 땜질식 VLM의 시대는 이제 끝났으니까요.

Original Paper Link

This post is licensed under CC BY 4.0 by the author.