Post

[2026-02-27] 왼쪽이라니까 왜 오른쪽에 그려? AI의 지독한 ‘길치’ 본능을 치료할 SpatialScore

[2026-02-27] 왼쪽이라니까 왜 오른쪽에 그려? AI의 지독한 ‘길치’ 본능을 치료할 SpatialScore

언제까지 ‘가챠’만 돌릴 건가요?

스테이블 디퓨전이나 미드저니로 그림 좀 뽑아본 분들이라면 다들 겪어보셨을 겁니다. “사과를 바나나 왼쪽에 둬”라고 분명히 적었는데, 이 녀석은 당당하게 오른쪽에 그려놓죠. 우리가 원하는 건 예술적 혼이 담긴 추상화가 아니라, 내 말을 똑바로 듣는 AI인데 말이죠.

현재 이미지 생성 모델들은 화질은 끝내주지만, 공간 지각 능력(Spatial Understanding)은 거의 바닥 수준입니다. 결국 우리가 원하는 배치를 얻으려면 수십 번씩 생성 버튼을 누르는 ‘가챠’ 노가다를 해야 하죠. 오늘 소개할 논문은 이 멍청한 AI들에게 ‘공간 감각’을 강제로 주입해 주는 아주 영리한 해결책을 제시합니다.

한 줄 요약: 8만 개의 공간 데이터셋으로 훈련된 ‘공간 채점관(SpatialScore)’이 이미지 AI를 1:1로 밀착 마크하며 위치 선정 오류를 완벽하게 교정해 줍니다.


🤔 그래서, 대체 어떻게 가르친다는 건가요?

원리는 생각보다 단순하지만 강력합니다. 이 논문의 핵심은 ‘SpatialScore’라는 일종의 공간 지각 전용 채점 AI를 만드는 겁니다.

🔹 8만 개의 ‘틀린 그림 찾기’ 데이터셋: 먼저 8만 쌍 이상의 이미지 선호도 데이터(SpatialReward-Dataset)를 구축했습니다. 예를 들어 “컵이 접시 위에 있다”는 프롬프트에 대해, 제대로 된 그림과 엉뚱한 그림을 보여주며 정답을 학습시킨 거죠. 🔹 공간 감각 만점짜리 선생님: 이렇게 학습된 SpatialScore는 이제 생성된 이미지를 보고 “음, 이건 컵 위치가 틀렸으니 0점! 이건 완벽하니 100점!”이라며 점수를 매깁니다. 🔹 온라인 강화학습(RL)의 도입: 생성 모델은 이 점수를 잘 받기 위해 실시간으로 피드백을 받으며 자신의 출력물을 수정합니다. 마치 시험 문제를 틀릴 때마다 옆에서 선생님이 바로잡아주는 것과 같죠.


🔥 GPT-4V보다 공간 지각력이 좋다고?

이 논문이 자신 있게 내세우는 점은 바로 성능입니다. 심지어 그 비싼 유료 모델인 GPT-4V나 제미나이(Gemini)와 비교해도 공간 평가 능력에서 더 뛰어난 결과를 보여줬거든요.

비교 항목기존 이미지 모델 (SOTA)SpatialScore 적용 모델
공간 관계 정확도낮음 (운에 맡겨야 함)매우 높음 (지정 위치 고수)
프롬프트 준수율복잡할수록 멍청해짐복잡한 관계도 척척 이해
필요한 생성 횟수수십 번 (가챠 방식)단 몇 번 만에 성공

기존 모델들이 단순히 이미지의 ‘때깔’에만 집중했다면, SpatialScore는 물체가 있어야 할 위치를 정확히 짚어내는 데 특화되어 있습니다.


🧐 테크 리드의 솔직한 감상평

장점: 드디어 ‘제어 가능한’ 생성 AI로 한 걸음 더 단순히 데이터를 더 때려 박는 게 아니라, ‘보상 모델(Reward Modeling)’을 통해 특정 문제를 핀포인트로 해결했다는 점이 아주 섹시합니다. 특히 온라인 강화학습을 통해 기존 모델의 성능을 끌어올린 방식은 실무에서도 바로 응용해 볼 법한 전략입니다.

단점: 역시나 만만치 않은 비용 8만 개의 데이터셋을 구축하고, 생성할 때마다 보상 모델을 돌려 강화학습을 진행하는 건 GPU 자원을 꽤나 잡아먹는 일입니다. 일반적인 개인 개발자가 로컬에서 돌리기엔 아직 문턱이 좀 높을 수도 있겠네요.

최종 판결: 실무 투입 대기 중 (Deployment Ready) 이미지 생성 서비스에서 “내 맘대로 배치가 안 돼요”라는 유저들의 불만을 해결하고 싶다면, 이 논문의 접근 방식이 정답입니다. 단순히 예쁜 그림을 만드는 시대를 지나, 말귀를 정확히 알아듣는 AI의 시대를 여는 중요한 이정표가 될 것 같네요.

  • Paper ID: 2602.24233
  • 한줄평: 이제 AI한테 ‘왼쪽’이 어디인지 손가락질하며 가르칠 필요가 없어졌습니다.

Original Paper Link

This post is licensed under CC BY 4.0 by the author.