Post

[2026-02-26] [AgentVista] 제미나이도 정답률 27%? 멀티모달 AI의 거품을 박살낼 역대급 하드코어 벤치마크

[2026-02-26] [AgentVista] 제미나이도 정답률 27%? 멀티모달 AI의 거품을 박살낼 역대급 하드코어 벤치마크

Metadata

  • Link: https://arxiv.org/abs/2602.23166
  • Date: 2026-02
  • Authors: AgentVista Research Team

😡 우리는 그동안 AI의 ‘데모 영상’에 속아왔습니다

솔직히 까놓고 말해봅시다. 요즘 트위터나 링크드인 들어가 보면, 멀티모달 AI가 세상을 다 집어삼킬 것처럼 호들갑 떠는 글이 넘쳐나죠? 최신 비전 모델들이 사진 한 장 보고 코드를 짜주거나, 냉장고 사진을 보고 레시피를 뚝딱 만들어내는 데모 영상은 확실히 눈길을 사로잡긴 해요.

하지만 우리가 현업에서 실제로 쓸모 있는 ‘에이전트(Agent)’를 구축하려고 하면 어떤 일이 벌어질까요? 상황이 조금만 복잡해져도 AI는 순식간에 개멍청해집니다. 복잡한 기기 회로도와 실제 엉망진창인 배선 사진을 던져주고 문제를 찾으라고 하면 헛소리를 늘어놓고, 복잡한 지하철 노선도를 주고 특정 조건에 맞춰 최적 경로를 짜라고 하면 환각(Hallucination)에 빠져 존재하지도 않는 역을 넘나들기 시작하죠.

왜 그럴까요? 지금까지 AI를 평가하던 벤치마크들이 너무 ‘온실 속 화초’ 같았기 때문입니다. 기껏해야 다지선다형 문제이거나, 사진 한 장 보고 정해진 답을 맞히는 ‘단발성(Single-turn)’ 테스트에 불과했거든요. 현실의 개발자나 엔지니어는 절대 그렇게 일하지 않는데 말이죠. 여기서 오늘 소개할 AgentVista가 등장합니다. 이 녀석은 기존 AI들의 거품을 사정없이 걷어내버리는, 그야말로 ‘빌런’이자 ‘구원자’ 같은 벤치마크입니다.

TL;DR “니들 AI가 똑똑한 줄 알지? 현실의 복잡한 시각적/다단계 문제를 던져주니 제미나이 최신 모델도 정답률 27%밖에 안 나오는 거품 붕괴 벤치마크.”


🤔 “사진 한 장 보고 대답하기”는 이제 그만. 이게 진짜 현실이다

이 벤치마크가 기존의 장난감 같은 테스트들과 뭐가 다른지 깊게 파헤쳐 볼게요. AgentVista의 핵심은 바로 ‘끝없는 도구 사용(Long-horizon tool use)’과 ‘현실적인 시각 데이터’의 결합입니다.

이걸 이해하려면 현실의 주니어 개발자가 서버 장애를 고치는 과정을 떠올려보면 쉬워요. 주니어 개발자는 모니터의 빨간 에러 로그(이미지) 하나만 보고 마법처럼 정답을 알아내지 않습니다. 에러 창을 보고 $\rightarrow$ 구글에 검색하고 $\rightarrow$ 스택오버플로우 문서를 읽고 $\rightarrow$ 시스템 구성도(Schematic)를 열어서 대조해 보고 $\rightarrow$ 파이썬 스크립트를 짜서 로그를 파싱해본 뒤에야 겨우 문제를 해결하죠. AgentVista는 AI에게 정확히 이 과정을 요구합니다.

이 논문이 제안하는 아키텍처와 원리를 구체적으로 뜯어보면 아래와 같은 무시무시한 특징들이 있습니다.

🔹 25개 하위 도메인과 7가지 카테고리의 현실 데이터: 인터넷에서 긁어온 깔끔한 학술용 차트가 아닙니다. 노이즈가 잔뜩 낀 배선 사진, 더럽게 복잡한 대중교통 노선도, 디테일이 숨어있는 웹 UI 와이어프레임 등 현실에서 엔지니어들이 마주하는 진짜 빡센 시각적 데이터(Detail-rich visual scenarios)를 던져줍니다. 🔹 하이브리드 툴 사용 (Hybrid Tool Use): 에이전트는 챗박스 안에 갇혀있지 않아요. 웹 검색(Web search), 이미지 검색, 페이지 내비게이션은 기본이고, 가장 미친 부분은 ‘코드 기반의 이미지 처리(Code-based operations for image processing)’를 직접 해야 한다는 겁니다. 눈으로 보기 힘든 회로도의 특정 부분을 확인하기 위해, 에이전트가 직접 OpenCV 파이썬 코드를 짜서 이미지를 크롭하고 대비를 높인 다음 다시 분석하는 식이죠. 🔹 25턴 이상의 장기 추론 (Long-horizon): 단순한 1~2번의 핑퐁으로 끝나는 문제가 아닙니다. 가장 어려운 인스턴스(Hard instances)의 경우, 에이전트가 도구를 호출하고 결과를 받고 다시 계획을 수정하는 과정을 무려 25번 이상 반복해야 합니다. 이 과정에서 컨텍스트를 잃어버리거나 한 번이라도 도구 사용에 삑사리가 나면 영원히 오답의 늪에 빠지게 됩니다.

이러니까 기존 벤치마크에서 90점씩 받던 AI들이 여기서 영혼까지 털리는 겁니다. 컨텍스트 윈도우가 아무리 커도, 25번의 복잡한 논리적 단계를 오차 없이 이어가는 건 현재 LLM의 아키텍처로는 극한의 도전이거든요.


🔥 기존 장난감 벤치마크 vs AgentVista의 뼈 때리는 비교

그렇다면 도대체 AgentVista가 기존의 SOTA(State-of-the-Art) 모델들을 얼마나 비참하게 만들었을까요? 기존에 유명했던 멀티모달 벤치마크들과 지표를 비교해보면 그 차이가 극명하게 드러납니다.

비교 항목기존 SOTA 벤치마크 (예: MMMU, MathVista)AgentVista (New!)
최대 툴 호출 횟수 (Turns)1 ~ 3회 (거의 단발성)25회 이상 (극한의 다단계 추론)
시각 데이터의 현실성교과서, 학술 논문에 나오는 깔끔한 차트/그래프현장의 노이즈 낀 배선 사진, 복잡한 실물 노선도
제공되는 도구의 다양성단순 계산기, 파이썬 REPL 정도웹/이미지 검색, 브라우저 조작, 이미지 처리 코드 등 풀세트
최신 AI 모델 정답률대략 60% ~ 80% (거의 정복됨)Gemini-3-Pro 기준 27.3% (처참한 붕괴)

이 표를 보면 알 수 있듯, AgentVista가 평가하는 지표는 철저하게 Performance(정답률)Accuracy(연속 추론의 정확도)에 초점이 맞춰져 있습니다.

1. 27.3%라는 충격적인 정답률 지표: 논문에서 평가한 현존 최고의 모델 툴 세팅(Gemini-3-Pro with tools)조차 전체 정확도가 27.3%에 불과했습니다. 왜냐고요? ‘연쇄 오류(Cascading Error)’ 때문입니다. 20단계의 추론 과정 중 5단계에서 이미지 검색 키워드를 잘못 잡거나 코드를 잘못 짜면, 나머지 15단계는 완전히 쓰레기 데이터(Garbage in, garbage out)를 바탕으로 헛수고를 하게 되니까요.

2. 토큰 비용(Cost)과 속도(Speed)의 현실적 장벽: 25턴씩 도구를 호출한다는 건, API 통신이 25번 일어난다는 뜻입니다. 현실에서 이런 에이전트를 프로덕션에 배포한다고 상상해 보세요. 응답 시간(Latency)은 수 분이 걸릴 거고, API 비용은 폭발할 겁니다. 기존 벤치마크들은 이 ‘비용 대비 효율’이라는 현실적인 문제를 짚어내지 못했습니다.

AgentVista Workflow Overview 왜 이 이미지가 중요한가: AgentVista가 요구하는 25단계 이상의 끔찍한(?) 툴 체이닝 구조를 한눈에 보여주며, 현재 AI가 왜 여기서 무너지는지 직관적으로 설명해 주기 때문입니다.


🚀 실전에서는 어떻게 쓰일까? (이게 돼야 진짜 에이전트지)

이 벤치마크를 무사히 통과하는 AI가 등장한다면, 우리의 개발 환경과 프로덕트는 어떻게 변할까요? 이 기술이 실제로 시장에 줄 수 있는 임팩트를 두 가지 구체적인 시나리오로 정리해봤습니다.

시나리오 1: 산업 현장의 완전 자율 트러블슈팅 (DevOps & Hardware) 데이터센터의 서버 랙에 문제가 생겼다고 가정해봅시다. 에이전트가 로봇이나 CCTV를 통해 얽히고설킨 배선 사진을 찍습니다. 기존 AI는 “빨간 선이 빠져있네요” 하고 끝났겠죠. 하지만 AgentVista 수준을 마스터한 에이전트는 다릅니다. 사진을 분석한 뒤 $\rightarrow$ 서버 모델명을 웹에서 검색하고 $\rightarrow$ 공식 제조사의 PDF 매뉴얼과 회로도를 찾아 다운로드하고 $\rightarrow$ Python 코드로 회로도의 특정 핀 배열 이미지를 크롭/확대해서 실제 사진과 비교한 뒤 $\rightarrow$ 정확히 어떤 포트를 어떻게 수정해야 하는지 결론을 내립니다. 엔지니어의 개입이 거의 0에 수렴하게 되는 거죠.

시나리오 2: 동적이고 복잡한 물류/여행 경로 최적화 단순히 구글 맵 API를 호출하는 수준이 아닙니다. 에이전트에게 “도쿄의 복잡한 지하철 노선도 이미지”를 던져주고, “현재 폭우로 인해 A 노선이 운행 중단된 상황”이라는 뉴스 기사를 스스로 검색하게 한 뒤, 실시간 운행 스케줄표(웹 페이지)를 뒤져서 사용자의 예산과 시간에 맞는 최적의 우회 경로를 짜내는 시나리오입니다. 시각 정보(노선도)와 텍스트 정보(스케줄, 제약조건)를 넘나들며 끝없이 검증해야 하는 진짜 ‘비서’의 역할을 수행할 수 있게 됩니다.


🧐 Editor’s Honest Review

자, 이제 냉정하게 이 연구를 평가해 볼 시간입니다. 제 개인적인 평가는 이렇습니다.

👍 Pros (이래서 흥분된다!)

  • 속이 다 시원한 ‘팩트 폭행’: 매일같이 쏟아지는 AI 스타트업들의 과장 광고(Hype)에 찬물을 끼얹는 아주 훌륭한 연구입니다. 현실 세계의 문제가 얼마나 복잡한지, 그리고 지금 AI가 얼마나 한계가 명확한지 제대로 보여줬습니다.
  • 코드 기반 이미지 처리(Code for image processing) 도입: 에이전트가 시각적 한계를 극복하기 위해 스스로 파이썬 코드를 짜서 이미지를 변환하고 분석하게 만든 점은 정말 실무 친화적이고 천재적인 접근입니다.

👎 Cons (이건 좀 아쉽다…)

  • 테스트 비용이 너무 비싸다: 벤치마크의 난이도가 너무 높아서, 25턴 이상의 툴 체이닝을 평가하려면 막대한 프롬프트 토큰과 API 호출 비용이 발생합니다. 가난한 연구소나 인디 개발자들은 이 벤치마크로 모델을 평가할 엄두도 못 낼 수 있습니다.
  • 아직은 답이 없는 모델 성능: 최고 모델이 27.3%라는 건, 사실상 현재 이 벤치마크를 유의미하게 활용해서 상용 프로덕트를 만들 수 있는 모델이 지구상에 존재하지 않는다는 뜻이기도 합니다.

🎯 최종 판정 (Verdict): “Hype Killer, Must-Watch Benchmark” 당장 프로덕션에 적용할 수 있는 (Deployment Ready) 기술이라기보단, 앞으로 멀티모달 에이전트가 나아가야 할 북극성을 제시하는 강력한 나침반입니다. 단발성 프롬프트 엔지니어링에 지쳤거나, 진정한 의미의 자율 에이전트(Autonomous Agent)를 고민하는 테크 리드라면 이 논문과 벤치마크의 방향성을 반드시 주시해야 합니다. 언젠가 이 벤치마크에서 90점을 넘는 AI가 나온다면, 그때야말로 진짜 우리 일자리를 걱정해야 할 테니까요.

Original Paper Link

This post is licensed under CC BY 4.0 by the author.