멀티모달 LLM은 보지만 인지하지는 못한다는 것을 밝힌 벤치마크

BLINK: Multimodal Large Language Models Can See but Not Perceive

Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A. Smith 외

인용 486인기 24.8

AI 분석

한줄 요약

Blink는 인간이 쉽게 풀지만 멀티모달 LLM이 어려워하는 14가지 시각적 지각 과제(상대적 깊이, 시각적 대응, 법의학 탐지, 다중 시점 추론 등)를 포함한 벤치마크로, GPT-4V와 Gemini가 각각 51.26%, 45.72%의 정확도를 기록해 인간(95.70%)과 큰 차이를 보인다.

풀어야 하는 문제

기존 멀티모달 LLM 벤치마크는 주로 객체 인식, 장면 이해 등 언어로 설명 가능한 고수준 추론에 초점을 맞추었다. 그러나 상대적 깊이 추정, 시각적 대응 찾기, 위조 탐지 등 '눈 깜짝할 사이'에 해결되는 기본적인 시지각 능력은 평가되지 않았다. 이러한 능력은 언어적 중재를 거부하기 때문에 멀티모달 LLM이 진정한 시각적 이해를 달성했는지 검증하는 데 필수적이다.

접근 방법

연구진은 14가지 고전 컴퓨터 비전 과제를 선정하여 3,807개의 객관식 문제로 변환했다. 각 문제는 단일 또는 다중 이미지와 시각적 프롬프트(예: 빨간 점으로 표시된 위치)를 포함하며, 모델이 이미지를 '보고' 정답을 선택하도록 설계되었다. 인간 평가자 100명이 동일한 문제를 풀어 기준 성능을 측정했고, GPT-4V, Gemini, Qwen-VL 등 최신 멀티모달 LLM을 평가했다.

결과·기여

인간은 평균 95.70%의 정확도를 보인 반면, 최고 성능 모델(GPT-4V)은 51.26%로 무작위 추측(38.09%)보다 13.17% 높은 데 그쳤다. 특히 상대적 깊이, 시각적 대응, 위조 탐지 등에서 모델 성능이 크게 낮았다. 반면, 전문 CV 모델(예: DINOv2, Depth Anything)은 동일 과제에서 훨씬 높은 성능을 보여, 멀티모달 LLM이 시각적 지각 능력을 갖추기 위해서는 CV 모델의 통합이나 새로운 학습 패러다임이 필요함을 시사한다. Blink는 공개 벤치마크로 제공되어 향후 연구를 촉진할 것이다.