Bongard-OpenWorld: 실제 세계의 자유 형식 시각 개념에 대한 희소 샘플 추론

우리는 기계 시각 분야에서 실제 세계의 소수 샘플 추론 능력을 평가하기 위한 새로운 벤치마크인 Bongard-OpenWorld를 소개한다. 이 벤치마크는 고전적인 Bongard 문제(BPs)에서 영감을 받았다. 즉, 양성(positive)과 음성(negative) 이미지 두 집합이 주어졌을 때, 모델은 시각적 개념을 유추함으로써 쿼리 이미지가 어느 집합에 속하는지를 판단해야 한다. 이 과정에서 시각적 개념은 오직 양성 집합의 이미지들로만 구성된 독점적인 표현으로 나타난다. 본 벤치마크는 원래 Bongard 문제의 소수 샘플 개념 유추 특성을 계승하면서, 두 가지 새로운 도전 과제를 추가하였다. 첫째, 오픈 월드 자유 형식의 개념(Open-world free-form concepts): Bongard-OpenWorld에서의 시각적 개념은 개방형 어휘에서 추출된 용어들의 고유한 조합으로, 객체 카테고리에서부터 추상적인 시각적 특성, 그리고 보편적인 사실 지식에 이르기까지 다양한 범위를 포함한다. 둘째, 실제 세계 이미지(real-world images): 기존의 많은 대안들에서 사용되는 합성 도형이 아닌, 실제 환경에서 촬영된 이미지를 사용한다. 우리의 탐색 결과, Bongard-OpenWorld는 현재의 소수 샘플 추론 알고리즘에 이미 상당한 도전을 제기하고 있다. 이를 바탕으로, 최근 등장한 대규모 언어 모델(LLMs)과 시각-언어 모델(VLMs)이 이 작업을 얼마나 해결할 수 있는지에 대해 탐구하였으며, VLM을 직접 탐색하는 방식과, VLM과 LLM을 상호작용적 추론 체계에서 결합하는 방식을 실험하였다. 더 나아가, 인간의 문제 해결 과정을 모방하기 위해 LLM과 VLM을 논리적 추론과 융합하는 신경-기호 추론(neuro-symbolic reasoning) 접근법을 제안하기도 하였다. 그러나 이러한 모든 접근법들에도 불구하고, 인간과 기계 간의 성능 격차는 여전히 존재하며, 최고 성능을 기록한 모델의 정확도는 64%에 그치는 반면, 인간 참가자들은 쉽게 91%의 정확도를 달성한다. 우리는 Bongard-OpenWorld가 현재의 시각 지능의 한계를 더 깊이 이해하는 데 기여하고, 향후 더 강력한 소수 샘플 시각 추론 능력을 갖춘 시각 에이전트 연구를 촉진하는 데 도움이 되기를 기대한다.