Bongard-HOI: 인간-객체 상호작용을 위한 소수 샘플 시각적 추론 평가基准

현재의 시각 패턴 인식 모델과 인간 수준의 시각 인지 사이에는 특히 소수 샘플 학습(few-shot learning) 및 새로운 개념의 조합적 추론(compositional reasoning) 측면에서 여전히 큰 격차가 존재한다. 우리는 자연 이미지에서 인간-객체 상호작용(Human-Object Interactions, HOIs)의 조합적 학습에 초점을 맞춘 새로운 시각 추론 벤치마크인 Bongard-HOI를 제안한다. 이 벤치마크는 고전적인 Bongard 문제(BPs)에서 얻고자 하는 두 가지 바람직한 특성—1) 소수 샘플 개념 학습, 2) 맥락에 따라 달라지는 추론—에 영감을 받았다. 우리는 난이도 높은 음성 샘플(hard negatives)을 정교하게 구성하여, 긍정 이미지와 부정 이미지 간에 오직 동작 레이블(action labels)만이 다를 수 있도록 하였으며, 이로 인해 단순한 객체 카테고리 인식만으로는 본 벤치마크를 완수하기에 부족함을 보장하였다. 또한 시각 학습 모델의 일반화 능력을 체계적으로 연구할 수 있도록 여러 가지 테스트 세트를 설계하였으며, 소수 샘플 인스턴스의 학습 세트와 테스트 세트 간의 HOI 개념 겹침 정도를 부분적 겹침부터 완전히 겹치지 않는 경우까지 다양하게 조절하였다. Bongard-HOI는 현재의 시각 인식 모델에게 심각한 도전 과제를 제시한다. 최신 기술 수준의 HOI 탐지 모델은 소수 샘플 이진 예측에서 단 62%의 정확도를 기록하는 반면, MTurk에서의 아마추어 인간 테스터들은 91%의 정확도를 달성한다. Bongard-HOI 벤치마크를 통해 시각 추론 분야, 특히 종합적 인지-추론 시스템과 더 나은 표현 학습에 대한 연구 발전을 더욱 촉진하고자 한다.