
초록
본 논문은 객체 쌍 간의 시각적 관계를 모델링하기 위한 새로운 접근법을 소개합니다. 우리는 관계를 (주어, 동사 또는 전치사, 목적어) 형태의 삼중항으로 정의하며, 여기서 동사 또는 전치사는 두 개의 객체(주어, 목적어)를 연결하는 역할을 합니다(예: 'under' (아래에), 'in front of' (앞에), 'hold' (잡다), 'ride' (타다)). 이러한 관계 학습은 객체들이 발생하는 관계에 따라 서로 다른 공간 구성과 외관을 가지기 때문에 어려움이 따릅니다. 또한 모든 가능한 삼중항에 대한 주석, 특히 박스 수준의 주석을 얻는 것이 어렵다는 점도 주요한 도전 과제입니다. 이는 학습과 평가 모두를 어렵게 만듭니다. 본 논문의 기여점은 세 가지입니다. 첫째, 객체 쌍의 외관과 공간 구성 정보를 인코딩하는 강력하면서도 유연한 시각적 특징을 설계하였습니다. 둘째, 이미지 수준 라벨만으로도 관계를 학습할 수 있는 약간 감독된 차별화 클러스터링 모델을 제안하였습니다. 셋째, 새로운 도전적인 데이터셋인 비일상적인 관계 데이터셋(UnRel)과 그에 대한 완전한 주석을 소개하여 시각적 관계 검색의 정확한 평가가 가능하도록 하였습니다. 실험적으로 본 모델이 시각적 관계 데이터셋에서 최신 연구 결과를 달성하며, 이전에 보지 못한 관계(zero-shot learning)에서 성능이 크게 향상됨을 확인하였고, 새로 도입된 UnRel 데이터셋에서도 이를 재확인하였습니다.