RelViT: 시각적 관계 추론을 위한 개념 지도형 비전 트랜스포머

시각적 관계에 대한 추론은 인간이 시각 세계를 해석하는 데 핵심적인 역할을 한다. 현재의 딥러닝 알고리즘은 이 작업을 여전히 도전적으로 느끼며, 다음과 같은 세 가지 핵심 기술적 문제를 동시에 해결해야 하기 때문이다: 1) 객체 실체와 그 성질을 식별하는 것, 2) 두 실체 간의 의미적 관계를 추론하는 것, 3) 새로운 객체-관계 조합에 대한 일반화, 즉 체계적 일반화(системatic generalization) 수행하기. 본 연구에서는 시각적 추론을 위한 기반 모델로 비전 트랜스포머(Vision Transformers, ViTs)를 사용하며, 객체 실체와 그 관계라는 개념을 보다 효과적으로 활용하여 ViTs의 추론 능력을 향상시킨다. 구체적으로, 훈련 시 개념 키(concept keys)를 활용해 유연한 이미지 특징 검색을 가능하게 하는 새로운 개념-특징 사전(concept-feature dictionary)을 도입한다. 이 사전을 통해 두 가지 새로운 개념 지도 보조 과제를 제안한다: 1) 관계 추론을 촉진하는 전역(global) 과제, 2) 의미론적 객체 중심 대응 학습을 촉진하는 국소(local) 과제. 시각적 추론 모델의 체계적 일반화 능력을 평가하기 위해, 기존의 HICO 및 GQA 벤치마크에 대해 체계적인 분할(sytematic splits)을 도입한다. 그 결과, 개념 지도 비전 트랜스포머(Concept-guided Vision Transformer, 약칭 RelViT)는 기존 분할 기준에서 HICO와 GQA에서 각각 16%, 13% 우수한 성능을 기록했으며, 체계적 분할에서는 각각 43%, 18%의 성능 향상을 달성하였다. 또한, 아블레이션 분석을 통해 본 모델이 다양한 ViT 아키텍처와 호환되며 하이퍼파라미터에 대해 뛰어난 강건성(robustness)을 보임을 확인하였다.