18일 전
이미지-텍스트-그래프 공간에서의 거친부터 세밀한 대비 학습을 통한 비전-언어 구성성 향상
Harman Singh, Pengchuan Zhang, Qifan Wang, Mengjiao Wang, Wenhan Xiong, Jingfei Du, Yu Chen

초록
대조적 학습을 통해 구축된 시각-언어 모델은 시각 및 언어 표현 학습 분야에서 놀라운 진전을 이뤄내며, 다양한 후속 다중모달 작업에 대해 최신 기술 수준의 성능을 달성하고 있다. 그러나 최근 연구들은 이러한 모델이 개체, 속성, 관계에 대한 조합적 추론을 수행하는 데 심각한 한계를 가지고 있음을 지적하고 있다. 장면 그래프(Scenario Graph)는 이미지를 조합적으로 이해하는 효과적인 방법으로 부상하고 있다. 장면 그래프는 이미지 내 개체, 그 개체의 속성, 그리고 다른 개체들과의 관계를 그래프 구조로 표현한 의미론적 표현 방식이다. 본 연구에서는 텍스트에서 파싱된 장면 그래프를 이미지 장면 그래프의 대표적 대체물로 간주하고, 다양한 복잡도를 가진 문장을 동일한 이미지와 일치시키기 위한 '거시적에서 미시적'으로 진행되는 대조적 학습 목표를 제안한다. 이를 위해 이미지와 텍스트 간의 그래프 분해 및 증강 프레임워크를 도입한다. 또한, 속성 결합 및 관계 이해를 향상시키기 위해 장면 그래프 공간 내에서 새로운 부정 샘플링 기법을 제안한다. 광범위한 실험을 통해 제안한 방법이 다수의 최근 제안된 벤치마크에서 속성 결합, 관계 이해, 체계적 일반화, 생산성 측면에서 상당한 성능 향상을 보였음을 입증하였다(예: 체계적 일반화에서 강력한 기준 모델 대비 최대 18% 향상, 관계 이해에서 16.5% 향상). 또한, 다양한 일반적인 다중모달 작업에서 CLIP와 유사하거나 더 우수한 성능을 달성하였다.