RLIPv2: 관계형 언어-이미지 사전학습의 빠른 스케일링

관계형 언어-이미지 사전학습(Relational Language-Image Pre-training, RLIP)은 시각적 표현을 관계형 텍스트와 정렬함으로써 컴퓨터 비전 작업에서 관계 추론 능력을 향상시키는 것을 목표로 한다. 그러나 RLIPv1 아키텍처의 느린 수렴 속도와 기존 장면 그래프 데이터의 제한적인 가용성으로 인해 RLIPv1의 확장은 어려운 과제였다. 본 논문에서는 대규모 가공된 레이블을 가진 장면 그래프 데이터를 활용한 관계형 사전학습의 확장이 가능하도록 빠르게 수렴하는 RLIPv2 모델을 제안한다. 빠른 확장 가능성을 구현하기 위해 RLIPv2는 비대칭 언어-이미지 융합(Asymmetric Language-Image Fusion, ALIF) 기법을 도입한다. ALIF는 언어 인코딩 계층을 희소화하여 조기이고 깊은 게이팅된 다모달 융합을 가능하게 한다. 이로 인해 RLIPv1과 비슷하거나 더 우수한 성능을 훨씬 짧은 시간 내에 달성할 수 있다. 대규모 장면 그래프 데이터를 확보하기 위해, 객체 탐지 데이터셋에 자유형 관계 레이블을 추가하기 위해 캡셔너(예: BLIP)와 설계된 관계 태거(Relation Tagger)를 도입한다. 관계 태거는 BLIP가 생성한 관계 텍스트를 영역 쌍에 할당함으로써 더 대규모의 관계형 사전학습을 가능하게 한다. 인간-객체 상호작용 탐지 및 장면 그래프 생성에 대한 광범위한 실험을 통해, RLIPv2는 완전 미세조정(fully-finetuning), 소량 학습(few-shot), 제로샷(zero-shot) 설정에서 세 가지 벤치마크에서 최신 기술 수준의 성능을 보였다. 특히, 가장 큰 규모의 RLIPv2는 미세조정 없이 HICO-DET에서 23.29mAP를 달성하였으며, 단 1%의 데이터로는 32.22mAP, 100% 데이터로는 45.09mAP의 성능을 기록하였다. 코드와 모델은 공개적으로 제공되며, https://github.com/JacobYuan7/RLIPv2 에서 확인할 수 있다.