11일 전
사진 그래프를 이용한 사전 훈련된 비전 및 언어 모델에 구조적 표현 통합
Roei Herzig, Alon Mendelson, Leonid Karlinsky, Assaf Arbelle, Rogerio Feris, Trevor Darrell, Amir Globerson

초록
시각 및 언어 모델(VLM)은 다양한 작업에서 놀라운 제로샷(ZS) 성능을 보여주고 있다. 그러나 최근 연구들은 최고 수준의 VLM조차도 객체 속성, 관계, 동작 상태와 같은 조합적 장면 이해의 측면을 충분히 포착하지 못하고 있음을 밝혀냈다. 반면, 이러한 모델의 성능 향상을 위해 필요한 구조적 주석(예: 장면 그래프(SG))를 확보하는 것은 시간과 비용이 많이 들며, 대규모로 활용하기에는 현실적이지 않다. 본 연구에서는 소규모 SG 데이터셋이 사전 훈련된 VLM의 구조적 이해 능력을 향상시키는 데 충분한 정보를 제공할 수 있는지 질문한다. 우리는 SG에서 학습함으로써 시각적 및 텍스트적 표현에 구조적 정보를 통합하는 구성 요소를 도입함으로써 VLM의 성능을 향상시킬 수 있음을 보여준다. 시각 측면에서는 이미지 트랜스포머에 SG 정보를 예측하도록 훈련된 특수한 ‘SG 구성 요소’를 도입하고, 텍스트 측면에서는 장면의 다양한 조합적 특징을 강조하는 세부적인 캡션을 생성하기 위해 SG를 활용한다. 제안하는 방법은 제로샷 능력의 약간의 저하를 감수하더라도, 여러 주요 VL 데이터셋에서 다양한 인기 있는 VLM의 성능을 향상시킬 수 있음을 입증한다.