11일 전

오스카: 비전-언어 작업을 위한 객체-의미 구조 일치 사전학습

Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, Jianfeng Gao
오스카: 비전-언어 작업을 위한 객체-의미 구조 일치 사전학습
초록

이미지-텍스트 쌍을 기반으로 한 다모달 표현을 학습하는 대규모 사전 훈련 방법은 비전-언어 작업에서 점점 인기를 끌고 있다. 기존의 방법들은 이미지 영역 특징과 텍스트 특징을 단순히 연결하여 모델의 입력으로 사용하고, 자기 주의(Self-attention)를 통해 이미지-텍스트의 의미적 일치를 강제적으로 학습하는 방식을 채택하고 있으나, 본 논문에서는 이미지에서 탐지된 객체 태그(Object tags)를 잠재적 기준점(Anchor points)으로 활용하여 의미 일치 학습을 크게 용이하게 하는 새로운 학습 방법인 Oscar(Object-Semantics Aligned Pre-training)을 제안한다. 이 방법의 동기는 이미지 내 주목할 만한 객체들은 정확하게 탐지 가능하며, 일반적으로 해당 이미지와 쌍을 이루는 텍스트에서도 언급된다는 관찰에서 비롯된다. 우리는 650만 개의 텍스트-이미지 쌍으로 구성된 공개 코퍼스를 기반으로 Oscar 모델을 사전 훈련한 후, 하류 작업에 대해 미세 조정(fine-tuning)을 수행하여 여섯 가지 대표적인 비전-언어 이해 및 생성 작업에서 새로운 최고 성능(SOTA: State-of-the-art)을 달성하였다.

오스카: 비전-언어 작업을 위한 객체-의미 구조 일치 사전학습 | 최신 연구 논문 | HyperAI초신경