2달 전

PEVL: 시각-언어 모델을 위한 위치 강화된 사전 학습 및 프롬프트 조정

Yuan Yao; Qianyu Chen; Ao Zhang; Wei Ji; Zhiyuan Liu; Tat-Seng Chua; Maosong Sun
PEVL: 시각-언어 모델을 위한 위치 강화된 사전 학습 및 프롬프트 조정
초록

비전-언어 사전학습(Vision-language pre-training, VLP)은 다양한 크로스모달 작업에서 뛰어난 성능을 보여주고 있으며, 객체 검출기의 의존성을 배제한 VLP 모델들이 계산 효율성과 경쟁력 있는 성능 덕분에 주류가 되고 있습니다. 그러나 객체 검출기의 제거는 위치에 민감한 비전-언어(Vision-Language, VL) 작업, 예를 들어 참조 표현 이해와 시각적 상식 추론 등에서 필수적인 명시적 객체 모델링 능력을 박탈합니다. 이 문제를 해결하기 위해 우리는 명시적 객체 위치 모델링을 통해 VLP 모델의 사전학습과 프롬프트 조정을 강화하는 PEVL을 소개합니다. 구체적으로, PEVL은 이산화된 객체 위치와 언어를 통합된 언어 모델링 프레임워크 내에서 재구성하여 사전학습 중 명시적인 VL 정렬을 용이하게 하며, 다양한 다운스트림 작업에 대한 유연한 프롬프트 조정도 가능하게 합니다. 우리는 PEVL이 객체 검출기를 사용하지 않는 VLP 모델들이 참조 표현 이해와 문구 지면(phrase grounding) 등의 위치에 민감한 작업에서 최신 수준의 성능을 발휘할 수 있음을 보여주며, 또한 지면된 입력으로부터 위치에 불민감한 작업의 성능도 향상시킬 수 있음을 입증하였습니다. 본 논문의 데이터와 코드는 공개적으로 이용 가능하며, https://github.com/thunlp/PEVL에서 접근할 수 있습니다.

PEVL: 시각-언어 모델을 위한 위치 강화된 사전 학습 및 프롬프트 조정 | 최신 연구 논문 | HyperAI초신경