17일 전

mPLUG: 교차 모달 스킵 연결을 통한 효과적이고 효율적인 시각-언어 학습

Chenliang Li, Haiyang Xu, Junfeng Tian, Wei Wang, Ming Yan, Bin Bi, Jiabo Ye, Hehong Chen, Guohai Xu, Zheng Cao, Ji Zhang, Songfang Huang, Fei Huang, Jingren Zhou, Luo Si
mPLUG: 교차 모달 스킵 연결을 통한 효과적이고 효율적인 시각-언어 학습
초록

대규모 사전 학습 기반 모델은 인공지능(AI) 시스템 구축을 위한 새로운 패러다임으로 부상하고 있으며, 다양한 하류 작업에 빠르게 적응할 수 있는 특징을 지닌다. 본 논문은 다중 모달 이해 및 생성을 위한 새로운 비전-언어 기반 모델인 mPLUG을 제안한다. 기존의 대부분의 사전 학습 모델은 다중 모달 정렬 과정에서 긴 시각 시퀀스로 인해 발생하는 계산 효율성 저하 및 정보 비대칭성 문제를 겪고 있다. 이러한 문제를 해결하기 위해 mPLUG은 새로운 다중 모달 스킵 연결을 도입한 효과적이고 효율적인 비전-언어 아키텍처를 제안한다. 이 아키텍처는 시각 쪽에서 시간이 오래 걸리는 전체 자기 주의(전체 자기주의, full self-attention)를 피하기 위해 특정 층을 건너뛰는 계층 간 단축 경로를 생성한다. mPLUG은 이미지-텍스트 쌍의 대규모 데이터셋을 기반으로 분류적 및 생성적 목적함수를 동시에 사용하여 엔드투엔드로 사전 학습된다. 다양한 비전-언어 하류 작업, 예를 들어 이미지 캡셔닝, 이미지-텍스트 검색, 시각적 기반 지시, 시각 질문 응답 등에서 최신 기술 수준(SOTA)의 성능을 달성한다. 또한 mPLUG은 여러 비디오-언어 작업에 직접 전이되었을 때 강력한 제로샷 전이 성능을 보여주며, 확장성과 유연성에서 뛰어난 잠재력을 입증한다.

mPLUG: 교차 모달 스킵 연결을 통한 효과적이고 효율적인 시각-언어 학습 | 최신 연구 논문 | HyperAI초신경