15일 전
OPT: 크로스모달 이해 및 생성을 위한 옴니퍼셉션 사전학습기
Jing Liu, Xinxin Zhu, Fei Liu, Longteng Guo, Zijia Zhao, Mingzhen Sun, Weining Wang, Hanqing Lu, Shiyu Zhou, Jiajun Zhang, Jinqiao Wang

초록
본 논문에서는 시각, 텍스트, 음성 자원을 공동으로 모델링함으로써 다중모달 이해 및 생성을 위한 옴니퍼셉션 사전학습 모델(Omni-perception Pre-Trainer, OPT)을 제안한다. OPT는 인코더-디코더 아키텍처로 구성되며, 각 모달에 대한 토큰 기반 임베딩을 생성하기 위한 세 개의 단일 모달 인코더, 세 가지 모달 간의 상관관계를 인코딩하는 다중모달 인코더, 그리고 각각 텍스트와 이미지를 생성하는 두 개의 다중모달 디코더로 구성된다. OPT의 사전학습을 위해, 토큰 수준, 모달 수준, 샘플 수준의 세 가지 서로 다른 데이터 세부 수준에서 다중모달 자원을 모델링할 수 있도록 다중 작업 사전학습 방식을 설계하였다. 이를 통해 OPT는 다양한 모달 간의 정렬과 번역 능력을 학습하게 된다. 사전학습은 Open Images 데이터셋에서 확보한 방대한 양의 이미지-텍스트-음성 트리플릿을 기반으로 수행되었다. 실험 결과, OPT는 강력한 이미지-텍스트-음성 다중모달 표현을 학습할 수 있으며, 다양한 다중모달 이해 및 생성 작업에서 유망한 성능을 달성함을 확인할 수 있었다.