2달 전

OFA: 간단한 시퀀스-투-시퀀스 학습 프레임워크를 통한 아키텍처, 작업 및 모달리티의 통합

Wang, Peng ; Yang, An ; Men, Rui ; Lin, Junyang ; Bai, Shuai ; Li, Zhikang ; Ma, Jianxin ; Zhou, Chang ; Zhou, Jingren ; Yang, Hongxia
OFA: 간단한 시퀀스-투-시퀀스 학습 프레임워크를 통한 아키텍처, 작업 및 모달리티의 통합
초록

본 연구에서는 복잡한 작업/모달리티 특화 커스터마이징의 제약을 깨기 위해 통합된 다중 모달 사전 학습 패러다임을 추구합니다. 우리는 작업과 모달리티에 독립적인(Task-Agnostic and Modality-Agnostic) 프레임워크인 OFA를 제안하며, 이는 작업 포괄성을 지원합니다. OFA는 이미지 생성, 시각적 정렬(visual grounding), 이미지 캡셔닝, 이미지 분류, 언어 모델링 등을 포함하는 다양한 크로스-모달 및 유니-모달 작업들을 간단한 시퀀스-투-시퀀스 학습 프레임워크에서 통합합니다. OFA는 사전 학습 및 미세 조정(finetuning) 단계에서 모두 지시 기반 학습(instruction-based learning)을 따르며, 하류 작업(downstream tasks)을 위한 추가적인 작업 특화 레이어가 필요하지 않습니다. 최근의 최신 비전 & 언어 모델들이 극도로 큰 크로스-모달 데이터셋에 의존하는 것과 달리, OFA는 공개적으로 이용 가능한 20M 개의 이미지-텍스트 쌍들만으로 사전 학습됩니다. 그 간단함과 상대적으로 소규모 훈련 데이터에도 불구하고, OFA는 일련의 크로스-모달 작업에서 새로운 최고 수준(SOTA) 성능을 달성하면서 유니-모달 작업에서도 매우 경쟁력 있는 성능을 보입니다. 우리의 추가 분석은 OFA가 또한 미처 본 적 없는 작업들과 도메인들로 효과적으로 전이될 수 있음을 나타냅니다. 우리의 코드와 모델은 https://github.com/OFA-Sys/OFA 에서 공개적으로 이용 가능합니다.

OFA: 간단한 시퀀스-투-시퀀스 학습 프레임워크를 통한 아키텍처, 작업 및 모달리티의 통합 | 최신 연구 논문 | HyperAI초신경