
초록
학습 기반 방법에 대한 대부분의 연구는 특정 작업을 위한 네트워크 설계와 훈련에 초점을 맞추어 진행되어 왔습니다. 그러나 다양한 모달 간의 많은 학습 기반 작업은 공통점이 있으며, 통합된 프레임워크를 통해 해결할 수 있는 잠재적 가능성이 있습니다. 우리는 이러한 방향으로 다중 모달에서 여러 작업을 수행할 수 있는 통합 아키텍처를 학습하는 접근법을 제시합니다. 제안된 네트워크는 작업별 인코더, 중간에 공통 트렁크, 그리고 작업별 예측 헤드로 구성됩니다. 먼저 자기 감독 마스킹 훈련(self-supervised masked training)을 통해 사전 훈련(pre-train)하고, 그 다음에는 다른 작업들을 순차적으로 훈련합니다. 우리는 시각, 오디오, 텍스트 및 3D 등 모든 주요 모달에서 네트워크를 훈련시키고, 22개의 다양하고 어려운 공개 벤치마크에서 결과를 보고합니다. 실험적으로 다중 모달 간의 통합 네트워크를 사용하여 의미 있는 정보 공유가 이루어짐을 입증하였으며, 이는 대부분의 벤치마크에서 최신 성능(state-of-the-art results)을 달성할 수 있게 해줍니다. 또한 우리는 훈련된 네트워크가 교차 모달 작업(cross-modal tasks) 및 미확인 데이터셋과 작업(unseen datasets and tasks)에서도 일반화되는 것을 보여줍니다.