2달 전

OmniVec: 교차 모달 공유를 통한 강건한 표현 학습

Srivastava, Siddharth ; Sharma, Gaurav
OmniVec: 교차 모달 공유를 통한 강건한 표현 학습
초록

학습 기반 방법에 대한 대부분의 연구는 특정 작업을 위한 네트워크 설계와 훈련에 초점을 맞추어 진행되어 왔습니다. 그러나 다양한 모달 간의 많은 학습 기반 작업은 공통점이 있으며, 통합된 프레임워크를 통해 해결할 수 있는 잠재적 가능성이 있습니다. 우리는 이러한 방향으로 다중 모달에서 여러 작업을 수행할 수 있는 통합 아키텍처를 학습하는 접근법을 제시합니다. 제안된 네트워크는 작업별 인코더, 중간에 공통 트렁크, 그리고 작업별 예측 헤드로 구성됩니다. 먼저 자기 감독 마스킹 훈련(self-supervised masked training)을 통해 사전 훈련(pre-train)하고, 그 다음에는 다른 작업들을 순차적으로 훈련합니다. 우리는 시각, 오디오, 텍스트 및 3D 등 모든 주요 모달에서 네트워크를 훈련시키고, 22개의 다양하고 어려운 공개 벤치마크에서 결과를 보고합니다. 실험적으로 다중 모달 간의 통합 네트워크를 사용하여 의미 있는 정보 공유가 이루어짐을 입증하였으며, 이는 대부분의 벤치마크에서 최신 성능(state-of-the-art results)을 달성할 수 있게 해줍니다. 또한 우리는 훈련된 네트워크가 교차 모달 작업(cross-modal tasks) 및 미확인 데이터셋과 작업(unseen datasets and tasks)에서도 일반화되는 것을 보여줍니다.

OmniVec: 교차 모달 공유를 통한 강건한 표현 학습 | 최신 연구 논문 | HyperAI초신경