2달 전

다양한 모드 간 상호 정보 최대화를 통한 통합 사전 학습 방향성 연구

Su, Weijie ; Zhu, Xizhou ; Tao, Chenxin ; Lu, Lewei ; Li, Bin ; Huang, Gao ; Qiao, Yu ; Wang, Xiaogang ; Zhou, Jie ; Dai, Jifeng
다양한 모드 간 상호 정보 최대화를 통한 통합 사전 학습 방향성 연구
초록

대규모 모델의 잠재력을 효과적으로 활용하기 위해, 다양한 출처에서 제공되는 막대한 데이터를 기반으로 하는 여러 사전 학습 전략이 제안되었습니다. 이는 지도된 사전 학습, 약간 지도된 사전 학습, 그리고 자기지도된 사전 학습을 포함합니다. 다중 사전 학습 전략과 다양한 모달리티/출처의 데이터를 결합하는 것이 대규모 모델의 훈련을 크게 향상시킬 수 있다는 점이 증명되었습니다. 그러나 현재 연구들은 복잡한 파이프라인이 사전 학습의 불확실성과 불안정성을 증가시킬 수 있는 다단계 사전 학습 시스템을 채택하고 있습니다. 따라서 이러한 전략들을 단일 단계로 통합할 필요성이 제기되고 있습니다.본 논문에서는 먼저 일반적인 다중 모달 상호 정보 공식을 제안하여 이를 통합 최적화 목표로 삼고, 모든 기존 접근 방식이 본 프레임워크의 특수 경우임을 입증합니다. 이와 같은 통합적 관점 하에, 우리는 모든 것을 아우르는 단일 단계 사전 학습 방법론인 '다중 모달 상호 정보 최대화 사전 학습' (Maximizing Multi-modal Mutual Information Pre-training, M3I Pre-training)을 제안합니다. 우리의 접근 방식은 ImageNet 분류, COCO 객체 검출, LVIS 장미 꼬리 객체 검출(장미 꼬리 분포를 가진 객체 검출), ADE20k 의미 분할 등 다양한 비전 벤치마크에서 이전의 사전 학습 방법론보다 더 우수한 성능을 보입니다. 특히, 우리는 10억 개 이상의 매개변수를 가진 이미지 백본을 성공적으로 사전 학습하였으며, 다양한 벤치마크에서 최고 수준의 성능을 달성하였습니다. 코드는 https://github.com/OpenGVLab/M3I-Pretraining 에서 제공될 예정입니다.

다양한 모드 간 상호 정보 최대화를 통한 통합 사전 학습 방향성 연구 | 최신 연구 논문 | HyperAI초신경