2달 전

대체 그래디언트 하강법과 전문가 혼합 모델을 활용한 통합 다중모드 인식

Hassan Akbari; Dan Kondratyuk; Yin Cui; Rachel Hornung; Huisheng Wang; Hartwig Adam
대체 그래디언트 하강법과 전문가 혼합 모델을 활용한 통합 다중모드 인식
초록

우리는 통합 다중모달 인식(Integrated Multimodal Perception, IMP)을 제시합니다. 이는 간단하면서도 확장성이 뛰어난 다중모달 및 다중태스크 학습 및 모델링 접근 방식입니다. IMP는 이미지, 비디오, 텍스트, 오디오 등 다양한 다중모달 입력을 최소한의 모달 특화 구성 요소를 사용하여 단일 트랜스포머 인코더에 통합합니다. IMP는 효율적인 모델 및 태스크 확장을 위해 교대 그래디언트 하강(Alternating Gradient Descent, AGD)과 전문가 혼합(Mixture-of-Experts, MoE)을 결합한 새로운 설계를 활용합니다. 우리는 광범위한 실증 연구를 수행하고 다음과 같은 주요 통찰력을 밝혔습니다: 1) 다양한 모달, 손실 함수, 태스크에서 입력 해상도를 다르게 하면서 교대로 그래디언트 하강 업데이트를 수행하면 모델이 효율적으로 개선됩니다. 2) 단일 모달 무관 인코더에서 MoE를 사용하여 희소화하면 성능이 크게 향상되며, 모달 특화 인코더나 추가 융합 계층을 사용하는 밀집형 모델보다 우수하며, 모달 간의 충돌을 크게 완화시킵니다. IMP는 비디오 분류, 이미지 분류, 이미지-텍스트 검색, 비디오-텍스트 검색 등 다양한 후속 태스크에서 경쟁력 있는 성능을 보여줍니다. 특히, 우리는 비디오 태스크에 초점을 맞춘 희소 IMP-MoE-L 변형을 학습하여 제로샷 비디오 분류에서 새로운 최고 수준의 성능을 달성했습니다: Kinetics-400에서는 77.0%, Kinetics-600에서는 76.8%, Kinetics-700에서는 68.3%로 기존 최고 수준의 성능보다 각각 +5%, +6.7%, +5.8% 개선되었으며, 총 학습 컴퓨테이션 비용은 그들의 15%만 사용되었습니다.

대체 그래디언트 하강법과 전문가 혼합 모델을 활용한 통합 다중모드 인식 | 최신 연구 논문 | HyperAI초신경