2달 전

Omni-SMoLA: 저랭크 전문가들의 부드러운 혼합을 통해 일반 다중모달 모델 향상시키기

Wu, Jialin ; Hu, Xia ; Wang, Yaqing ; Pang, Bo ; Soricut, Radu
Omni-SMoLA: 저랭크 전문가들의 부드러운 혼합을 통해 일반 다중모달 모델 향상시키기
초록

대형 다중 모드 모델(Large Multi-Modal Models, LMMs)은 다양한 작업에서 뛰어난 성능을 보여줍니다. 그러나 일반적인 LMMs는 대규모 작업 집합에 대해 조정될 때 성능 저하를 겪는 경우가 많습니다. 최근 연구에서는 전문가 혼합(Mixture of Experts, MoE) 아키텍처가 지시어 조정에 유용하다는 것을 제안하고 있지만, 매개변수 크기가 약 O(50-100B)인 LMMs의 경우 전문가 모델을 복제하고 저장하는 비용이 금지적으로 높아 사용할 수 있는 전문가의 수를 크게 제한합니다.우리는 이러한 문제를 해결하기 위해 소프트 MoE 접근 방식을 사용하여 많은 다중 모드 저랭크 전문가들을 (부드럽게) 혼합하면서 기존 MoE 모델과 비교해 새로운 매개변수를 크게 늘리지 않는 Omni-SMoLA 아키텍처를 제안합니다. 이 접근 방식의 핵심 직관은 큰 모델이 기초적인 구조를 제공하고, 서로 다른 경량 전문가들이 각각 단일 모드 또는 다중 모드로 특화된 지식을 잔여적으로 학습한다는 것입니다.범위 넓은 실험 결과는 SMoLA 접근 방식이 다양한 생성적 시각-언어 작업에서 일반적인 성능 향상에 도움을 준다는 것을 입증합니다. 이 방법은 종종 단일 특화된 LMM 베이스라인과 맞먹거나 그보다 우수한 새로운 최고 수준(SoTA)의 일반적인 성능을 달성하며, 또한 새로운 SoTA 특화 성능도 달성하였습니다.

Omni-SMoLA: 저랭크 전문가들의 부드러운 혼합을 통해 일반 다중모달 모델 향상시키기 | 최신 연구 논문 | HyperAI초신경