HyperAI초신경

MoMa 건축

MoMa 프레임워크(전체 이름: Modality-Aware Experts의 혼합)는 Meta가 논문 "MoMa: 모달리티 인식 전문가의 혼합을 통한 효율적인 조기 융합 사전 교육" 혼합 모달리티, 초기 융합 언어 모델의 사전 학습을 위해 설계된 새로운 모달리티 인식 전문가 혼합(MoE) 아키텍처를 제안했습니다.

MoMa는 전문가 모듈을 모달리티별 그룹으로 나누어 임의의 이미지와 텍스트 시퀀스를 처리합니다. 이러한 그룹은 지정된 태그를 처리하는 데 특화되어 있으며, 각 그룹 내에서는 학습된 라우팅을 사용하여 의미적으로 정보를 제공하는 적응성을 유지합니다. 우리의 연구 결과는 이러한 모달리티별 매개변수 할당을 통해 사전 훈련 효율성이 크게 향상되었음을 보여줍니다. 1조의 레이블이 지정된 학습 예산에서 4명의 텍스트 전문가와 4명의 이미지 전문가가 포함된 MoMa 1.4B 모델은 사전 학습 손실로 측정한 계산에 상응하는 고밀도 베이스라인과 비교했을 때 전체적으로 3.7배, 텍스트 처리에서 2.6배, 이미지 처리에서 5.2배의 FLOP 절감 효과를 달성합니다. 이 방법은 8명의 혼합 모달리티 전문가를 사용하는 표준 전문가 선택 MoE보다 성능이 뛰어나며, 전체 FLOP 절감 효과가 3배(텍스트의 경우 3배, 이미지의 경우 2.8배)에 달합니다. MoMa와 Mixed-by-Deep(MoD)을 결합하면 사전 학습 FLOP를 전체적으로 4.2배까지 줄일 수 있습니다(텍스트: 3.4배, 이미지: 5.3배). 하지만 이 조합은 라우터 정확도에 대한 민감도가 높아져 인과 추론의 성능을 저하시킵니다. 이러한 결과는 MoMa가 혼합 모드, 초기 융합 언어 모델 사전 학습의 효율성을 크게 개선하여 더욱 리소스 효율적이고 강력한 멀티모달 AI 시스템을 위한 길을 열 수 있는 잠재력이 있음을 시사합니다.