Command Palette
Search for a command to run...

초록
우리는 라이치 계열에서 새롭게 선보이는 Uni-MoE 2.0을 소개합니다. 이 모델은 언어 중심의 다모달 이해, 추론 및 생성 능력을 크게 향상시킨 완전히 오픈소스인 옴니모달 대규모 모델(OLM, Omnimodal Large Model)로서, Lychee의 Uni-MoE 시리즈를 새롭게 정의합니다. Qwen2.5-7B 밀집형 아키텍처를 기반으로 하여, 세 가지 핵심 기여를 통해 처음부터 구축된 Uni-MoE-2.0-Omni는 동적 용량을 갖춘 전문가 집합(Mixture-of-Experts, MoE) 설계, 반복 강화 전략을 통합한 점진적 훈련 전략, 그리고 철저히 선별된 다모달 데이터 매칭 기법을 포함합니다. 이 모델은 옴니모달 이해 능력을 갖추고 있으며, 이미지, 텍스트, 음성 생성까지 가능합니다. 아키텍처적으로는 공유 전문가(shared experts), 라우팅 전문가(routed experts), 그리고 비활성 전문가(null experts)를 활용하여 10개의 크로스모달 입력에 대해 계산 효율성과 능력 사이의 균형을 달성하였으며, 옴니모달 3D RoPE를 통해 자기주의(self-attention) 계층 내에서 시공간적 크로스모달 정렬을 보장합니다. 훈련 측면에서는 크로스모달 사전훈련 이후, 모달별 전문가를 활성화하는 점진적 지도형 미세조정 전략을 적용하고, 균형 잡힌 데이터 구성과 반복적 GSPO-DPO 방법을 통해 강화학습(RL) 훈련의 안정성을 제고하며 추론 성능을 향상시켰습니다. 데이터 측면에서는 약 750억 토큰의 오픈소스 다모달 데이터로 훈련된 베이스 모델이 음성 및 이미지 생성을 위한 특수 토큰을 내장하고 있어, 언어적 신호를 조건으로 하여 생성 작업을 학습할 수 있습니다. 85개의 벤치마크를 대상으로 한 광범위한 평가 결과, 본 모델은 주요 OLM들과 비교해 SOTA(Sota) 수준 또는 경쟁력 있는 성능을 달성하였으며, 76개 벤치마크 중 50개 이상에서 1.2조 토큰으로 훈련된 Qwen2.5-Omni를 상회했습니다. 주요 강점은 동영상 이해(+8개 벤치마크 평균 +7%), 옴니모달 이해(+4개 벤치마크 평균 +7%), 오디오비주얼 추론(+4%)이며, 장기형 음성 처리에서는 WER(단어 오류율)를 4.2% 감소시켜 성능을 향상시켰으며, 저수준 이미지 처리 및 제어 가능한 생성 측면에서도 5개 지표에서 선도적인 성능을 보였습니다.