17일 전
라이라: 옴니인지를 위한 효율적이고 음성 중심의 프레임워크
Zhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia

초록
다중모달 대규모 언어 모델(Multi-modal Large Language Models, MLLMs)이 발전함에 따라 단일 도메인 기능을 넘어서는 것은 더 유연하고 효율적인 AI를 만족시키기 위한 필수 과제이다. 그러나 이전의 옴니모델들은 음성에 대해 충분히 탐구하지 못했으며, 다중모달리티와의 통합을 간과해 왔다. 본 연구에서는 고도화된 장기 음성 이해, 소리 인식, 다중모달 간 효율성, 그리고 원활한 음성 상호작용을 포함한 다중모달 능력을 향상시키는 효율적인 MLLM인 Lyra를 제안한다. 효율성과 음성 중심의 기능을 달성하기 위해 Lyra는 세 가지 전략을 활용한다. (1) 기존 오픈소스 대규모 모델과 제안된 다중모달 LoRA(LoRA: Low-Rank Adaptation)를 활용하여 학습 비용과 데이터 요구량을 감소시킨다. (2) 음성과 다른 모달 간의 관계를 강화하기 위해 잠재적 다중모달 정규화기와 추출기를 도입함으로써 모델 성능을 향상시킨다. (3) 언어, 시각, 음성의 3가지 모달을 포함한 총 150만 개의 고품질 다중모달 데이터 샘플과 12,000개의 장기 음성 샘플을 포함하는 방대하고 고품질의 데이터셋을 구축하여, Lyra가 복잡한 장기 음성 입력을 처리하고 더 강력한 옴니인지 능력을 달성할 수 있도록 한다. 다른 옴니모델들과 비교해 Lyra는 다양한 시각-언어, 시각-음성, 음성-언어 벤치마크에서 최신 기술 수준(SOTA)의 성능을 달성하면서도, 더 적은 계산 자원과 적은 학습 데이터를 사용한다.