2달 전

오디오 플라밍고: 소수 샷 학습과 대화 능력을 갖춘 새로운 오디오 언어 모델

Kong, Zhifeng ; Goel, Arushi ; Badlani, Rohan ; Ping, Wei ; Valle, Rafael ; Catanzaro, Bryan

초록

대형 언어 모델(LLM)을 오디오 이해 능력을 강화하여 비언어 소리와 비말소리(non-verbal speech)까지 인식할 수 있도록 하는 것은 LLM의 다양한 실제 응용 분야에서 매우 중요합니다. 본 논문에서는 1) 강력한 오디오 이해 능력, 2) 문맥 학습과 검색을 통해 미처 보지 못한 작업에 빠르게 적응하는 능력, 3) 강력한 다단계 대화 능력을 갖춘 새로운 오디오 언어 모델인 Audio Flamingo를 제안합니다. 우리는 이러한 능력을 향상시키기 위해 일련의 훈련 기법, 아키텍처 설계 및 데이터 전략을 소개합니다. 다양한 오디오 이해 작업에 대한 광범위한 평가를 통해 우리의 방법이 효과적임을 확인하였으며, 새로운 최신 벤치마크를 설정하였습니다. 우리의 데모 웹사이트는 https://audioflamingo.github.io/이며 코드는 오픈 소스로 제공되며, 주소는 https://github.com/NVIDIA/audio-flamingo입니다.