Qwen-Audio: 통합된 대규모 오디오-언어 모델을 활용한 보편적인 오디오 이해의 발전

최근, 인간과의 오디오 상호작용을 위한 지시사항 준수 오디오-언어 모델이 널리 주목받고 있습니다. 그러나 다양한 오디오 유형과 작업을 처리할 수 있는 사전 훈련된 오디오 모델의 부재로 인해 이 분야의 발전이 제약을 받았습니다. 그 결과, 대부분의 기존 연구는 제한된 범위의 상호작용 능력을 지원하는 데 그쳤습니다. 본 논문에서는 이러한 한계를 극복하기 위해 Qwen-Audio 모델을 개발하고, 30개 이상의 작업과 인간의 음성, 자연 소음, 음악, 노래 등 다양한 오디오 유형을 포함하여 보편적인 오디오 이해 능력을 향상시키기 위해 오디오-언어 사전 훈련을 확장합니다.그러나 모든 작업과 데이터셋을 직접적으로 공동 훈련하면, 작업 초점, 언어, 주석의 세부도 및 텍스트 구조 등의 차이로 인해 서로 다른 데이터셋에 연결된 텍스트 라벨이 크게 다르기 때문에 간섭 문제가 발생할 수 있습니다. 이러한 일대다 간섭 문제를 해결하기 위해, 우리는 공유 태그와 특정 태그를 통해 지식 공유를 촉진하고 간섭을 피하도록 계층적 태그 시퀀스를 디코더에 조건부로 적용하는 다중 작업 훈련 프레임워크를 신중하게 설계했습니다. 특히, Qwen-Audio는 어떠한 작업 특화 미세 조정 없이도 다양한 벤치마크 작업에서 뛰어난 성능을 보여주며, 동종 모델들을 능가합니다.Qwen-Audio의 능력을 바탕으로, 우리는 더욱 발전된 Qwen-Audio-Chat을 개발하였습니다. 이 모델은 다양한 오디오 입력과 텍스트 입력을 받아들일 수 있으며, 다단계 대화를 가능하게 하고 다양한 오디오 중심 시나리오를 지원합니다.