HyperAIHyperAI
il y a 2 mois

Qwen-Audio : Avancées dans la compréhension universelle de l'audio grâce à des modèles audio-langue unifiés et à grande échelle

Chu, Yunfei ; Xu, Jin ; Zhou, Xiaohuan ; Yang, Qian ; Zhang, Shiliang ; Yan, Zhijie ; Zhou, Chang ; Zhou, Jingren
Qwen-Audio : Avancées dans la compréhension universelle de l'audio grâce à des modèles audio-langue unifiés et à grande échelle
Résumé

Récemment, les modèles audio-langage capables de suivre des instructions ont attiré une attention considérable pour l'interaction audio avec les humains. Cependant, l'absence de modèles audio pré-entraînés capables de gérer divers types d'audio et de tâches a freiné les progrès dans ce domaine. Par conséquent, la plupart des travaux existants n'ont été en mesure de soutenir qu'une gamme limitée de capacités d'interaction. Dans cet article, nous développons le modèle Qwen-Audio et surmontons cette limitation en élargissant la pré-entraîne du langage audio pour couvrir plus de 30 tâches et divers types d'audio, tels que la parole humaine, les sons naturels, la musique et les chansons, afin de faciliter des capacités universelles de compréhension audio. Cependant, l'entraînement conjoint direct de toutes les tâches et des jeux de données peut entraîner des problèmes d'interférence, car les étiquettes textuelles associées à différents jeux de données présentent des variations importantes dues aux différences de focus des tâches, de langue, de granularité des annotations et de structure textuelle. Pour surmonter l'interférence un-à-plusieurs, nous concevons soigneusement un cadre d'entraînement multi-tâche en conditionnant le décodeur à une séquence d'étiquettes hiérarchiques afin d'encourager le partage des connaissances et d'éviter l'interférence grâce à des étiquettes partagées et spécifiques respectivement. Remarquablement, Qwen-Audio obtient des performances impressionnantes sur diverses tâches基准任务 (benchmark tasks) sans nécessiter aucun ajustement fin spécifique à une tâche, surpassant ainsi ses homologues. En nous appuyant sur les capacités du modèle Qwen-Audio, nous développons davantage Qwen-Audio-Chat, qui permet une entrée variée provenant d'audios divers et d'entrées textuelles, facilitant ainsi des dialogues multietapes et soutenant divers scénarios centrés sur l'audio.Note: "基准任务" is left untranslated as it is a specific term that may not have a widely recognized French equivalent in the context of technology and academic writing. If you prefer a more general term or have a specific translation in mind for your audience, please let me know! Here’s the revised version with "benchmark tasks" translated:Récemment, les modèles audio-langage capables de suivre des instructions ont attiré une attention considérable pour l'interaction audio avec les humains. Cependant, l'absence de modèles audio pré-entraînés capables de gérer divers types d'audio et de tâches a freiné les progrès dans ce domaine. Par conséquent, la plupart des travaux existants n'ont été en mesure de soutenir qu'une gamme limitée de capacités d'interaction. Dans cet article, nous développons le modèle Qwen-Audio et surmontons cette limitation en élargissant la pré-entraîne du langage audio pour couvrir plus de 30 tâches et divers types d'audio, tels que la parole humaine, les sons naturels, la musique et les chansons, afin de faciliter des capacités universelles de compréhension audio. Cependant, l'entraînement conjoint direct de toutes les tâches et des jeux de données peut entraîner des problèmes d'interférence, car les étiquettes textuelles associées à différents jeux de données présentent des variations importantes dues aux différences de focus des tâches, de langue, de granularité des annotations et de structure textuelle. Pour surmonter l’interférence un-à-plusieurs (one-to-many interference), nous concevons soigneusement un cadre d’entraînement multi-tâche en conditionnant le décodeur à une séquence d’étiquettes hiérarchiques afin d’encourager le partage des connaissances et d’éviter l’interférence grâce à des étiquettes partagées et spécifiques respectivement. Remarquablement, Qwen-Audio obtient des performances impressionnantes sur diverses tâches benchmark sans nécessiter aucun ajustement fin spécifique à une tâche (task-specific fine-tuning), surpassant ainsi ses homologues. En nous appuyant sur les capacités du modèle Qwen-Audio, nous développons davantage Qwen-Audio-Chat qui permet une entrée variée provenant d’audios divers et d’entrées textuelles (text inputs), facilitant ainsi des dialogues multietapes (multi-turn dialogues) et soutenant divers scénarios centrés sur l’audio (audio-central scenarios).

Qwen-Audio : Avancées dans la compréhension universelle de l'audio grâce à des modèles audio-langue unifiés et à grande échelle | Articles de recherche récents | HyperAI