Qwen-Audio: Fortschritte in der universellen Audioverstehenskraft durch einheitliche großskalige Audiosprachmodelle

Kürzlich haben instruktionsgesteuerte Audio-Sprachmodelle aufgrund ihrer Fähigkeit zur audiovisuellen Interaktion mit Menschen große Aufmerksamkeit erhalten. Allerdings hat der Mangel an vorab trainierten Audiomodellen, die verschiedene Arten von Audiodaten und Aufgaben verarbeiten können, den Fortschritt in diesem Bereich behindert. Daher konnten bisherige Arbeiten nur eine begrenzte Palette interaktiver Fähigkeiten unterstützen. In dieser Arbeit entwickeln wir das Modell Qwen-Audio und beheben diese Einschränkung, indem wir die Vortrainierung von Audio-Sprachmodellen erweitern, um über 30 Aufgaben und verschiedene Arten von Audiodaten abzudecken, wie z.B. menschliche Sprache, natürliche Geräusche, Musik und Lieder, um universelle Audioverarbeitungsfähigkeiten zu fördern. Die direkte gemeinsame Trainierung aller Aufgaben und Datensätze kann jedoch zu Störungen führen, da die textuellen Labels, die verschiedenen Datensätzen zugeordnet sind, aufgrund unterschiedlicher Aufgabenschwerpunkte, Sprachen, Annotationsschärfen und Textstrukturen erhebliche Variationen aufweisen. Um das Problem der ein-zu-vielen-Störungen zu überwinden, gestalten wir sorgfältig einen Mehrfachaufgaben-Trainierungsrahmen (multi-task training framework), indem wir eine Hierarchie von Tags dem Decoder zur Verfügung stellen, um Wissensaustausch zu fördern und durch geteilte und spezifische Tags Störungen zu vermeiden. Bemerkenswerterweise erreicht Qwen-Audio beeindruckende Leistungen bei diversen Benchmark-Aufgaben ohne jegliche aufgabenbezogene Feinabstimmung (task-specific fine-tuning) und übertrifft seine Konkurrenten. Basierend auf den Fähigkeiten von Qwen-Audio entwickeln wir ferner Qwen-Audio-Chat, das Eingaben aus verschiedenen Audiosignalen und Texteingaben ermöglicht und so mehrere Dialogrunden unterstützt sowie verschiedene audiozentrierte Szenarien abdeckt.