HyperAIHyperAI

Command Palette

Search for a command to run...

Qwen-Audio: Fortschritte in der universellen Audioverstehenskraft durch einheitliche großskalige Audiosprachmodelle

Yunfei Chu* Jin Xu* Xiaohuan Zhou* Qian Yang Shiliang Zhang Zhijie Yan Chang Zhou† Jingren Zhou

Zusammenfassung

Kürzlich haben instruktionsgesteuerte Audio-Sprachmodelle aufgrund ihrer Fähigkeit zur audiovisuellen Interaktion mit Menschen große Aufmerksamkeit erhalten. Allerdings hat der Mangel an vorab trainierten Audiomodellen, die verschiedene Arten von Audiodaten und Aufgaben verarbeiten können, den Fortschritt in diesem Bereich behindert. Daher konnten bisherige Arbeiten nur eine begrenzte Palette interaktiver Fähigkeiten unterstützen. In dieser Arbeit entwickeln wir das Modell Qwen-Audio und beheben diese Einschränkung, indem wir die Vortrainierung von Audio-Sprachmodellen erweitern, um über 30 Aufgaben und verschiedene Arten von Audiodaten abzudecken, wie z.B. menschliche Sprache, natürliche Geräusche, Musik und Lieder, um universelle Audioverarbeitungsfähigkeiten zu fördern. Die direkte gemeinsame Trainierung aller Aufgaben und Datensätze kann jedoch zu Störungen führen, da die textuellen Labels, die verschiedenen Datensätzen zugeordnet sind, aufgrund unterschiedlicher Aufgabenschwerpunkte, Sprachen, Annotationsschärfen und Textstrukturen erhebliche Variationen aufweisen. Um das Problem der ein-zu-vielen-Störungen zu überwinden, gestalten wir sorgfältig einen Mehrfachaufgaben-Trainierungsrahmen (multi-task training framework), indem wir eine Hierarchie von Tags dem Decoder zur Verfügung stellen, um Wissensaustausch zu fördern und durch geteilte und spezifische Tags Störungen zu vermeiden. Bemerkenswerterweise erreicht Qwen-Audio beeindruckende Leistungen bei diversen Benchmark-Aufgaben ohne jegliche aufgabenbezogene Feinabstimmung (task-specific fine-tuning) und übertrifft seine Konkurrenten. Basierend auf den Fähigkeiten von Qwen-Audio entwickeln wir ferner Qwen-Audio-Chat, das Eingaben aus verschiedenen Audiosignalen und Texteingaben ermöglicht und so mehrere Dialogrunden unterstützt sowie verschiedene audiozentrierte Szenarien abdeckt.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp