Command Palette
Search for a command to run...
Audio Flamingo: Ein neues audio-sprachliches Modell mit Few-Shot-Lernen und Dialogfähigkeiten
Audio Flamingo: Ein neues audio-sprachliches Modell mit Few-Shot-Lernen und Dialogfähigkeiten
Zhifeng Kong Arushi Goel Rohan Badlani Wei Ping Rafael Valle Bryan Catanzaro
Zusammenfassung
Die Erweiterung von großen Sprachmodellen (LLMs), um Audio zu verstehen – einschließlich nicht-sprachlicher Töne und nicht-verbalen Äußerungen – ist für vielfältige realweltliche Anwendungen von LLMs von entscheidender Bedeutung. In dieser Arbeit schlagen wir Audio Flamingo vor, ein neues Audiosprachmodell mit 1) ausgeprägten Fähigkeiten zur Audioverstehenskraft, 2) der Fähigkeit, durch in-Context-Lernen und Retrieval schnell auf unbekannte Aufgaben anzupassen, und 3) starken Fähigkeiten im mehrfachen Dialog. Wir stellen eine Reihe von Trainingsmethoden, Architekturdesigns und Datenstrategien vor, um unser Modell mit diesen Fähigkeiten zu verbessern. Ausführliche Evaluierungen bei verschiedenen Aufgaben zur Audioverstehenskraft bestätigen die Effektivität unserer Methode und setzen neue Standarts der Technik (state-of-the-art benchmarks). Unsere Demowebsite ist https://audioflamingo.github.io/ und der Code ist unter https://github.com/NVIDIA/audio-flamingo als Open Source verfügbar.