Audio Flamingo: Ein neues audio-sprachliches Modell mit Few-Shot-Lernen und Dialogfähigkeiten

Die Erweiterung von großen Sprachmodellen (LLMs), um Audio zu verstehen – einschließlich nicht-sprachlicher Töne und nicht-verbalen Äußerungen – ist für vielfältige realweltliche Anwendungen von LLMs von entscheidender Bedeutung. In dieser Arbeit schlagen wir Audio Flamingo vor, ein neues Audiosprachmodell mit 1) ausgeprägten Fähigkeiten zur Audioverstehenskraft, 2) der Fähigkeit, durch in-Context-Lernen und Retrieval schnell auf unbekannte Aufgaben anzupassen, und 3) starken Fähigkeiten im mehrfachen Dialog. Wir stellen eine Reihe von Trainingsmethoden, Architekturdesigns und Datenstrategien vor, um unser Modell mit diesen Fähigkeiten zu verbessern. Ausführliche Evaluierungen bei verschiedenen Aufgaben zur Audioverstehenskraft bestätigen die Effektivität unserer Methode und setzen neue Standarts der Technik (state-of-the-art benchmarks). Unsere Demowebsite ist https://audioflamingo.github.io/ und der Code ist unter https://github.com/NVIDIA/audio-flamingo als Open Source verfügbar.