HyperAIHyperAI

Command Palette

Search for a command to run...

Audio Flamingo: Ein neues audio-sprachliches Modell mit Few-Shot-Lernen und Dialogfähigkeiten

Zhifeng Kong Arushi Goel Rohan Badlani Wei Ping Rafael Valle Bryan Catanzaro

Zusammenfassung

Die Erweiterung von großen Sprachmodellen (LLMs), um Audio zu verstehen – einschließlich nicht-sprachlicher Töne und nicht-verbalen Äußerungen – ist für vielfältige realweltliche Anwendungen von LLMs von entscheidender Bedeutung. In dieser Arbeit schlagen wir Audio Flamingo vor, ein neues Audiosprachmodell mit 1) ausgeprägten Fähigkeiten zur Audioverstehenskraft, 2) der Fähigkeit, durch in-Context-Lernen und Retrieval schnell auf unbekannte Aufgaben anzupassen, und 3) starken Fähigkeiten im mehrfachen Dialog. Wir stellen eine Reihe von Trainingsmethoden, Architekturdesigns und Datenstrategien vor, um unser Modell mit diesen Fähigkeiten zu verbessern. Ausführliche Evaluierungen bei verschiedenen Aufgaben zur Audioverstehenskraft bestätigen die Effektivität unserer Methode und setzen neue Standarts der Technik (state-of-the-art benchmarks). Unsere Demowebsite ist https://audioflamingo.github.io/ und der Code ist unter https://github.com/NVIDIA/audio-flamingo als Open Source verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Audio Flamingo: Ein neues audio-sprachliches Modell mit Few-Shot-Lernen und Dialogfähigkeiten | Paper | HyperAI