HyperAIHyperAI

Command Palette

Search for a command to run...

Stream-Omni: Simultane multimodale Interaktionen mit einem großen Sprach-Bild-Sprech-Modell

Shaolei Zhang Shoutao Guo Qingkai Fang Yan Zhou Yang Feng

Zusammenfassung

Das Auftreten von GPT-4o-ähnlichen großen multimodalen Modellen (LMMs) hat die Erforschung der Integration von Text, Vision und Sprache zur Unterstützung flexiblerer multimodaler Interaktionen erhöht. Bestehende LMMs fügen in der Regel Darstellungen verschiedener Modalitäten entlang der sequentiellen Dimension zusammen und geben sie an ein großes Sprachmodell (LLM) als Rückgrat weiter. Obwohl die sequentielle Dimensionskonnektierung eine einfache Methode zur Modalausrichtung darstellt, hängt sie oft stark von umfangreichen Datenmengen ab, um die Ausrichtung zwischen den Modalitäten zu lernen. In dieser Arbeit zielen wir darauf ab, die Beziehungen zwischen den Modalitäten gezielter zu modellieren, um effizientere und flexiblere Modalausrichtungen zu erreichen. Zu diesem Zweck schlagen wir Stream-Omni vor, ein großes Sprach-Vision-Sprache-Modell mit effizienter Modalausrichtung, das gleichzeitig Interaktionen bei verschiedenen Modalkombinationen unterstützt. Stream-Omni verwendet ein LLM als Rückgrat und ordnet Vision und Sprache dem Text basierend auf ihren Beziehungen zu. Für Vision, die semantisch ergänzend zum Text ist, verwendet Stream-Omni die sequentielle Dimensionskonnektierung, um eine Ausrichtung zwischen Vision und Text zu erreichen. Für Sprache, die semantisch konsistent mit dem Text ist, führt Stream-Omni eine CTC-basierte Schicht-Dimension-Zuordnung ein, um eine Ausrichtung zwischen Sprache und Text zu erreichen. Auf diese Weise kann Stream-Omni mit weniger Daten (insbesondere Sprachdaten) Modalausrichtungen durchführen und ermöglicht es den Transfer von Textfähigkeiten auf andere Modalitäten. Experimente auf verschiedenen Benchmarks zeigen, dass Stream-Omni starke Leistungen in visuellen Verständnis-, sprachlichen Interaktions- und visionsgestützten sprachlichen Interaktionsaufgaben erzielt. Dank der Schicht-Dimension-Zuordnung kann Stream-Omni während sprachlicher Interaktionen gleichzeitig Zwischenergebnisse im Text (wie ASR-Transkripte und Modelleantworten) bereitstellen und damit Benutzern ein umfassendes multimodales Erlebnis bieten.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp