Stream-Omni: Simultane multimodale Interaktionen mit einem großen Sprach-Bild-Sprech-Modell

Das Auftreten von GPT-4o-ähnlichen großen multimodalen Modellen (LMMs) hat die Erforschung der Integration von Text, Vision und Sprache zur Unterstützung flexiblerer multimodaler Interaktionen erhöht. Bestehende LMMs fügen in der Regel Darstellungen verschiedener Modalitäten entlang der sequentiellen Dimension zusammen und geben sie an ein großes Sprachmodell (LLM) als Rückgrat weiter. Obwohl die sequentielle Dimensionskonnektierung eine einfache Methode zur Modalausrichtung darstellt, hängt sie oft stark von umfangreichen Datenmengen ab, um die Ausrichtung zwischen den Modalitäten zu lernen. In dieser Arbeit zielen wir darauf ab, die Beziehungen zwischen den Modalitäten gezielter zu modellieren, um effizientere und flexiblere Modalausrichtungen zu erreichen. Zu diesem Zweck schlagen wir Stream-Omni vor, ein großes Sprach-Vision-Sprache-Modell mit effizienter Modalausrichtung, das gleichzeitig Interaktionen bei verschiedenen Modalkombinationen unterstützt. Stream-Omni verwendet ein LLM als Rückgrat und ordnet Vision und Sprache dem Text basierend auf ihren Beziehungen zu. Für Vision, die semantisch ergänzend zum Text ist, verwendet Stream-Omni die sequentielle Dimensionskonnektierung, um eine Ausrichtung zwischen Vision und Text zu erreichen. Für Sprache, die semantisch konsistent mit dem Text ist, führt Stream-Omni eine CTC-basierte Schicht-Dimension-Zuordnung ein, um eine Ausrichtung zwischen Sprache und Text zu erreichen. Auf diese Weise kann Stream-Omni mit weniger Daten (insbesondere Sprachdaten) Modalausrichtungen durchführen und ermöglicht es den Transfer von Textfähigkeiten auf andere Modalitäten. Experimente auf verschiedenen Benchmarks zeigen, dass Stream-Omni starke Leistungen in visuellen Verständnis-, sprachlichen Interaktions- und visionsgestützten sprachlichen Interaktionsaufgaben erzielt. Dank der Schicht-Dimension-Zuordnung kann Stream-Omni während sprachlicher Interaktionen gleichzeitig Zwischenergebnisse im Text (wie ASR-Transkripte und Modelleantworten) bereitstellen und damit Benutzern ein umfassendes multimodales Erlebnis bieten.