HyperAI
Back to Headlines

Chinesische Wissenschaftler präsentieren Stream-Omni: Neue Methode für multimodale AI-Zusammenarbeit.

vor 2 Tagen

Neue Entwicklung der Chinesischen Akademie der Wissenschaften: Stream-Omni, ein LLM für Cross-Modale Echtzeit-KI Große multimodale Modelle (LMMs) haben außergewöhnliche Fähigkeiten in den Bereichen Text, Vision und Sprache gezeigt und weite Anwendungsmöglichkeiten erschlossen. Obwohl visuell orientierte LMMs erfolgreich waren, stoßen multimodale LMMs, die auf visuellen Informationen basierende Sprachinteraktion unterstützen, auf Herausforderungen, die auf den inherenten Darstellungsunterschieden zwischen den Modalen beruhen. Kürzlich entwickelte LMMs versuchen, Text, Vision und Sprache durch die Kombination von Repräsentationen aus individuellen Modalitätsencodern entlang der Sequenzdimension zu vereinheitlichen. Diese Ansätze hängen jedoch von großen Datenmengen ab, um die Modalausrichtung datengetrieben zu erlernen. Dies ist nicht mit den begrenzten öffentlichen tri-modalen Datensätzen vereinbar und bietet zu wenig Flexibilität, um während der Sprachinteraktion Zwischenergebnisse im Text zu produzieren. Bestehende LMMs werden nach ihrem modalen Fokus in drei Kategorien eingeteilt: visuell orientiert, sprachorientiert und multimodal. Visuell orientierte LMMs wie LLaVA nutzen Vision-Encodern, um visuelle Merkmale zu extrahieren, die dann mit textbasierten Eingaben kombiniert und in LLMs verarbeitet werden, um Text zu generieren. Sprachorientierte LMMs verwenden entweder kontinuierliche Methoden, wie bei Mini-Omni und LLaMA-Omni, um Merkmale in LLM-Embedding-Räume zu projizieren, oder diskrete Spracheinheiten, wie bei SpeechGPT und Moshi, um Sprache in diskrete Einheiten zu konvertieren, die direkt von LLMs verarbeitet werden können. Multimodale LMMs wie VITA-1.5, MiniCPM2.6-o und Qwen2.5-Omni extrahieren Repräsentationen aus verschiedenen Encodern, fügen sie zusammen, um multidimensionales Verständnis zu erzielen, und verwenden Sprachdecodern zur Synthese. Einführung von Stream-Omni: Ein textzentrierter Ausrichtungsansatz Forscher der Universität der Chinesischen Akademie der Wissenschaften haben Stream-Omni vorgestellt, ein großes sprach-visuell-sprachliches Modell, das die Herausforderungen bei der Modalausrichtung in multimodalen Systemen angeht. Stream-Omni nutzt einen LLM-Basisansatz und ordnet die visuelle und sprachliche Modalität auf textbasierte Semantik aus. Für die visuelle Ausrichtung wird eine Sequenzdimensionalkonkatenation verwendet, um Vision und Text zu koppeln. Für die sprachliche Ausrichtung führt Stream-Omni eine CTC-basierte Schichtdimensionalkarte ein, die die Ausrichtung zwischen Sprache und Text ermöglicht. Stream-Omnis Design überwindet die Einschränkungen von Konkatenationsmethoden durch gezielte Ausrichtungsmechanismen. Architekturübersicht: Doppelschicht-Sprachintegration und visuelles Encoding Die Architektur von Stream-Omni setzt einen LLM-Basisansatz mit fortschreitenden Ausrichtungsstrategien ein. Für die Ausrichtung von Vision und Text verwendet Stream-Omni einen Vision-Encoder und eine Projektionsschicht, um visuelle Repräsentationen zu extrahieren. Für die Ausrichtung von Sprache und Text werden spezielle Sprachschichten sowohl am unteren als auch am oberen Ende des LLM-Kerns eingeführt, was eine bidirektionale Abbildung zwischen den sprachlichen und textbasierten Modalitäten ermöglicht. Stream-Omni baut seine Trainingsdatenbank durch automatisierte Pipelines auf, wobei es von LLaVA-Datensätzen für visuelle Textpaare, LibriSpeech und WenetSpeech für Sprach-Textdaten und durch die Erstellung des InstructOmni-Datensatzes, indem aktuelle Anweisungsdatensätze mittels Text-to-Speech-Synthese konvertiert werden, profitiert. Bewertung der multimodalen Fähigkeiten in verschiedenen Bereichen Bei visuellen Verständnistests erreicht Stream-Omni eine Leistung, die mit fortgeschrittenen visuell orientierten LMMs vergleichbar ist, und übertrifft VITA-1.5, indem es Modaleingriffe reduziert, während es starke visuelle Fähigkeiten beibehält. Für Sprachinteraktionen zeigt Stream-Omni ausgezeichnete wissensbasierte Leistungen, obwohl es weniger Sprachdaten (23.000 Stunden) verwendet als diskret-basierte Sprachmodellen wie SpeechGPT, Moshi und GLM-4-Voice. Bei der Bewertung der visuell gestützten Sprachinteraktion auf dem SpokenVisIT-Benchmark übertrifft Stream-Omni VITA-1.5 in der realen visuellen Verständnisfähigkeit. Die Qualität der Sprach-Text-Ausrichtung erreicht Stream-Omni auf dem LibriSpeech-Benchmark überlegene ASR-Leistungen sowohl in Bezug auf Genauigkeit als auch auf Inferenzgeschwindigkeit. Fazit: Eine Paradigmenverschiebung in der multimodalen Ausrichtung Zusammenfassend haben die Forscher Stream-Omni eingeführt, eine Lösung für die Modalausrichtungsherausforderungen in multimodalen Systemen. Diese Methode zeigt, dass effiziente Modalausrichtung durch Sequenzdimensionalkonkatenation für visuelle Textpaare und Schichtdimensionalkarten für die sprachliche Textintegration erreicht werden kann, ohne auf umfangreiche tri-modale Trainingsdaten angewiesen zu sein. Zudem legt diese Forschung einen neuen Paradigma für multimodale LMMs dar, indem sie demonstriert, dass gezielte Ausrichtungsstrategien auf der Basis semantischer Beziehungen die Einschränkungen traditioneller Konkatenationsansätze in multimodalen KI-Systemen überwinden können. Branchenexperten loben Stream-Omni für seine innovative Herangehensweise an die Modalausrichtung und sehen in ihm ein wichtiger Schritt voran in der Entwicklung multimodaler KI-Modelle. Die Chinesische Akademie der Wissenschaften ist bekannt für ihre fortschrittliche Forschung in der Künstlichen Intelligenz und trägt damit erneut dazu bei, den Stand der Technik in diesem Bereich zu verbessern. Die Fähigkeit, textbasierte Semantik effektiv zu nutzen, um Vision und Sprache auszurichten, könnte zukünftige Anwendungen in Bereichen wie Assistenzsysteme und interaktive KI entscheidend vorantreiben. Für weitere Informationen zum Paper und dem Modell auf Hugging Face, folgen Sie bitte den Links. Das gesamte Lob für diese Forschung gebührt den Forschern dieses Projekts. Nutzen Sie auch die Gelegenheit, uns auf Twitter zu folgen und sich unserem 100.000+-ML-SubReddit anzuschließen, sowie unseren Newsletter abonnieren.

Related Links