Stream-Omni : Une Nouvelle Approche de Modélisation Multimodale pour l'IA Temps Réel
Stream-Omni : Un Nouvel LMVSP pour une Interaction Multimodale en Temps Réel Comprendre les Limitations des Architectures Multimodales Actuelles Les grands modèles multimodaux (LMMs), capables de traiter le texte, la vision et la parole, ont révolutionné de nombreux domaines en offrant des performances exceptionnelles. Cependant, les LMMs omni-modaux, qui visent à unifier ces trois modalités, font face à des défis importants. En particulier, les modèles basés sur la vision atteignent un certain succès, mais ceux qui intègrent la parole dans des interactions basées sur des informations visuelles éprouvent des difficultés en raison des disparités inhérentes entre les modalités. Les approches actuelles reposent souvent sur des données massives pour aligner les modalités de manière data-driven, ce qui n'est pas toujours possible avec les datasets tri-modaux limités disponibles. De plus, ces modèles manquent de flexibilité pour produire des résultats intermédiaires en texte lors d'interactions basées sur la parole. Catégorisation des LMMs par Modale Les LMMs actuels peuvent être classés en trois catégories : orientés vers la vision, la parole, et les omni-modèles. Vision-Orientés : Des modèles comme LLaVA utilisent des encodeurs de vision pour extraire des caractéristiques visuelles, qui sont ensuite combinées avec des entrées textuelles pour générer du texte. Parole-Orientés : Ces modèles emploient soit des méthodes continues, telles que Mini-Omni et LLaMA-Omni, pour projeter les caractéristiques dans l'espace d'embedding d'un LLM, soit des unités discrètes de parole, comme SpeechGPT et Moshi, pour convertir la parole en unités discrètes avant leur traitement par le LLM. Omni-Modèles : Des modèles comme VITA-1.5, MiniCPM2.6-o et Qwen2.5-Omni extraient des représentations de divers encodeurs, les concatènent pour une compréhension multimodale et utilisent des décodeurs de parole pour la synthèse. Présentation de Stream-Omni : Une Approche Centrée sur le Texte Des chercheurs de l'Université de l'Académie chinoise des sciences ont présenté Stream-Omni, un modèle de langage, vision et parole (LMVSP) conçu pour surmonter les défis d'alignement des modalités dans les systèmes omni-modaux. Stream-Omni s'appuie sur un tronc commun de LLM et aligne les modalités visuelle et parlée en fonction de leurs relations sémantiques avec le texte, plutôt que par une simple concaténation. Pour la vision, Stream-Omni utilise la concaténation sur la dimension séquence pour aligner les paires vision-texte. Pour la parole, il introduit une carte de dimension de couche basée sur la CTC (Connectionist Temporal Classification) pour aligner la parole et le texte. Cette conception permet à Stream-Omni de surmonter les limitations des méthodes de concaténation traditionnelles en introduisant des mécanismes d'alignement ciblés. Vue d'ensemble de l'Architecture : Intégration Parole Bidirectionnelle et Encodeur Visuel L'architecture de Stream-Omni repose sur un tronc commun de LLM et met en œuvre des stratégies progressives d'alignement des modalités. Pour l'alignement vision-texte, Stream-Omni applique un encodeur de vision et une couche de projection pour extraire les représentations visuelles. Pour l'alignement parole-texte, le modèle introduit des couches spéciales de parole au niveau inférieur et supérieur du tronc commun du LLM, permettant un mapping bidirectionnel entre les modalités de parole et de texte. Stream-Omni construit son corpus d'entraînement grâce à des pipelines automatisés, en utilisant des paires vision-texte du dataset LLaVA, des données parole-texte de LibriSpeech et WenetSpeech, et en créant le dataset InstructOmni avec des conversions text-to-speech. Évaluations Multimodales dans Divers Domaines En termes de compréhension visuelle, Stream-Omni atteint des performances comparables aux modèles vision-orientés les plus avancés et surpasse VITA-1.5 en réduisant les interférences modales tout en maintenant de solides capacités de vision. Pour les interactions basées sur la parole, Stream-Omni montre des performances basées sur des connaissances remarquables en utilisant moins de données de parole (23 000 heures) par rapport aux modèles basés sur des unités discrètes de parole tels que SpeechGPT, Moshi et GLM-4-Voice. Sur le banc d'évaluation SpokenVisIT, destiné aux interactions vision-guidées par la parole, Stream-Omni surpasse également VITA-1.5 en termes de compréhension visuelle dans un contexte réel. Enfin, la qualité du mapping parole-texte de Stream-Omni offre des performances supérieures en reconnaissance de la parole (ASR) sur le bench LibriSpeech, tant en termes de précision qu'en temps d'inférence. Conclusion : Un Nouveau Paradigme d'Alignement Multimodal En conclusion, les chercheurs ont introduit Stream-Omni, une solution innovante aux défis d'alignement des modalités dans les systèmes omni-modaux. Ce modèle démontre que l'alignement efficace des modalités peut être réalisé par la concaténation sur la dimension séquence pour les paires vision-texte et la carte de dimension de couche pour l’intégration parole-texte, sans nécessiter de vastes datasets tri-modaux. Ce travail établit un nouveau paradigme pour les LMMs omni-modaux, montrant que les stratégies d'alignement ciblées basées sur les relations sémantiques peuvent surpasser les approches de concaténation traditionnelles dans les systèmes d'IA multimodale. Évaluation Professionnelle et Profil de l’Équipe Les experts de l'industrie saluent l'introduction de Stream-Omni pour sa capacité à simplifier l'alignement des modalités tout en offrant des performances élevées. Cette avancée renforce la position de l'Université de l'Académie chinoise des sciences dans le domaine de l'IA multimodale et ouvre de nouvelles voies pour l'application de technologies omni-modales dans des scénarios pratiques. L'équipe de recherche, connue pour ses contributions significatives à la science des modèles de langage, continue d'innover pour rendre les systèmes d'IA plus accessibles et performants. Pour en savoir plus, consultez l'article de recherche et le modèle Stream-Omni sur Hugging Face. Tous les crédits de cette recherche reviennent aux chercheurs du projet. N'hésitez pas à suivre nos actualités sur Twitter et à rejoindre notre réseau de 100 000+ abonnés sur Reddit Machine Learning. Abonnez-vous également à notre newsletter pour rester informé des dernières avancées.