Stream-Omni : Interactions multimodales simultanées avec un grand modèle de langage-vision-parole

L'émergence de grands modèles multimodaux similaires au GPT-4o a suscité l'exploration de l'intégration des modalités textuelles, visuelles et auditives pour soutenir une interaction multimodale plus flexible. Les modèles multimodaux existants concatènent généralement les représentations des modalités le long de la dimension séquentielle et les alimentent dans un grand modèle linguistique (LLM) en tant que tronc commun. Bien que la concaténation le long de la dimension séquentielle soit une méthode simple pour intégrer les modalités, elle repose souvent sur des données à grande échelle pour apprendre les alignements modaux. Dans cet article, nous visons à modéliser les relations entre les modalités de manière plus intentionnelle, afin d'atteindre des alignements modaux plus efficaces et flexibles. À cette fin, nous proposons Stream-Omni, un grand modèle linguistique-visuel-auditif avec des alignements modaux efficaces, capable de prendre en charge simultanément des interactions sous diverses combinaisons de modalités.Stream-Omni utilise un LLM comme tronc commun et aligne la vision et la parole au texte en fonction de leurs relations. Pour la vision qui est sémantiquement complémentaire au texte, Stream-Omni utilise la concaténation le long de la dimension séquentielle pour réaliser l'alignement vision-texte. Pour la parole qui est sémantiquement cohérente avec le texte, Stream-Omni introduit une cartographie basée sur CTC (Connectionist Temporal Classification) entre les couches et la dimension pour réaliser l'alignement parole-texte. De cette façon, Stream-Omni peut atteindre des alignements modaux avec moins de données (notamment pour la parole), permettant ainsi le transfert des capacités textuelles vers d'autres modalités.Les expériences menées sur diverses benchmarks montrent que Stream-Omni obtient d'excellents résultats dans les tâches de compréhension visuelle, d'interaction vocale et d'interaction vocale ancrée dans la vision. Grâce à la cartographie entre les couches et la dimension, Stream-Omni peut fournir simultanément des sorties textuelles intermédiaires (telles que les transcriptions ASR et les réponses du modèle) pendant l'interaction vocale, offrant aux utilisateurs une expérience multimodale complète.