HyperAIHyperAI
il y a 12 jours

OmniDataComposer : une structure de données unifiée pour la fusion de données multimodales et la génération infinie de données

Dongyang Yu, Shihao Wang, Yuan Fang, Wangpeng An
OmniDataComposer : une structure de données unifiée pour la fusion de données multimodales et la génération infinie de données
Résumé

Cet article présente OmniDataComposer, une approche innovante pour la fusion de données multimodales et la génération illimitée de données, visant à affiner et simplifier l’interaction entre diverses modalités de données. Au cœur de cette avancée se trouve une structure de données cohérente, capable de traiter et de fusionner efficacement des entrées multimodales, incluant des vidéos, des audio et du texte.L'algorithme que nous avons conçu exploite des progrès réalisés dans plusieurs opérations clés, telles que l’extraction de légendes vidéo/image, l’extraction de légendes denses, la reconnaissance automatique de parole (ASR), la reconnaissance optique de caractères (OCR), le modèle de reconnaissance universelle (Recognize Anything Model, RAM), ainsi que le suivi d’objets. OmniDataComposer est capable d’identifier plus de 6 400 catégories d’objets, élargissant considérablement le spectre d’information visuelle disponible. Il intègre ces modalités diverses, favorisant une amélioration réciproque entre elles et permettant une correction croisée des données multimodales.La sortie finale transforme chaque entrée vidéo en un document séquentiel riche et structuré, métamorphosant ainsi les vidéos en récits complets, ce qui facilite grandement leur traitement par les grands modèles linguistiques.À l’avenir, les perspectives incluent l’optimisation des jeux de données pour chaque modalité, afin de stimuler la génération illimitée de données. Cette base solide offrira des insights précieux à des modèles comme ChatGPT, leur permettant de produire des jeux de données de meilleure qualité pour la légendage vidéo, tout en simplifiant les tâches de réponse aux questions fondées sur le contenu vidéo. OmniDataComposer marque une nouvelle étape dans l’apprentissage multimodal, ouvrant des perspectives considérables pour renforcer la compréhension et la génération par l’IA de données complexes et réalistes du monde réel.

OmniDataComposer : une structure de données unifiée pour la fusion de données multimodales et la génération infinie de données | Articles de recherche récents | HyperAI