HyperAIHyperAI

Command Palette

Search for a command to run...

il y a 19 jours

Chaîne de cadres : Progresser dans la compréhension vidéo au sein des modèles linguistiques multimodaux grâce au raisonnement conscient des cadres

Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

Chaîne de cadres : Progresser dans la compréhension vidéo au sein des modèles linguistiques multimodaux grâce au raisonnement conscient des cadres

Résumé

Des travaux récents ont montré qu’obtenir des grands modèles linguistiques (LLM) une trace de raisonnement en langage naturel avant de répondre à une requête utilisateur peut considérablement améliorer leurs performances sur diverses tâches. Cette approche a été étendue aux LLM multimodaux, capables de produire des chaînes de raisonnement (CoT) concernant le contenu d’images et de vidéos d’entrée. Dans ce travail, nous proposons d’obtenir des modèles vidéo LLM dont les étapes de raisonnement sont ancrées dans, et font explicitement référence à, les trames vidéo pertinentes. Pour cela, nous créons d’abord CoF-Data, un grand jeu de données comprenant des questions diverses, des réponses et des traces de raisonnement ancrées sur les trames vidéo, couvrant à la fois des vidéos naturelles et synthétiques, ainsi que divers sujets et tâches. Ensuite, nous adaptons finement des modèles vidéo LLM existants sur ces données de chaîne de trames (CoF). Notre approche est simple et autonome, et, contrairement aux méthodes existantes pour la CoT vidéo, elle ne nécessite pas de réseaux auxiliaires pour sélectionner ou décrire les trames pertinentes. Nous démontrons que nos modèles basés sur CoF sont capables de générer des chaînes de raisonnement qui font référence avec précision aux trames clés permettant de répondre à la question posée. Cela se traduit par une amélioration des performances sur plusieurs benchmarks d’understanding vidéo, notamment en dépassant les modèles vidéo LLM les plus performants sur Video-MME, MVBench et VSI-Bench, tout en réduisant notablement le taux d’hallucinations. Le code est disponible à l’adresse suivante : [ce lien HTTP].

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Chaîne de cadres : Progresser dans la compréhension vidéo au sein des modèles linguistiques multimodaux grâce au raisonnement conscient des cadres | Articles de recherche | HyperAI