Command Palette
Search for a command to run...
Chaîne de cadres : Progresser dans la compréhension vidéo au sein des modèles linguistiques multimodaux grâce au raisonnement conscient des cadres
Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

Résumé
Des travaux récents ont montré qu’obtenir des grands modèles linguistiques (LLM) une trace de raisonnement en langage naturel avant de répondre à une requête utilisateur peut considérablement améliorer leurs performances sur diverses tâches. Cette approche a été étendue aux LLM multimodaux, capables de produire des chaînes de raisonnement (CoT) concernant le contenu d’images et de vidéos d’entrée. Dans ce travail, nous proposons d’obtenir des modèles vidéo LLM dont les étapes de raisonnement sont ancrées dans, et font explicitement référence à, les trames vidéo pertinentes. Pour cela, nous créons d’abord CoF-Data, un grand jeu de données comprenant des questions diverses, des réponses et des traces de raisonnement ancrées sur les trames vidéo, couvrant à la fois des vidéos naturelles et synthétiques, ainsi que divers sujets et tâches. Ensuite, nous adaptons finement des modèles vidéo LLM existants sur ces données de chaîne de trames (CoF). Notre approche est simple et autonome, et, contrairement aux méthodes existantes pour la CoT vidéo, elle ne nécessite pas de réseaux auxiliaires pour sélectionner ou décrire les trames pertinentes. Nous démontrons que nos modèles basés sur CoF sont capables de générer des chaînes de raisonnement qui font référence avec précision aux trames clés permettant de répondre à la question posée. Cela se traduit par une amélioration des performances sur plusieurs benchmarks d’understanding vidéo, notamment en dépassant les modèles vidéo LLM les plus performants sur Video-MME, MVBench et VSI-Bench, tout en réduisant notablement le taux d’hallucinations. Le code est disponible à l’adresse suivante : [ce lien HTTP].
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.