il y a 3 mois

Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

Résumé

Des travaux récents ont montré qu’obtenir des grands modèles linguistiques (LLM) une trace de raisonnement en langage naturel avant de répondre à une requête utilisateur peut considérablement améliorer leurs performances sur diverses tâches. Cette approche a été étendue aux LLM multimodaux, capables de produire des chaînes de raisonnement (CoT) concernant le contenu d’images et de vidéos d’entrée. Dans ce travail, nous proposons d’obtenir des modèles vidéo LLM dont les étapes de raisonnement sont ancrées dans, et font explicitement référence à, les trames vidéo pertinentes. Pour cela, nous créons d’abord CoF-Data, un grand jeu de données comprenant des questions diverses, des réponses et des traces de raisonnement ancrées sur les trames vidéo, couvrant à la fois des vidéos naturelles et synthétiques, ainsi que divers sujets et tâches. Ensuite, nous adaptons finement des modèles vidéo LLM existants sur ces données de chaîne de trames (CoF). Notre approche est simple et autonome, et, contrairement aux méthodes existantes pour la CoT vidéo, elle ne nécessite pas de réseaux auxiliaires pour sélectionner ou décrire les trames pertinentes. Nous démontrons que nos modèles basés sur CoF sont capables de générer des chaînes de raisonnement qui font référence avec précision aux trames clés permettant de répondre à la question posée. Cela se traduit par une amélioration des performances sur plusieurs benchmarks d’understanding vidéo, notamment en dépassant les modèles vidéo LLM les plus performants sur Video-MME, MVBench et VSI-Bench, tout en réduisant notablement le taux d’hallucinations. Le code est disponible à l’adresse suivante : [ce lien HTTP].

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Compréhension Vidéo

Réponse À Des Questions Visuelles

Reasoning

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 3 mois

Compréhension Vidéo

Réponse À Des Questions Visuelles

Reasoning

Approche/Framework

Multimodal

Vision Par Ordinateur

Tâche

Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Chaîne de cadres : Progresser dans la compréhension vidéo au sein des modèles linguistiques multimodaux grâce au raisonnement conscient des cadres

Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Chaîne de cadres : Progresser dans la compréhension vidéo au sein des modèles linguistiques multimodaux grâce au raisonnement conscient des cadres

Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Chaîne de cadres : Progresser dans la compréhension vidéo au sein des modèles linguistiques multimodaux grâce au raisonnement conscient des cadres

Sara Ghazanfari Francesco Croce Nicolas Flammarion Prashanth Krishnamurthy Farshad Khorrami Siddharth Garg

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters