il y a 6 mois

Résumé

La compréhension des vidéos longues constitue un défi majeur en vision par ordinateur, exigeant un modèle capable de raisonner sur des séquences longues et multimodales. Inspirés du processus cognitif humain de compréhension des vidéos longues, nous mettons l’accent sur le raisonnement interactif et la planification, plutôt que sur la simple capacité à traiter des entrées visuelles longues. Nous introduisons un nouveau système basé sur des agents, appelé VideoAgent, qui utilise un grand modèle linguistique comme agent central pour identifier de manière itérative et compiler les informations essentielles afin de répondre à une question, les modèles fondamentaux multimodaux vision-langage servant de outils pour traduire et extraire les informations visuelles. Évalué sur les défis EgoSchema et NExT-QA, VideoAgent atteint des taux de précision zéro-shot de 54,1 % et 71,3 %, en utilisant en moyenne seulement 8,4 et 8,2 images respectivement. Ces résultats démontrent une efficacité et une efficience supérieures par rapport aux méthodes de pointe actuelles, soulignant le potentiel des approches basées sur les agents pour faire progresser la compréhension des vidéos longues.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Vision Par Ordinateur

Tâche

Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

il y a 6 mois

Vision Par Ordinateur

Tâche

Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

VideoAgent : Compréhension vidéo à long format avec un Modèle de Langage Énorme agissant comme un Agent | Articles | HyperAI

Command Palette

VideoAgent : Compréhension vidéo à long format avec un Modèle de Langage Énorme agissant comme un Agent

Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VideoAgent : Compréhension vidéo à long format avec un Modèle de Langage Énorme agissant comme un Agent

Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VideoAgent : Compréhension vidéo à long format avec un Modèle de Langage Énorme agissant comme un Agent

Xiaohan Wang Yuhui Zhang Orr Zohar Serena Yeung-Levy

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters