il y a 8 mois

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Résumé

Une courte séquence vidéo peut contenir le déroulement de plusieurs événements et une intrigue intéressante. Un être humain doit saisir à la fois l'événement dans chaque plan et les associer pour comprendre l'histoire qui se cache derrière. Dans ce travail, nous présentons un nouveau benchmark d'interprétation vidéo multi-plan, Shot2Story, doté de légendes détaillées au niveau des plans, de résumés vidéo complets et de paires questions-réponses. Pour faciliter une meilleure compréhension sémantique des vidéos, nous fournissons des légendes pour les signaux visuels ainsi que pour les narrations humaines. Nous avons conçu plusieurs tâches distinctes, incluant la légendage de vidéos mono-plan, la synthèse de vidéos multi-plans et l'interrogation sur des vidéos multi-plans. Les expériences préliminaires montrent certaines difficultés à générer un résumé long et complet pour les vidéos multi-plans. Néanmoins, les résumés imparfaits générés peuvent déjà obtenir des performances compétitives sur des tâches existantes d'interprétation vidéo telles que l'interrogation sur des vidéos, favorisant un cadre sous-exploité d'interprétation vidéo avec des résumés détaillés.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Video Captioning

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Compréhension Vidéo

Video Captioning

Réponse À Des Questions Visuelles

Multimodal

Vision Par Ordinateur

Tâche

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

Shot2Story : Un Nouveau Jalon pour la Compréhension Complète des Vidéos à Plusieurs Plans

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Shot2Story : Un Nouveau Jalon pour la Compréhension Complète des Vidéos à Plusieurs Plans

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Shot2Story : Un Nouveau Jalon pour la Compréhension Complète des Vidéos à Plusieurs Plans

Mingfei Han extsuperscript2,3,5 extsuperscript† Linjie Yang extsuperscript1 extsuperscript† Xiaojun Chang extsuperscript3,4 Lina Yao extsuperscript5 Heng Wang extsuperscript1

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters