il y a 8 mois

Résumé

La détection de moments saillants et la récupération temporelle (HD/MR) sont essentielles dans l'analyse vidéo. Les modèles de prédiction conjointe basés sur les transformers récents négligent souvent leurs dynamiques inter-tâches ainsi que l'alignement et le raffinement vidéo-texte. De plus, la plupart des modèles utilisent généralement des mécanismes d'attention limités et unidirectionnels, entraînant des représentations faiblement intégrées et des performances sous-optimales pour capturer l'interdépendance entre les modalités vidéo et texte. Bien que les grands modèles linguistiques et les modèles linguistiques-vision (LLM/LVLMs) aient gagné en importance dans divers domaines, leur application dans ce domaine reste relativement peu explorée. Nous proposons ici VideoLights, un nouveau cadre HD/MR qui aborde ces limitations grâce à : (i) des modules de projection convolutive et de raffinement des caractéristiques avec une perte d'alignement pour une meilleure correspondance entre les caractéristiques vidéo et texte, (ii) un réseau de fusion inter-modale bidirectionnelle pour des représentations de clips fortement couplées et sensibles aux requêtes, (iii) un mécanisme de rétroaction conjointe unidirectionnel améliorant les deux tâches par corrélation. En outre, (iv) nous introduisons des pertes positives/négatives difficiles pour une pénalisation d'erreur adaptative et une meilleure apprentissage, et (v) nous exploitons des LVLMs comme BLIP-2 pour une intégration améliorée des caractéristiques multimodales et un pré-apprentissage intelligent à partir de données synthétiques générées par les LVLMs. Des expériences approfondies sur les benchmarks QVHighlights, TVSum et Charades-STA montrent des performances de pointe. Les codes source et les modèles sont disponibles à l'adresse suivante : https://github.com/dpaul06/VideoLights .

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Apprentissage Multi-tâches

Représentation Multimodale

Approche/Framework

Multimodal

Tâche

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Multimodal

Apprentissage Multi-tâches

Représentation Multimodale

Approche/Framework

Multimodal

Tâche

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

VideoLights : Réfinement des caractéristiques et alignement trans-tâches par un transformateur pour la détection conjointe des moments forts vidéo et la recherche de moments

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VideoLights : Réfinement des caractéristiques et alignement trans-tâches par un transformateur pour la détection conjointe des moments forts vidéo et la recherche de moments

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

VideoLights : Réfinement des caractéristiques et alignement trans-tâches par un transformateur pour la détection conjointe des moments forts vidéo et la recherche de moments

Dhiman Paul Md Rizwan Parvez Nabeel Mohammed Shafin Rahman

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters