HyperAIHyperAI
il y a 2 mois

VideoLights : Réfinement des caractéristiques et alignement trans-tâches par un transformateur pour la détection conjointe des moments forts vidéo et la recherche de moments

Dhiman Paul, Md Rizwan Parvez, Nabeel Mohammed, Shafin Rahman
VideoLights : Réfinement des caractéristiques et alignement trans-tâches par un transformateur pour la détection conjointe des moments forts vidéo et la recherche de moments
Résumé

La détection de moments saillants et la récupération temporelle (HD/MR) sont essentielles dans l'analyse vidéo. Les modèles de prédiction conjointe basés sur les transformers récents négligent souvent leurs dynamiques inter-tâches ainsi que l'alignement et le raffinement vidéo-texte. De plus, la plupart des modèles utilisent généralement des mécanismes d'attention limités et unidirectionnels, entraînant des représentations faiblement intégrées et des performances sous-optimales pour capturer l'interdépendance entre les modalités vidéo et texte. Bien que les grands modèles linguistiques et les modèles linguistiques-vision (LLM/LVLMs) aient gagné en importance dans divers domaines, leur application dans ce domaine reste relativement peu explorée. Nous proposons ici VideoLights, un nouveau cadre HD/MR qui aborde ces limitations grâce à : (i) des modules de projection convolutive et de raffinement des caractéristiques avec une perte d'alignement pour une meilleure correspondance entre les caractéristiques vidéo et texte, (ii) un réseau de fusion inter-modale bidirectionnelle pour des représentations de clips fortement couplées et sensibles aux requêtes, (iii) un mécanisme de rétroaction conjointe unidirectionnel améliorant les deux tâches par corrélation. En outre, (iv) nous introduisons des pertes positives/négatives difficiles pour une pénalisation d'erreur adaptative et une meilleure apprentissage, et (v) nous exploitons des LVLMs comme BLIP-2 pour une intégration améliorée des caractéristiques multimodales et un pré-apprentissage intelligent à partir de données synthétiques générées par les LVLMs. Des expériences approfondies sur les benchmarks QVHighlights, TVSum et Charades-STA montrent des performances de pointe. Les codes source et les modèles sont disponibles à l'adresse suivante : https://github.com/dpaul06/VideoLights .

VideoLights : Réfinement des caractéristiques et alignement trans-tâches par un transformateur pour la détection conjointe des moments forts vidéo et la recherche de moments | Articles de recherche récents | HyperAI