HyperAIHyperAI
il y a 17 jours

Propositions d'objets globaux pour améliorer les descriptions vidéo multi-phrases

{Pushpak Bhattacharyya, Sriparna Saha, Chandresh S. Kanani}
Résumé

Depuis quelques années, des progrès significatifs ont été réalisés dans le domaine de la génération de légendes d’images. En revanche, la génération de descriptions vidéo se trouve encore à un stade précoce, principalement en raison de la nature plus complexe des vidéos par rapport aux images. La production de descriptions paragraphe pour une vidéo représente un défi encore plus important. Parmi les principales difficultés figurent les dépendances temporelles entre objets ainsi que les relations complexes entre objets. Récemment, de nombreuses recherches se sont concentrées sur la génération de descriptions vidéo composées de plusieurs phrases. La majorité de ces approches repose sur une méthode en deux étapes : 1) la proposition d’événements, et 2) la génération de légendes. Bien que ces méthodes produisent des résultats satisfaisants, elles négligent l’information disponible de manière globale. Dans cette étude, nous proposons d’intégrer des propositions d’objets globaux lors de la génération des légendes vidéo. Les résultats expérimentaux sur le jeu de données ActivityNet démontrent que l’utilisation de propositions d’objets globaux permet de produire des légendes plus informatives et plus précises. Nous introduisons également trois métriques pour évaluer la capacité de détection d’objets du générateur. Une comparaison qualitative des légendes générées par la méthode proposée et celles des techniques de pointe confirme l’efficacité de notre approche.