HyperAIHyperAI
il y a 11 jours

W2VV++ : Apprentissage profond intégral pour la recherche vidéo ad hoc

{Xirong Li; Chaoxi Xu; Gang Yang; Zhineng Chen; Jianfeng Dong}
Résumé

La recherche vidéo ad hoc (AVS) constitue un problème important mais difficile dans le domaine du traitement multimédia. Contrairement aux méthodes précédentes fondées sur des concepts, nous proposons une méthode d’apprentissage profond end-to-end pour l’apprentissage de représentations de requêtes. La méthode proposée ne nécessite ni modélisation de concepts, ni étape de correspondance ni sélection. Le cœur de notre approche repose sur le modèle W2VV++, une version améliorée du modèle Word2VisualVec (W2VV) précédemment développé pour la correspondance visuelle-textuelle. Le W2VV++ est obtenu en ajustant le W2VV grâce à une stratégie d’encodage de phrases améliorée et à une perte de classement triplet optimisée. Grâce à ces modifications simples, le W2VV++ permet une amélioration significative des performances. Comme le montrent notre participation à la tâche AVS du TRECVID 2018 ainsi que des expérimentations rétrospectives sur les données TRECVID 2016 et 2017, notre meilleur modèle individuel, atteignant une précision moyenne inférée (infAP) globale de 0,157, dépasse les méthodes de pointe. Cette performance peut être encore améliorée par l’ensemblage de modèles via une fusion par moyennage tardif, atteignant ainsi un infAP supérieur de 0,163. Grâce au W2VV++, nous établissons une nouvelle référence pour la recherche vidéo ad hoc.

W2VV++ : Apprentissage profond intégral pour la recherche vidéo ad hoc | Articles de recherche récents | HyperAI