Apprentissage de correspondances multi-granularité à partir de vidéos bruyantes à long terme

Les études actuelles sur la vidéo et le langage se concentrent principalement sur l'apprentissage de courts extraits vidéo, laissant rarement explorer les dépendances temporelles à long terme en raison du coût computationnel excessivement élevé pour modéliser des vidéos longues. Pour résoudre ce problème, une solution viable consiste à apprendre la correspondance entre les extraits vidéo et les légendes, ce qui rencontre inévitablement le problème de correspondance bruyante à multiples granularités (MNC). Plus précisément, le MNC fait référence au décalage entre les extraits et les paragraphes (granularité grossière) et au décalage entre les images et les mots (granularité fine), entravant l'apprentissage temporel et la compréhension des vidéos. Dans cet article, nous proposons NOise Robust Temporal Optimal traNsport (Norton), qui aborde le MNC dans un cadre unifié d'optimisation du transport (OT). En bref, Norton utilise des pertes contrastives entre la vidéo et le paragraphe ainsi que des pertes contrastives entre l'extrait et la légende pour capturer les dépendances à long terme basées sur OT. Pour traiter le décalage grossier dans le contraste vidéo-paragraphe, Norton filtre les extraits et légendes non pertinents grâce à un bac de prompts alignables et réaligne les paires extrait-légende asynchrones en fonction de la distance de transport. Pour traiter le décalage fin, Norton intègre un opérateur de maximum doux pour identifier les mots clés et les images importantes. De plus, Norton exploite les échantillons négatifs potentiels erronés dans le contraste extrait-légende en corrigeant la cible d'alignement avec l'affectation OT pour garantir une modélisation temporelle précise. Des expériences approfondies sur la recherche de vidéos, VideoQA et la segmentation d'actions confirment l'efficacité de notre méthode. Le code est disponible à l'adresse suivante : https://lin-yijie.github.io/projects/Norton.