HyperAIHyperAI

Command Palette

Search for a command to run...

Échantillons Négatifs Importants : Une Renaissance de l'Apprentissage par Métrique pour le Positionnement Temporel

Zhenzhi Wang Limin Wang* Tao Wu Tianhao Li Gangshan Wu

Résumé

L'ancrage temporel vise à localiser un moment vidéo qui est sémantiquement aligné avec une requête en langage naturel donnée. Les méthodes existantes appliquent généralement un pipeline de détection ou de régression sur la représentation fusionnée, avec un accent mis sur la conception de têtes de prédiction complexes ou de stratégies de fusion. À la place, en considérant l'ancrage temporel comme un problème d'apprentissage par métrique, nous présentons un Réseau de Correspondance Mutuelle (Mutual Matching Network - MMN) pour modéliser directement la similarité entre les requêtes linguistiques et les moments vidéo dans un espace d'embedding conjoint. Ce nouveau cadre d'apprentissage par métrique permet d'exploiter pleinement les échantillons négatifs sous deux nouveaux angles : la construction de paires inter-modales négatives dans un schéma de correspondance mutuelle et l'extraction de paires négatives à travers différentes vidéos. Ces nouveaux échantillons négatifs peuvent améliorer l'apprentissage des représentations conjointes des deux modalités en maximisant leur information mutuelle grâce à la correspondance mutuelle inter-modale. Les expériences montrent que notre MMN atteint des performances hautement compétitives par rapport aux méthodes les plus avancées sur quatre benchmarks d'ancrage vidéo. Sur la base du MMN, nous présentons une solution gagnante pour le défi HC-STVG du 3ème atelier PIC. Cela suggère que l'apprentissage par métrique reste une méthode prometteuse pour l'ancrage temporel en capturant la corrélation inter-modale essentielle dans un espace d'embedding conjoint. Le code est disponible à l'adresse suivante : https://github.com/MCG-NJU/MMN.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp