HyperAIHyperAI

Command Palette

Search for a command to run...

Grounding temporel de phrases faiblement supervisé avec apprentissage contrastif des propositions basé sur une distribution gaussienne

Yang Liu Yuxin Peng Qingchao Chen Yanjie Huang Minghang Zheng

Résumé

Le repérage temporel de phrases vise à détecter le moment le plus pertinent correspondant à une requête en langage naturel à partir de vidéos non coupées. Étant donné que l’étiquetage des bornes temporelles est fastidieux et subjectif, les méthodes faiblement supervisées ont récemment suscité un intérêt croissant. La plupart des méthodes existantes à faible supervision génèrent des propositions par glissement de fenêtres, qui sont indépendantes du contenu et de qualité médiocre. En outre, elles entraînent leur modèle à distinguer les paires visuelles-langage positives des négatives, aléatoirement collectées à partir d’autres vidéos, négligeant ainsi les segments vidéo fortement confus présents au sein de la même vidéo. Dans cet article, nous proposons une méthode appelée Apprentissage par contraste de propositions (Contrastive Proposal Learning, CPL) afin de surmonter ces limitations. Plus précisément, nous utilisons plusieurs fonctions gaussiennes apprenables pour générer à la fois des propositions positives et négatives au sein de la même vidéo, permettant ainsi de caractériser les multiples événements présents dans une vidéo longue. Ensuite, nous introduisons une stratégie contrôlable d’extraction de propositions négatives de difficulté croissante (easy to hard negative proposal mining), qui permet de collecter des exemples négatifs au sein de la même vidéo, facilitant ainsi l’optimisation du modèle et permettant à CPL de distinguer efficacement des scènes fortement ambiguës. Les expériences montrent que notre méthode atteint des performances de pointe sur les jeux de données Charades-STA et ActivityNet Captions. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/minghangz/cpl.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Grounding temporel de phrases faiblement supervisé avec apprentissage contrastif des propositions basé sur une distribution gaussienne | Articles | HyperAI