HyperAIHyperAI
il y a 2 mois

D3G : Exploration de la loi normale a priori pour l'ancrage temporel des phrases avec annotation rapide

Hanjun Li; Xiujun Shu; Sunan He; Ruizhi Qiao; Wei Wen; Taian Guo; Bei Gan; Xing Sun
D3G : Exploration de la loi normale a priori pour l'ancrage temporel des phrases avec annotation rapide
Résumé

L'ancrage temporel de phrases (TSG) vise à localiser un moment spécifique dans une vidéo non tronquée à partir d'une requête en langage naturel donnée. Récemment, les méthodes faiblement supervisées présentent encore un écart de performance important par rapport aux méthodes entièrement supervisées, qui nécessitent des annotations de timestamps fastidieuses. Dans cette étude, nous visons à réduire le coût d'annotation tout en maintenant une performance compétitive pour la tâche TSG, comparable à celle des méthodes entièrement supervisées. Pour atteindre cet objectif, nous examinons une tâche d'ancrage temporel de phrases récemment proposée et supervisée par des coups d'œil, qui ne nécessite qu'une annotation de cadre unique (appelée annotation par coup d'œil) pour chaque requête. Dans ce cadre, nous proposons un modèle d'ancrage temporel basé sur une loi normale dynamique avec annotation par coup d'œil (D3G), composé d'un module d'apprentissage contrastif par groupe d'alignement sémantique (SA-GCL) et d'un module d'ajustement de la loi normale dynamique (DGA). Plus précisément, le SA-GCL sélectionne des moments positifs fiables à partir d'une carte temporelle 2D en utilisant conjointement la loi normale a priori et la cohérence sémantique, contribuant ainsi à l'alignement des paires phrase-moment positives dans l'espace d'embedding conjoint. De plus, pour atténuer le biais d'annotation résultant de l'annotation par coup d'œil et modéliser des requêtes complexes composées de plusieurs événements, nous proposons le module DGA, qui ajuste la distribution dynamiquement pour approcher la vérité terrain des moments cibles. Des expériences approfondies sur trois benchmarks difficiles ont vérifié l'efficacité du D3G proposé. Il surpass largement les méthodes faiblement supervisées les plus avancées et réduit l'écart de performance par rapport aux méthodes entièrement supervisées. Le code est disponible sur https://github.com/solicucu/D3G.

D3G : Exploration de la loi normale a priori pour l'ancrage temporel des phrases avec annotation rapide | Articles de recherche récents | HyperAI