HyperAIHyperAI
il y a 2 mois

UniMD : Vers l'unification de la recherche de moments et de la détection d'actions temporelles

Zeng, Yingsen ; Zhong, Yujie ; Feng, Chengjian ; Ma, Lin
UniMD : Vers l'unification de la recherche de moments et de la détection d'actions temporelles
Résumé

La détection d'actions temporelles (TAD) se concentre sur la détection d'actions prédéfinies, tandis que la recherche de moments (MR) vise à identifier les événements décrits par des phrases naturelles ouvertes au sein de vidéos non tronquées. Bien qu'elles se concentrent sur des événements différents, nous observons qu'elles présentent une connexion significative. Par exemple, la plupart des descriptions dans le MR impliquent plusieurs actions issues du TAD. Dans cet article, nous visons à examiner le potentiel synergie entre TAD et MR. Premièrement, nous proposons une architecture unifiée, appelée Détection Unifiée de Moments (UniMD), pour les deux tâches TAD et MR. Cette architecture transforme les entrées des deux tâches, à savoir les actions pour TAD ou les événements pour MR, en un espace d'embedding commun, et utilise deux décodeurs dépendants des requêtes novateurs pour générer une sortie uniforme comprenant des scores de classification et des segments temporels. Deuxièmement, nous explorons l'efficacité de deux approches d'apprentissage par fusion de tâches, l'apprentissage préalable (pre-training) et l'apprentissage conjoint (co-training), afin d'améliorer les avantages mutuels entre TAD et MR. Des expériences approfondies montrent que le schéma proposé d'apprentissage par fusion de tâches permet aux deux tâches de s'aider mutuellement et de surpasser leurs homologues formés séparément. De manière impressionnante, UniMD obtient des résultats de pointe sur trois jeux de données couplés : Ego4D, Charades-STA et ActivityNet. Notre code est disponible à l'adresse suivante : https://github.com/yingsen1/UniMD.

UniMD : Vers l'unification de la recherche de moments et de la détection d'actions temporelles | Articles de recherche récents | HyperAI