HyperAIHyperAI
il y a 16 jours

TriDet : Détection d'actions temporelles avec modélisation des limites relatives

Dingfeng Shi, Yujie Zhong, Qiong Cao, Lin Ma, Jia Li, Dacheng Tao
TriDet : Détection d'actions temporelles avec modélisation des limites relatives
Résumé

Dans cet article, nous présentons un cadre à une étape, TriDet, dédié à la détection d’actions temporelles. Les méthodes existantes souffrent souvent de prédictions imprécises des bornes en raison de l’ambiguïté des bornes d’action dans les vidéos. Pour atténuer ce problème, nous proposons une nouvelle architecture appelée Trident-head, qui modélise les bornes d’action à l’aide d’une distribution de probabilité relative estimée autour de la borne. Dans la pyramide de caractéristiques de TriDet, nous introduisons une couche efficace, nommée Perception à Granularité Évolutive (SGP), afin de réduire le problème de perte de rang lié à l’attention auto-associative dans les caractéristiques vidéo, tout en permettant une agrégation d’informations à différentes granularités temporelles. Grâce à l’architecture Trident-head et à la pyramide de caractéristiques basée sur SGP, TriDet atteint des performances de pointe sur trois benchmarks exigeants : THUMOS14, HACS et EPIC-KITCHEN 100, tout en nécessitant des coûts computationnels inférieurs à ceux des méthodes antérieures. Par exemple, TriDet obtient une moyenne de mAP de $69,3\%$ sur THUMOS14, surpassant ainsi la meilleure méthode précédente de $2,5\%$, tout en n’ayant qu’$74,6\%$ de sa latence. Le code source est disponible à l’adresse suivante : https://github.com/sssste/TriDet.

TriDet : Détection d'actions temporelles avec modélisation des limites relatives | Articles de recherche récents | HyperAI