HyperAIHyperAI

Command Palette

Search for a command to run...

TriDet : Détection d'actions temporelles avec modélisation des limites relatives

Dingfeng Shi Yujie Zhong Qiong Cao Lin Ma Jia Li Dacheng Tao

Résumé

Dans cet article, nous présentons un cadre à une étape, TriDet, dédié à la détection d’actions temporelles. Les méthodes existantes souffrent souvent de prédictions imprécises des bornes en raison de l’ambiguïté des bornes d’action dans les vidéos. Pour atténuer ce problème, nous proposons une nouvelle architecture appelée Trident-head, qui modélise les bornes d’action à l’aide d’une distribution de probabilité relative estimée autour de la borne. Dans la pyramide de caractéristiques de TriDet, nous introduisons une couche efficace, nommée Perception à Granularité Évolutive (SGP), afin de réduire le problème de perte de rang lié à l’attention auto-associative dans les caractéristiques vidéo, tout en permettant une agrégation d’informations à différentes granularités temporelles. Grâce à l’architecture Trident-head et à la pyramide de caractéristiques basée sur SGP, TriDet atteint des performances de pointe sur trois benchmarks exigeants : THUMOS14, HACS et EPIC-KITCHEN 100, tout en nécessitant des coûts computationnels inférieurs à ceux des méthodes antérieures. Par exemple, TriDet obtient une moyenne de mAP de 69,3%69,3\%69,3% sur THUMOS14, surpassant ainsi la meilleure méthode précédente de 2,5%2,5\%2,5%, tout en n’ayant qu’74,6%74,6\%74,6% de sa latence. Le code source est disponible à l’adresse suivante : https://github.com/sssste/TriDet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp