HyperAIHyperAI
il y a 11 jours

ReAct : Détection d'actions temporelles avec des requêtes relationnelles

Dingfeng Shi, Yujie Zhong, Qiong Cao, Jing Zhang, Lin Ma, Jia Li, Dacheng Tao
ReAct : Détection d'actions temporelles avec des requêtes relationnelles
Résumé

Ce travail vise à améliorer la détection d’actions temporelles (TAD) en utilisant un cadre encodeur-décodeur basé sur des requêtes d’actions, similaire à DETR, qui a démontré un succès remarquable en détection d’objets. Toutefois, ce cadre présente plusieurs limitations lorsqu’il est directement appliqué à la TAD : une exploration insuffisante des relations entre requêtes dans le décoder, une formation classificatrice inadéquate due à un nombre limité d’échantillons d’entraînement, ainsi que des scores classificateurs peu fiables lors de l’inférence. Afin de surmonter ces défis, nous proposons tout d’abord un mécanisme d’attention relationnelle dans le décoder, qui guide l’attention entre les requêtes en fonction de leurs relations mutuelles. Par ailleurs, nous introduisons deux fonctions de perte afin de faciliter et stabiliser l’entraînement de la classification des actions. Enfin, nous proposons de prédire, lors de l’inférence, la qualité de localisation associée à chaque requête d’action, afin de distinguer les requêtes de haute qualité. La méthode proposée, nommée ReAct, atteint un état de l’art sur le jeu de données THUMOS14, tout en nécessitant des coûts computationnels bien inférieurs à ceux des méthodes précédentes. En outre, des études d’ablation étendues sont menées afin de valider l’efficacité de chaque composant proposé. Le code est disponible à l’adresse suivante : https://github.com/sssste/React.

ReAct : Détection d'actions temporelles avec des requêtes relationnelles | Articles de recherche récents | HyperAI