HyperAIHyperAI
il y a 2 mois

GateHUB : Unité d’Historique Gérée avec Suppression de Fond pour la Détection d’Actions en Ligne

Junwen Chen; Gaurav Mittal; Ye Yu; Yu Kong; Mei Chen
GateHUB : Unité d’Historique Gérée avec Suppression de Fond pour la Détection d’Actions en Ligne
Résumé

La détection d'actions en ligne consiste à prédire l'action dès qu'elle se produit dans une vidéo en flux continu. Un défi majeur est que le modèle n'a pas accès au futur et doit uniquement s'appuyer sur l'historique, c'est-à-dire les images observées jusqu'à présent, pour faire des prédictions. Il est donc crucial de mettre l'accent sur les parties de l'historique qui sont plus informatives pour la prédiction du cadre actuel. Nous présentons GateHUB, une unité historique avec suppression de l'arrière-plan (Gated History Unit with Background Suppression), qui intègre un mécanisme d'attention croisée guidée par la position novateur pour améliorer ou supprimer des parties de l'historique selon leur pertinence pour la prédiction du cadre actuel. GateHUB propose également l'Histoire augmentée par le Futur (Future-augmented History, FaH) afin de rendre les caractéristiques historiques plus informatives en utilisant les images observées ultérieurement lorsque celles-ci sont disponibles. Dans un cadre unifié unique, GateHUB combine la capacité du transformateur à modéliser les relations temporelles à long terme et celle du modèle récurrent à encoder sélectivement les informations pertinentes. GateHUB introduit également un objectif de suppression de l'arrière-plan pour atténuer davantage les faux positifs liés aux cadres d'arrière-plan qui ressemblent étroitement aux cadres d'action. Une validation approfondie sur trois jeux de données de référence, THUMOS, TVSeries et HDD, montre que GateHUB surpasse significativement toutes les méthodes existantes et est également plus efficace que le meilleur travail actuel. De plus, une version sans flux optique de GateHUB est capable d'atteindre une précision supérieure ou similaire à un taux d'images 2,8 fois plus élevé comparativement à toutes les méthodes existantes nécessitant à la fois des informations RGB et optiques pour la prédiction.

GateHUB : Unité d’Historique Gérée avec Suppression de Fond pour la Détection d’Actions en Ligne | Articles de recherche récents | HyperAI