HyperAIHyperAI
il y a 2 mois

Comptage d'actions répétitives avec modélisation hybride des relations temporelles

Kun Li; Xinge Peng; Dan Guo; Xun Yang; Meng Wang
Comptage d'actions répétitives avec modélisation hybride des relations temporelles
Résumé

Le comptage d'actions répétitives (Repetitive Action Counting, RAC) vise à dénombrer le nombre d'actions répétitives se produisant dans des vidéos. Dans le monde réel, les actions répétitives présentent une grande diversité et posent de nombreux défis (par exemple, changements de point de vue, périodes non uniformes et interruptions d'actions). Les méthodes existantes basées sur la matrice d'autosimilarité temporelle (Temporal Self-Similarity Matrix, TSSM) pour le RAC sont confrontées à un goulot d'étranglement en termes de capture insuffisante des périodes d'action lorsqu'elles sont appliquées à des vidéos quotidiennes complexes. Pour résoudre ce problème, nous proposons une nouvelle méthode nommée Réseau de Modélisation des Relations Temporelles Hybrides (Hybrid Temporal Relation Modeling Network, HTRM-Net) afin de construire des TSSM variées pour le RAC.L'HTRM-Net est principalement composé de trois éléments clés : la modélisation de la matrice d'autosimilarité temporelle bimodale, l'élimination aléatoire de matrices et la modélisation du contexte temporel local. Plus précisément, nous construisons des matrices d'autosimilarité temporelle par des opérations bimodales (auto-attention et double softmax), générant ainsi des représentations matricielles diversifiées issues de la combinaison des corrélations ligne par ligne et colonne par colonne. Pour améliorer davantage ces représentations matricielles, nous proposons l'intégration d'un module d'élimination aléatoire de matrices afin de guider explicitement l'apprentissage canal par canal de la matrice.Ensuite, nous intégrons le contexte temporel local des images vidéo et la matrice apprise dans la modélisation des corrélations temporelles, ce qui permet au modèle d'être suffisamment robuste pour faire face aux situations sujettes aux erreurs, telles que les interruptions d'actions. Enfin, un module de fusion multi-échelle est conçu pour agréger les corrélations temporelles de manière adaptative dans des matrices multi-échelle.Des expériences approfondies sur différents jeux de données internes et externes montrent que la méthode proposée non seulement surpasse les méthodes actuelles les plus performantes mais également présente une capacité robuste à compter avec précision les actions répétitives dans des catégories d'actions inconnues. Il convient de souligner que notre méthode dépasse la méthode classique TransRAC de 20,04 % en erreur absolue moyenne (Mean Absolute Error, MAE) et de 22,76 % en exactitude objet par objet (Object-by-Object accuracy, OBO).