HyperAIHyperAI
il y a 2 mois

Détection d'événements temporellement précis et à grain fin dans les vidéos

Hong, James ; Zhang, Haotian ; Gharbi, Michaël ; Fisher, Matthew ; Fatahalian, Kayvon
Détection d'événements temporellement précis et à grain fin dans les vidéos
Résumé

Nous présentons la tâche de détection d'événements temporellement précis et fins dans les vidéos (consistant à identifier le moment exact où ces événements se produisent). La détection précise nécessite que les modèles raisonnent globalement sur l'échelle temporelle complète des actions et localement pour identifier les subtiles différences d'apparence et de mouvement entre les images qui permettent de repérer les événements au cours de ces actions. De manière surprenante, nous constatons que les solutions les plus performantes aux tâches précédentes de compréhension vidéo, telles que la détection et la segmentation d'actions, ne remplissent pas simultanément ces deux exigences. En réponse, nous proposons E2E-Spot, un modèle compact et intégré de bout en bout qui se distingue dans la tâche de détection précise et peut être formé rapidement sur une seule GPU. Nous montrons que E2E-Spot surpasse significativement les baselines récentes adaptées de la littérature sur la détection, la segmentation et la détection d'actions vidéo à la tâche de détection précise. Enfin, nous contribuons à l'ajout de nouvelles annotations et divisions à plusieurs jeux de données d'actions sportives fines afin de rendre ces jeux de données appropriés pour des travaux futurs sur la détection précise.

Détection d'événements temporellement précis et à grain fin dans les vidéos | Articles de recherche récents | HyperAI