HyperAIHyperAI
il y a 2 mois

HACS : Jeu de Données de Clips et de Segments d'Actions Humaines pour la Reconnaissance et la Localisation Temporelle

Hang Zhao; Antonio Torralba; Lorenzo Torresani; Zhicheng Yan
HACS : Jeu de Données de Clips et de Segments d'Actions Humaines pour la Reconnaissance et la Localisation Temporelle
Résumé

Ce document présente un nouveau jeu de données à grande échelle pour la reconnaissance et la localisation temporelle des actions humaines extraites de vidéos Web. Nous l'appelons HACS (Human Action Clips and Segments). Nous exploitons à la fois le consensus et les désaccords parmi les classifieurs visuels pour extraire automatiquement des séquences vidéo candidates courtes à partir de vidéos non étiquetées, qui sont ensuite validées par des annotateurs humains. Le jeu de données résultant est appelé HACS Clips. Par un processus distinct, nous collectons également des annotations définissant les limites des segments d'action. Ce jeu de données résultant est appelé HACS Segments. Dans son ensemble, HACS Clips comprend 1,5 million de séquences vidéo annotées extraites de 504 000 vidéos non coupées, tandis que HACS Segments contient 139 000 segments d'action densément annotés dans 50 000 vidéos non coupées couvrant 200 catégories d'actions. HACS Clips contient plus d'exemples étiquetés que tout autre benchmark vidéo existant. Cela fait de notre jeu de données non seulement un benchmark à grande échelle pour la reconnaissance d'actions, mais aussi une excellente source pour l'apprentissage de caractéristiques spatio-temporelles. Dans nos expériences de transfert sur trois jeux de données cibles, HACS Clips surpassent Kinetics-600, Moments-In-Time et Sports1M en tant que source pré-entraînée. Sur HACS Segments, nous évaluons les méthodes les plus avancées pour la génération de propositions d'actions et la localisation d'actions, et mettons en lumière les nouveaux défis posés par nos annotations temporelles densément réparties.

HACS : Jeu de Données de Clips et de Segments d'Actions Humaines pour la Reconnaissance et la Localisation Temporelle | Articles de recherche récents | HyperAI