il y a 2 mois

Moments in Time Dataset : un million de vidéos pour la compréhension des événements

Monfort, Mathew ; Andonian, Alex ; Zhou, Bolei ; Ramakrishnan, Kandan ; Bargal, Sarah Adel ; Yan, Tom ; Brown, Lisa ; Fan, Quanfu ; Gutfruend, Dan ; Vondrick, Carl ; Oliva, Aude

Voir les détails de l'article

Moments in Time Dataset : un million de vidéos pour la compréhension des événements

Résumé

Nous présentons le Moments in Time Dataset, une vaste collection de vidéos annotées par des humains comprenant un million de courts extraits vidéo correspondant à des événements dynamiques se déroulant en trois secondes. La modélisation des dynamiques spatiales, audio et temporelles, même pour des actions se produisant dans des vidéos de trois secondes, soulève de nombreux défis : les événements significatifs ne concernent pas seulement les personnes, mais également les objets, les animaux et les phénomènes naturels ; les événements visuels et auditifs peuvent être symétriques dans le temps (« ouvrir » est l'« inverse de fermer »), et être soit transitoires, soit durables. Nous décrivons le processus d'annotation de notre dataset (chaque vidéo est étiquetée avec une action ou une activité parmi 339 classes différentes), analysons son ampleur et sa diversité en comparaison d'autres grands datasets vidéo pour la reconnaissance d'actions, et rapportons les résultats de plusieurs modèles de référence abordant séparément et conjointement trois modalités : spatiale, temporelle et auditive. Le Moments in Time dataset, conçu pour offrir une grande couverture et diversité d'événements dans les modalités visuelle et auditive, peut servir de nouveau défi pour développer des modèles capables d'atteindre le niveau de complexité et de raisonnement abstrait que l'être humain traite quotidiennement.