Command Palette
Search for a command to run...
Jeux de données Moments in Time : un million de vidéos pour la compréhension des événements
Jeux de données Moments in Time : un million de vidéos pour la compréhension des événements
Résumé
Nous présentons le jeu de données Moments in Time, une vaste collection annotée par des humains comprenant un million de courtes vidéos correspondant à des événements dynamiques se déroulant sur une durée de trois secondes. La modélisation des dynamiques spatiales, auditives et temporelles, même pour des actions se produisant dans des vidéos de trois secondes, soulève de nombreux défis : les événements significatifs ne concernent pas uniquement les êtres humains, mais aussi des objets, des animaux et des phénomènes naturels ; les événements visuels et auditifs peuvent être symétriques dans le temps (« ouverture » est l’inverse de « fermeture »), et être soit transitoires, soit prolongés. Nous décrivons le processus d’annotation de notre jeu de données (chaque vidéo est étiquetée avec une seule étiquette d’action ou d’activité parmi 339 classes différentes), analysons son ampleur et sa diversité par rapport à d’autres grands jeux de données vidéo destinés à la reconnaissance d’actions, et présentons les résultats de plusieurs modèles de base traitant séparément, puis conjointement, les trois modalités : spatiale, temporelle et auditive. Le jeu de données Moments in Time, conçu pour couvrir de manière étendue et diversifiée les événements dans les modalités visuelle et auditive, constitue un nouveau défi pour le développement de modèles capables de faire face à un niveau de complexité et de raisonnement abstrait comparable à celui que l’être humain traite quotidiennement.