Command Palette
Search for a command to run...
Moments in Time-Datensatz: eine Million Videos zur Ereignisverstehens
Moments in Time-Datensatz: eine Million Videos zur Ereignisverstehens
Zusammenfassung
Wir stellen den Moments in Time-Datensatz vor, eine großskalige, menschlich annotierte Sammlung aus einer Million kurzer Videos, die dynamische Ereignisse darstellen, die sich innerhalb von drei Sekunden abspielen. Die Modellierung der räumlich-audiointelligenzalen Dynamik – selbst für Aktionen in drei-Sekunden-Videos – birgt zahlreiche Herausforderungen: Bedeutsame Ereignisse umfassen nicht nur Menschen, sondern auch Objekte, Tiere und natürliche Phänomene; visuelle und akustische Ereignisse können zeitlich symmetrisch sein („Öffnen“ ist „Schließen“ rückwärts), und entweder kurzlebig oder anhaltend. Wir beschreiben den Annotierungsprozess unseres Datensatzes (jedes Video wird mit einer einzigen Aktion- oder Aktivitätsbezeichnung aus insgesamt 339 verschiedenen Klassen markiert), analysieren dessen Umfang und Vielfalt im Vergleich zu anderen großskaligen Video-Datensätzen für die Aktionserkennung und präsentieren Ergebnisse mehrerer Basismodelle, die jeweils einzeln und gemeinsam drei Modalitäten untersuchen: räumlich, zeitlich und akustisch. Der Moments in Time-Datensatz, der eine umfassende Abdeckung und Vielfalt an Ereignissen in beiden Modalitäten – visuell und akustisch – aufweist, stellt eine neue Herausforderung dar, um Modelle zu entwickeln, die die Komplexität und abstrakte Schlussfolgerung erreichen, wie sie ein Mensch im Alltag verarbeitet.