Moments in Time Datensatz: eine Million Videos zur Ereignisverstehensförderung

Wir stellen den Moments in Time Datensatz vor, eine umfangreiche menschlich annotierte Sammlung von einer Million kurzer Videos, die dynamische Ereignisse darstellen, die innerhalb von drei Sekunden ablaufen. Die Modellierung der räumlich-akustisch-zeitlichen Dynamik selbst für Aktionen, die in dreisekündigen Videos auftreten, stellt viele Herausforderungen dar: Bedeutsame Ereignisse beinhalten nicht nur Menschen, sondern auch Objekte, Tiere und natürliche Phänomene; visuelle und akustische Ereignisse können zeitlich symmetrisch sein ("Öffnen" ist "Schließen" im Rückwärtslauf), und sowohl flüchtig als auch anhaltend sein. Wir beschreiben den Annotationprozess unseres Datensatzes (jedes Video wird mit einem Aktions- oder Aktivitätslabel aus 339 verschiedenen Klassen versehen), analysieren dessen Umfang und Vielfalt im Vergleich zu anderen großen Video-Datensätzen für Aktionserkennung und berichten über die Ergebnisse mehrerer Basismodelle, die jeweils einzeln und gemeinsam drei Modalitäten adressieren: räumliche, zeitliche und akustische. Der Moments in Time Datensatz, der darauf ausgelegt ist, eine große Abdeckung und Vielfalt von Ereignissen sowohl in der visuellen als auch in der akustischen Modalität zu bieten, kann als neue Herausforderung dienen, um Modelle zu entwickeln, die auf das Niveau an Komplexität und abstraktem Denken skalieren können, das ein Mensch im Alltag verarbeitet.