YouTube-8M: Eine umfangreiche Video-Klassifikations-Benchmark

Viele kürzliche Fortschritte im Bereich der Computer Vision lassen sich großen Datensätzen zuschreiben. Offene Softwarepakete für maschinelles Lernen und kostengünstige Komponentenhardware haben die Schwelle zum Erkunden neuer Ansätze in großem Maßstab gesenkt. Es ist möglich, Modelle innerhalb weniger Tage mit Millionen von Beispielen zu trainieren. Obwohl es große Datensätze zur Bildanalyse wie ImageNet gibt, existieren keine vergleichbar großen Video-Klassifikationsdatensätze.In dieser Arbeit stellen wir YouTube-8M vor, den größten multilabel-Videoklassifikationsdatensatz, der aus etwa 8 Millionen Videos (500.000 Stunden Videomaterial) besteht und mit einem Vokabular von 4800 visuellen Entitäten annotiert wurde. Um die Videos und ihre Labels zu erhalten, nutzten wir ein YouTube-Videos-Annotationsystem, das Videos mit ihren Hauptthemen beschriftet. Obwohl die Labels maschinell generiert wurden, sind sie präzise und stammen aus verschiedenen menschenbasierten Signalen, einschließlich Metadaten und Suchanfrageklicks. Wir filterten die Video-Labels (Knowledge Graph-Entitäten) sowohl durch automatisierte als auch manuelle Curation-Strategien, darunter die Befragung menschlicher Bewertender, ob die Labels visuell erkennbar sind. Anschließend dekodierten wir jedes Video mit einer Geschwindigkeit von einer Sekunde pro Frame und extrahierten mithilfe eines auf ImageNet vortrainierten tiefen CNNs die verborgene Darstellung direkt vor der Klassifizierungsschicht. Schließlich komprimierten wir die Frame-Features und stellen sowohl die Features als auch die Video-Level-Labels zum Download bereit.Wir trainierten verschiedene (modeste) Klassifikationsmodelle auf dem Datensatz, evaluierten sie anhand gängiger Evaluationsmetriken und dokumentieren diese als Baseline-Ergebnisse. Trotz der Größe des Datensatzes konvergieren einige unserer Modelle in weniger als einem Tag auf einem einzelnen Rechner unter Verwendung von TensorFlow. Wir planen, Code für das Trainieren eines TensorFlow-Modells sowie für das Berechnen von Metriken freizugeben.