Omni-sourced Webly-supervised Learning für die Videoerkennung

Wir stellen OmniSource vor, einen neuartigen Rahmen für die Nutzung von Web-Daten zur Schulung von Videorekognitionssystemen. OmniSource überwindet die Barrieren zwischen verschiedenen Datenformaten – wie Bildern, kurzen Videos und langen ungeschnittenen Videos – im Kontext webbasiert überwachtem Lernen. Zunächst werden Datensamples mit mehreren Formaten, die durch aufgabenbezogene Datensammlung erfasst und automatisch durch ein Lehrmodell gefiltert wurden, in eine einheitliche Form transformiert. Anschließend wird eine gemeinsame Trainingsstrategie vorgeschlagen, um die Domänenunterschiede zwischen mehreren Datensourcen und -formaten im webbasiert überwachten Lernen zu bewältigen. In der gemeinsamen Ausbildung werden mehrere bewährte Praktiken eingesetzt, darunter Datenausgleich, Wiederholungsstichprobenauswahl (resampling) sowie Cross-Dataset-Mixup. Experimente zeigen, dass die Nutzung von Daten aus mehreren Quellen und Formaten die Dateneffizienz bei der Schulung erheblich steigert. Mit lediglich 3,5 Millionen Bildern und 800.000 Minuten an Videos, die aus dem Internet ohne menschliche Beschriftung abgerufen wurden (weniger als 2 % des Umfangs früherer Arbeiten), erreichen unsere mit OmniSource trainierten Modelle eine Verbesserung der Top-1-Accuracy um 3,0 % bei 2D- und 3,9 % bei 3D-ConvNet-Baselines auf dem Kinetics-400-Benchmark. Mit OmniSource etablieren wir neue Rekorde unter verschiedenen Vortrainingsstrategien für die Videorekognition. Unsere besten Modelle erreichen jeweils eine Top-1-Accuracy von 80,4 %, 80,5 % und 83,6 % auf dem Kinetics-400-Benchmark für das Training von Grund auf, Vortrainings auf ImageNet und Vortrainings auf IG-65M.