Learn2Augment: Lernen der Komposition von Videos zur Datenaugmentation in der Aktionserkennung

Wir behandeln das Problem der Datenaugmentation für die Aktionserkennung in Videos. Standardmäßige Augmentationsstrategien für Videos sind handgefertigt und sampling den Raum möglicher augmentierter Datensätze entweder zufällig, ohne zu wissen, welche augmentierten Punkte besser sind, oder durch Heuristiken. Wir schlagen vor, zu lernen, was ein gutes Video für die Aktionserkennung ausmacht, und lediglich hochwertige Proben für die Augmentation auszuwählen. Insbesondere wählen wir die Video-Komposition aus einem Vordergrund- und einem Hintergrundvideo als Augmentationsprozess, was vielfältige und realistische neue Proben erzeugt. Wir lernen, welche Video-Paare augmentiert werden sollen, ohne diese tatsächlich zusammensetzen zu müssen. Dadurch wird der Raum möglicher Augmentierungen reduziert, was zwei Vorteile bietet: Es spart Rechenkosten und erhöht die Genauigkeit des endgültig trainierten Klassifikators, da die augmentierten Paare im Durchschnitt von höherer Qualität sind. Wir präsentieren experimentelle Ergebnisse über das gesamte Spektrum an Trainings-Szenarien: Few-shot, semi-supervised und vollständig überwacht. Wir beobachten konsistente Verbesserungen gegenüber vorhergehenden Arbeiten und Baselines auf Kinetics, UCF101 und HMDB51 und erreichen eine neue State-of-the-Art-Leistung in Szenarien mit begrenzten Daten. In der semi-supervised Setting erzielen wir Verbesserungen von bis zu 8,6 %.