Selbstüberwachtes räumlich-zeitliches Lernen mittels Vorhersage der Video-Clip-Reihenfolge

Wir schlagen eine selbstüberwachte spatiotemporale Lernmethode vor, die die chronologische Reihenfolge von Videos nutzt. Unsere Methode lernt die spatiotemporale Darstellung eines Videos, indem sie die Reihenfolge von permutierten Clips aus dem Video vorhersagt. Die Kategorie des Videos ist hierbei nicht erforderlich, was unserer Technik die Möglichkeit bietet, von einer unendlichen Menge an unmarkierten Videos zu profitieren. Es existieren verwandte Arbeiten, die einzelne Frames verwenden; im Vergleich zu Frames sind Clips jedoch konsistenter mit den dynamischen Eigenschaften von Videos. Clips reduzieren die Unsicherheit bezüglich der Reihenfolge und eignen sich daher besser für die Lernung einer Video-Darstellung. 3D-Faltungsneuronale Netze werden verwendet, um Merkmale aus den Clips zu extrahieren, die anschließend zur Vorhersage der tatsächlichen Reihenfolge verarbeitet werden. Die gelernten Darstellungen werden mittels Nachbarschaftsretrieval-Experimenten evaluiert. Zudem werden die gelernten Netzwerke als vortrainierte Modelle genutzt und auf der Aufgabe der Aktionserkennung fine-tuned. In den Experimenten werden drei Arten von 3D-Faltungsneuralen Netzen getestet, wobei wir im Vergleich zu bestehenden selbstüberwachten Methoden erhebliche Verbesserungen erzielen.