Privilegierte Wissensverdistillierung für die Online-Erkennung von Aktionen

Die Online Action Detection (OAD) in Videos wird als Aufgabe zur pro-Bildausschnitt-Kennzeichnung vorgeschlagen, um Echtzeit-Vorhersageaufgaben zu bearbeiten, bei denen nur die vorherigen und aktuellen Videobilder verfügbar sind. In dieser Arbeit stellen wir einen neuen Lernrahmen mit privilegierten Informationen für die Online Action Detection vor, bei dem zukünftige Bilder, die nur während der Trainingsphase beobachtbar sind, als Form von privilegierter Information betrachtet werden. Wissensverdistillierung (Knowledge Distillation) wird eingesetzt, um diese privilegierte Information vom Offline-Lehrer auf den Online-Schüler zu übertragen. Wir weisen darauf hin, dass diese Einstellung sich von konventioneller Wissensverdistillierung unterscheidet, da der Hauptunterschied zwischen den Lehrer- und Schülermodellen in den Eingabedaten liegt und nicht in der Netzarchitektur. Wir schlagen Privileged Knowledge Distillation (PKD) vor, die (i) ein Curriculum-Lernverfahren plant und (ii) Hilfsknoten in das Schülermodell einfügt, beides zur Verringerung des Informationsdefizits und zur Verbesserung der Lernleistung. Im Vergleich zu anderen OAD-Methoden, die explizit zukünftige Bilder vorhersagen, vermeidet unser Ansatz das Lernen von unvorhersagbaren, unnötigen und inkonsistenten visuellen Inhalten und erreicht Stand-of-the-Art-Genauigkeit auf zwei gängigen OAD-Benchmarks: TVSeries und THUMOS14.