Stabiler Mean-Teacher für die semi-supervisierte Aktionserkennung in Videos

In dieser Arbeit konzentrieren wir uns auf das semi-überwachte Lernen für die Erkennung von Aktionen in Videos. Die Erkennung von Aktionen in Videos erfordert neben der Klassifizierung eine räumlich-zeitliche Lokalisierung, und eine begrenzte Anzahl von Labels macht das Modell anfällig für nicht verlässliche Vorhersagen. Wir präsentieren den Stable Mean Teacher, einen einfachen, end-to-end basierten Lehrerframework, das von verbesserten und zeitlich konsistenten Pseudolabels profitiert. Es stützt sich auf ein neuartiges Fehlerwiederherstellungsmodul (Error Recovery, EoR), das aus den Fehlern der Schüler bei etikettierten Stichproben lernt und dieses Wissen an den Lehrer weitergibt, um die Pseudolabels für nicht etikettierte Stichproben zu verbessern. Darüber hinaus berücksichtigen bestehende räumlich-zeitliche Verlustfunktionen die zeitliche Kohärenz nicht und sind anfällig für zeitliche Inkonsistenzen. Um dies zu beheben, präsentieren wir die Pixeldifferenz (Difference of Pixels, DoP), eine einfache und neuartige Nebenbedingung, die sich auf die zeitliche Konsistenz konzentriert und zu kohärenten zeitlichen Erkennungen führt. Wir evaluieren unseren Ansatz anhand vier verschiedener räumlich-zeitlicher Detektionsbenchmarks: UCF101-24, JHMDB21, AVA und YouTube-VOS. Unser Ansatz übertrifft die überwachten Baseline-Modelle für die Aktionserkennung durchschnittlich um 23,5 % bei UCF101-24, 16 % bei JHMDB21 und 3,3 % bei AVA. Mit nur 10 % bzw. 20 % der Daten erreicht er vergleichbare Leistungen im Vergleich zum überwachten Baseline-Modell, das mit 100 % der Annotationen trainiert wurde, bei UCF101-24 und JHMDB21. Wir bewerten seine Effektivität außerdem bei AVA zur Skalierung auf große Datensätze sowie bei YouTube-VOS zur Segmentierung von Videoobjekten, wobei wir seine Generalisierungsfähigkeit auf andere Aufgaben im Video-Bereich demonstrieren. Der Code und die Modelle sind öffentlich verfügbar.