HyperAIHyperAI

Command Palette

Search for a command to run...

Stabiler Mean-Teacher für die semi-supervisierte Aktionserkennung in Videos

Akash Kumar Sirshapan Mitra Yogesh Singh Rawat

Zusammenfassung

In dieser Arbeit konzentrieren wir uns auf das semi-überwachte Lernen für die Erkennung von Aktionen in Videos. Die Erkennung von Aktionen in Videos erfordert neben der Klassifizierung eine räumlich-zeitliche Lokalisierung, und eine begrenzte Anzahl von Labels macht das Modell anfällig für nicht verlässliche Vorhersagen. Wir präsentieren den Stable Mean Teacher, einen einfachen, end-to-end basierten Lehrerframework, das von verbesserten und zeitlich konsistenten Pseudolabels profitiert. Es stützt sich auf ein neuartiges Fehlerwiederherstellungsmodul (Error Recovery, EoR), das aus den Fehlern der Schüler bei etikettierten Stichproben lernt und dieses Wissen an den Lehrer weitergibt, um die Pseudolabels für nicht etikettierte Stichproben zu verbessern. Darüber hinaus berücksichtigen bestehende räumlich-zeitliche Verlustfunktionen die zeitliche Kohärenz nicht und sind anfällig für zeitliche Inkonsistenzen. Um dies zu beheben, präsentieren wir die Pixeldifferenz (Difference of Pixels, DoP), eine einfache und neuartige Nebenbedingung, die sich auf die zeitliche Konsistenz konzentriert und zu kohärenten zeitlichen Erkennungen führt. Wir evaluieren unseren Ansatz anhand vier verschiedener räumlich-zeitlicher Detektionsbenchmarks: UCF101-24, JHMDB21, AVA und YouTube-VOS. Unser Ansatz übertrifft die überwachten Baseline-Modelle für die Aktionserkennung durchschnittlich um 23,5 % bei UCF101-24, 16 % bei JHMDB21 und 3,3 % bei AVA. Mit nur 10 % bzw. 20 % der Daten erreicht er vergleichbare Leistungen im Vergleich zum überwachten Baseline-Modell, das mit 100 % der Annotationen trainiert wurde, bei UCF101-24 und JHMDB21. Wir bewerten seine Effektivität außerdem bei AVA zur Skalierung auf große Datensätze sowie bei YouTube-VOS zur Segmentierung von Videoobjekten, wobei wir seine Generalisierungsfähigkeit auf andere Aufgaben im Video-Bereich demonstrieren. Der Code und die Modelle sind öffentlich verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Stabiler Mean-Teacher für die semi-supervisierte Aktionserkennung in Videos | Paper | HyperAI