HyperAIHyperAI
vor 2 Monaten

Aktionsshuffle-Alternierendes Lernen für die unüberwachte Aktionssegmentierung

Jun Li; Sinisa Todorovic
Aktionsshuffle-Alternierendes Lernen für die unüberwachte Aktionssegmentierung
Abstract

Dieses Papier behandelt die unüberwachte Aktionensegmentierung. Frühere Arbeiten erfassen die zeitliche Struktur von Videos auf Frame-Ebene durch eine Merkmalskodierung, die die Zeitpositionen der Frames im Video kodiert. Wir erweitern diese früheren Arbeiten durch ein neues selbstüberwachtes Lernen (Self-Supervised Learning, SSL) einer Merkmalskodierung, das sowohl die Struktur auf Frame- als auch auf Aktionsebene berücksichtigt. Unser SSL trainiert ein RNN (Recurrent Neural Network), um positive und negative Aktionenfolgen zu erkennen, wobei die versteckte Schicht des RNN als unsere neue Aktionsebene-Merkmalskodierung verwendet wird. Die positiven und negativen Folgen bestehen aus Aktionensegmenten, die aus Videos abgetastet werden; bei den positiven Folgen respektieren die abgetasteten Segmente ihre zeitliche Reihenfolge im Video, während sie bei den negativen Folgen durcheinandergebracht sind. Da keine Überwachung der Aktionen verfügbar ist und unser SSL Zugang zu Aktionensegmenten benötigt, spezifizieren wir einen HMM (Hidden Markov Model), der explizit Aktionslängen modelliert, und leiten eine MAP-Aktionensegmentierung mit dem Viterbi-Algorithmus ab. Die resultierende Aktionensegmentierung dient als Pseudo-Ground Truth zur Schätzung unserer Aktionsebene-Merkmalskodierung und Aktualisierung des HMM. Wir wechseln die oben genannten Schritte innerhalb des Generalisierten EM-Rahmenwerks (Generalized Expectation Maximization), was Konvergenz gewährleistet. Unsere Evaluation anhand der Datensätze Breakfast, YouTube Instructions und 50Salads ergibt überlegene Ergebnisse im Vergleich zum aktuellen Stand der Technik.

Aktionsshuffle-Alternierendes Lernen für die unüberwachte Aktionssegmentierung | Neueste Forschungsarbeiten | HyperAI