HyperAIHyperAI
vor 16 Tagen

Schwach geleitete selbstüberwachte Vortrainierung für die zeitliche Aktivitätserkennung

Kumara Kahatapitiya, Zhou Ren, Haoxiang Li, Zhenyu Wu, Michael S. Ryoo, Gang Hua
Schwach geleitete selbstüberwachte Vortrainierung für die zeitliche Aktivitätserkennung
Abstract

Die temporale Aktivitätsdetektion zielt darauf ab, Aktivitätsklassen pro Frame vorherzusagen, im Gegensatz zu videobasierten Vorhersagen in der Aktivitätsklassifikation (d. h. Aktivitätserkennung). Aufgrund der kostspieligen annotierten Daten auf Frame-Ebene sind die Größen von Detektionsdatensätzen begrenzt. Daher greifen üblicherweise frühere Ansätze zur temporalen Aktivitätsdetektion auf das Fine-Tuning eines Klassifikationsmodells zurück, das auf großen Klassifikationsdatensätzen (z. B. Kinetics-400) vortrainiert wurde. Solche vortrainierten Modelle eignen sich jedoch nicht ideal für die nachfolgende Detektion, da ein Unterschied zwischen der Vortrainings- und der nachfolgenden Fine-Tuning-Aufgabe besteht. In dieser Arbeit schlagen wir eine neuartige „schwach geleitete selbstüberwachte“ Vortrainingsmethode für die Detektion vor. Wir nutzen schwache Labels (Klassifikation), um durch die Generierung von Frame-level-Pseudolabels, Multi-Aktions-Frame und Aktionssegmenten eine selbstüberwachte Vor-Aufgabe (Detektion) einzuführen. Kurz gesagt, wir entwerfen eine Detektionsaufgabe, die der nachfolgenden Aufgabe ähnelt, auf großen Klassifikationsdatensätzen, ohne zusätzliche Annotationen zu benötigen. Wir zeigen, dass Modelle, die mit der vorgeschlagenen schwach geleiteten selbstüberwachten Detektionsaufgabe vortrainiert wurden, auf mehreren anspruchsvollen Benchmarks für Aktivitätsdetektion, darunter Charades und MultiTHUMOS, die bisherigen Ansätze übertrumpfen. Unsere umfassenden Abstraktionen liefern zudem wertvolle Erkenntnisse darüber, wann und wie die vorgeschlagenen Modelle für die Aktivitätsdetektion eingesetzt werden sollten. Der Quellcode ist unter https://github.com/kkahatapitiya/SSDet verfügbar.

Schwach geleitete selbstüberwachte Vortrainierung für die zeitliche Aktivitätserkennung | Neueste Forschungsarbeiten | HyperAI