Lernen, Fahrrad zu fahren: zeitkonsistente Merkmalsentdeckung für die Aktionserkennung

Die Verallgemeinerung über zeitliche Variationen ist eine Voraussetzung für eine effektive Aktionserkennung in Videos. Trotz erheblicher Fortschritte bei tiefen neuronalen Netzen bleibt es eine Herausforderung, sich auf kurzfristige, diskriminative Bewegungen zu konzentrieren, ohne die Gesamtleistung einer Aktion zu beeinträchtigen. Wir adressieren diese Herausforderung, indem wir gewisse Flexibilität bei der Entdeckung relevanter spatiotemporaler Merkmale zulassen. Wir stellen Squeeze and Recursion Temporal Gates (SRTG) vor, einen Ansatz, der Eingaben bevorzugt, die ähnliche Aktivierungen aufweisen und potenzielle zeitliche Variationen zulassen. Diese Idee realisieren wir mittels eines neuartigen CNN-Blocks, der eine LSTM nutzt, um Merkmalsdynamiken zu kapseln, sowie einer zeitlichen Gatterkomponente, die für die Bewertung der Konsistenz der entdeckten Dynamiken und der modellierten Merkmale verantwortlich ist. Wir zeigen konsistente Verbesserungen bei Verwendung von SRTG-Blöcken, wobei sich die Anzahl der GFLOPs nur minimal erhöht. Auf Kinetics-700 erreichen wir die Leistung aktueller State-of-the-Art-Modelle und übertreffen diese auf HACS, Moments in Time, UCF-101 und HMDB-51.