HyperAIHyperAI
vor 17 Tagen

Few-shot Action Recognition mit permutationssicherer Aufmerksamkeit

Hongguang Zhang, Li Zhang, Xiaojuan Qi, Hongdong Li, Philip H. S. Torr, Piotr Koniusz
Few-shot Action Recognition mit permutationssicherer Aufmerksamkeit
Abstract

Viele Few-Shot-Lernmodelle konzentrieren sich auf die Bilderkennung. Im Gegensatz dazu behandeln wir eine anspruchsvolle Aufgabe der Few-Shot-Aktionserkennung aus Videos. Wir bauen auf einem C3D-Encoder für räumlich-zeitliche Video-Blöcke auf, um kurzfristige Aktionsmuster zu erfassen. Diese codierten Blöcke werden mittels permutationssicherer Pooling-Operationen aggregiert, wodurch unsere Methode robust gegenüber variierenden Aktionslängen und langfristigen zeitlichen Abhängigkeiten wird – deren Muster selbst innerhalb von Clips derselben Klasse kaum wiederholen. Anschließend werden die gepoolten Darstellungen zu einfachen Relationsbeschreibern kombiniert, die sogenannte Query- und Support-Clips kodieren. Schließlich werden diese Relationsbeschreiber an einen Vergleicher weitergeleitet, dessen Ziel die Ähnlichkeitslernung zwischen Query- und Support-Clips ist. Wichtig ist, dass wir zur dynamischen Umgewichtung der Beiträge der Blöcke während des Pooling sowohl räumliche als auch zeitliche Aufmerksamkeitsmodule sowie Selbstüberwachung nutzen. In natürlichen Clips derselben Klasse tritt eine zeitliche Verteilungsverschiebung auf – die Positionen der diskriminativen zeitlichen Aktions-Hotspots variieren. Um die Aufmerksamkeitsmechanismen gegen Permutationen der Blöcke (und damit auch langfristiger Hotspots) invariant zu machen, permutieren wir die Blöcke eines Clips und richten die resultierenden Aufmerksamkeitsregionen mit entsprechend permutierten Regionen des unveränderten Clips aus. Unsere Methode erreicht eine bessere Leistung als die derzeitigen State-of-the-Art-Verfahren auf den Datensätzen HMDB51, UCF101 und miniMIT.

Few-shot Action Recognition mit permutationssicherer Aufmerksamkeit | Neueste Forschungsarbeiten | HyperAI