HyperAIHyperAI
vor 18 Tagen

Tiefenbasiertes adaptives Meta-Fusionsnetzwerk für Few-shot-Videoerkennung

Yuqian Fu, Li Zhang, Junke Wang, Yanwei Fu, Yu-Gang Jiang
Tiefenbasiertes adaptives Meta-Fusionsnetzwerk für Few-shot-Videoerkennung
Abstract

Menschen können Aktionen bereits anhand nur weniger Beispiele leicht erkennen, während bestehende Videoerkennungsmodelle weiterhin stark auf großskalige, gelabelte Datensätze angewiesen sind. Diese Beobachtung hat ein wachsendes Interesse an Few-Shot-Videoaktionserkennung hervorgerufen, die darauf abzielt, neue Aktionen mit nur sehr wenigen gelabelten Beispielen zu lernen. In diesem Artikel stellen wir ein Tiefen-gesteuertes adaptives Meta-Fusionsnetzwerk für die Few-Shot-Videoerkennung vor, das als AMeFu-Net bezeichnet wird. Konkret greifen wir das Few-Shot-Erkennungsproblem aus drei Aspekten an: Erstens mildern wir das extrem datenarme Problem, indem wir Tiefeninformation als Träger der Szeneninformation einsetzen, was unserem Modell zusätzliche visuelle Informationen liefert; zweitens fügen wir die Repräsentation von ursprünglichen RGB-Clips mit mehreren nicht streng korrespondierenden Tiefenclips zusammen, die durch unsere zeitliche Asynchronitäts-Augmentierungsmethode abgetastet werden, wodurch neue Instanzen auf Merkmalsebene synthetisiert werden; drittens stellen wir einen neuartigen Depth Guided Adaptive Instance Normalization (DGAdaIN)-Fusionsmodul vor, um die zwei-Stream-Modalitäten effizient zu fusionieren. Zusätzlich wird unser Modell im Meta-Lernungsansatz trainiert, um den Few-Shot-Erkennungsprozess besser nachzuahmen. Umfangreiche Experimente auf mehreren Benchmark-Datenbanken für Aktionserkennung belegen die Wirksamkeit unseres Ansatzes.

Tiefenbasiertes adaptives Meta-Fusionsnetzwerk für Few-shot-Videoerkennung | Neueste Forschungsarbeiten | HyperAI