Command Palette
Search for a command to run...
Tiefenbasiertes adaptives Meta-Fusionsnetzwerk für Few-shot-Videoerkennung
Tiefenbasiertes adaptives Meta-Fusionsnetzwerk für Few-shot-Videoerkennung
Yuqian Fu Li Zhang Junke Wang Yanwei Fu Yu-Gang Jiang
Zusammenfassung
Menschen können Aktionen bereits anhand nur weniger Beispiele leicht erkennen, während bestehende Videoerkennungsmodelle weiterhin stark auf großskalige, gelabelte Datensätze angewiesen sind. Diese Beobachtung hat ein wachsendes Interesse an Few-Shot-Videoaktionserkennung hervorgerufen, die darauf abzielt, neue Aktionen mit nur sehr wenigen gelabelten Beispielen zu lernen. In diesem Artikel stellen wir ein Tiefen-gesteuertes adaptives Meta-Fusionsnetzwerk für die Few-Shot-Videoerkennung vor, das als AMeFu-Net bezeichnet wird. Konkret greifen wir das Few-Shot-Erkennungsproblem aus drei Aspekten an: Erstens mildern wir das extrem datenarme Problem, indem wir Tiefeninformation als Träger der Szeneninformation einsetzen, was unserem Modell zusätzliche visuelle Informationen liefert; zweitens fügen wir die Repräsentation von ursprünglichen RGB-Clips mit mehreren nicht streng korrespondierenden Tiefenclips zusammen, die durch unsere zeitliche Asynchronitäts-Augmentierungsmethode abgetastet werden, wodurch neue Instanzen auf Merkmalsebene synthetisiert werden; drittens stellen wir einen neuartigen Depth Guided Adaptive Instance Normalization (DGAdaIN)-Fusionsmodul vor, um die zwei-Stream-Modalitäten effizient zu fusionieren. Zusätzlich wird unser Modell im Meta-Lernungsansatz trainiert, um den Few-Shot-Erkennungsprozess besser nachzuahmen. Umfangreiche Experimente auf mehreren Benchmark-Datenbanken für Aktionserkennung belegen die Wirksamkeit unseres Ansatzes.