Tiefenbasiertes adaptives Meta-Fusionsnetzwerk für Few-shot-Videoerkennung

Menschen können Aktionen bereits anhand nur weniger Beispiele leicht erkennen, während bestehende Videoerkennungsmodelle weiterhin stark auf großskalige, gelabelte Datensätze angewiesen sind. Diese Beobachtung hat ein wachsendes Interesse an Few-Shot-Videoaktionserkennung hervorgerufen, die darauf abzielt, neue Aktionen mit nur sehr wenigen gelabelten Beispielen zu lernen. In diesem Artikel stellen wir ein Tiefen-gesteuertes adaptives Meta-Fusionsnetzwerk für die Few-Shot-Videoerkennung vor, das als AMeFu-Net bezeichnet wird. Konkret greifen wir das Few-Shot-Erkennungsproblem aus drei Aspekten an: Erstens mildern wir das extrem datenarme Problem, indem wir Tiefeninformation als Träger der Szeneninformation einsetzen, was unserem Modell zusätzliche visuelle Informationen liefert; zweitens fügen wir die Repräsentation von ursprünglichen RGB-Clips mit mehreren nicht streng korrespondierenden Tiefenclips zusammen, die durch unsere zeitliche Asynchronitäts-Augmentierungsmethode abgetastet werden, wodurch neue Instanzen auf Merkmalsebene synthetisiert werden; drittens stellen wir einen neuartigen Depth Guided Adaptive Instance Normalization (DGAdaIN)-Fusionsmodul vor, um die zwei-Stream-Modalitäten effizient zu fusionieren. Zusätzlich wird unser Modell im Meta-Lernungsansatz trainiert, um den Few-Shot-Erkennungsprozess besser nachzuahmen. Umfangreiche Experimente auf mehreren Benchmark-Datenbanken für Aktionserkennung belegen die Wirksamkeit unseres Ansatzes.