Hybrides relationales Set-Matching für Few-Shot-Aktionserkennung

Aktuelle Methoden zur Few-Shot-Aktionserkennung erreichen beeindruckende Leistungen, indem sie diskriminative Merkmale für jedes Video durch epische Trainingsmethoden erlernen und verschiedene zeitliche Ausrichtungsstrategien entwickeln. Dennoch sind sie darin eingeschränkt, dass (a) das Erlernen individueller Merkmale ohne Berücksichtigung der gesamten Aufgabe die wichtigsten Informationen des aktuellen Episods verlieren kann, und (b) diese Ausrichtungsstrategien bei fehlerhaften Ausrichtungen versagen können. Um diese beiden Einschränkungen zu überwinden, schlagen wir einen neuen Ansatz namens Hybrid-Relation gesteuerte Mengenabgleich (HyRSM) vor, der zwei wesentliche Komponenten integriert: Modul für hybride Relationen und Mengenabgleichsmaßstab. Das Ziel des Moduls für hybride Relationen ist es, aufgabenbezogene Einbettungen durch vollständige Nutzung assoziierter Relationen innerhalb und zwischen Videos in einem Episod zu lernen. Auf Basis dieser aufgabenbezogenen Merkmale reformulieren wir die Distanzmessung zwischen Abfrage- und Stützvideos als ein Problem des Mengenabgleichs und entwickeln ein bidirektionales Mean-Hausdorff-Maß, um die Robustheit gegenüber fehlerhaften Ausrichtungen zu verbessern. Auf diese Weise kann der vorgeschlagene HyRSM hochinformativ und flexibel Kategorien von Abfragevideos unter Few-Shot-Bedingungen vorhersagen. Wir evaluieren HyRSM an sechs anspruchsvollen Benchmarks, und die experimentellen Ergebnisse zeigen seine Überlegenheit gegenüber den bislang besten Methoden mit überzeugendem Vorsprung. Projektseite: https://hyrsm-cvpr2022.github.io/.