Mehrfach-Aufgaben-basierte Zero-Shot Aktionserkennung mit priorisierter Datenverstärkung

Zero-Shot-Lernen (ZSL) verspricht, die visuelle Erkennung zu skalieren, indem es das herkömmliche Modelltrainingsanforderung von annotierten Beispielen für jede Kategorie umgeht. Dies wird erreicht, indem eine Abbildung erstellt wird, die niedrigstufige Merkmale und eine semantische Beschreibung des Labelraums verbindet, was als visuell-semantische Abbildung bezeichnet wird, auf Hilfsdaten. Die Wiederverwendung der gelernten Abbildung zur Projektion von Zielvideos in einen Einbettungsraum ermöglicht es daher, neue Klassen durch die nächstgelegenen Nachbarn zu erkennen. Bestehende ZSL-Methoden leiden jedoch intrinsisch unter einem Hilfs-Ziel-Domänenversatz, der durch die Annahme derselben Abbildung für disjunkte Hilfs- und Zielklassen verursacht wird. Dies beeinträchtigt die Generalisierungsgenauigkeit der ZSL-Erkennung auf den Zielsdaten. In dieser Arbeit verbessern wir die Fähigkeit des ZSL, diesen Domänenversatz zu überwinden, sowohl modellzentriert als auch datenzentriert, indem wir eine visuell-semantische Abbildung mit besseren Generalisierungseigenschaften formulieren und eine dynamische Datenbewertungsmethode anwenden, um relevante Hilfsdaten für die Zielklassen zu priorisieren. Speziell: (1) Wir führen eine mehrfache Aufgabenorientierte visuell-semantische Abbildung ein, um die Generalisierung durch das Einschränken der semantischen Abbildungsparameter auf einen niedrigdimensionalen Mannigfaltigkeitsraum zu verbessern; (2) Wir untersuchen priorisierte Datenverstärkung (Data Augmentation), indem wir den Pool der Hilfsdaten mit zusätzlichen Instanzen erweitern, die nach ihrer Relevanz für das Zielgebiet gewichtet werden. Das vorgeschlagene neue Modell wird auf das anspruchsvolle Problem der zero-shot Aktionserkennung angewendet, um seine Vorteile gegenüber bestehenden ZSL-Modellen zu demonstrieren.