HyperAIHyperAI
vor 12 Tagen

Neubewertung der Zero-shot-Aktionserkennung: Lernen aus latenten atomaren Aktionen

{and Alexander G. Hauptmann, Wenhe Liu, Lijun Yu, Yijun Qian}
Neubewertung der Zero-shot-Aktionserkennung: Lernen aus latenten atomaren Aktionen
Abstract

Um den zeitaufwändigen Prozess der Annotation und erneuten Schulung bei der Anwendung überwachter Aktionserkennungsmodelle zu vermeiden, ist die Zero-Shot-Aktionserkennung (ZSAR) zu einer vielversprechenden Forschungsrichtung geworden. ZSAR erfordert, dass Modelle Aktionen erkennen, die im Trainingsdatensatz nie vorkamen, indem visuelle Merkmale und semantische Darstellungen miteinander verknüpft werden. Aufgrund der Komplexität von Aktionen bleibt jedoch die Übertragung von Wissen aus der Quell- in die Zielaktionsdomäne herausfordernd. Bisherige ZSAR-Methoden konzentrieren sich hauptsächlich darauf, die Darstellungsvarianz zwischen Quell- und Zielaktionen zu verringern, indem neue, auf Aktionslevel basierende Merkmale integriert oder angewendet werden. Allerdings sind solche Aktionslevel-Merkmale grob granuliert und führen dazu, dass die gelernte ein-zu-eins-Verbindung gegenüber ähnlichen Zielaktionen empfindlich ist. Zudem erfordert die Integration oder Anwendung solcher Merkmale oft zusätzlichen Rechenaufwand oder Annotationen. Diese Ansätze haben übersehen, dass zwei Aktionen mit unterschiedlichen Namen dennoch dieselben atomaren Aktionskomponenten gemeinsam haben können. Dies ermöglicht es Menschen, eine unbekannte Aktion schnell zu verstehen, wenn sie eine Reihe von atomaren Aktionen aus bekannten Aktionen gelernt haben. Inspiriert davon schlagen wir das Jigsaw-Netzwerk (JigsawNet) vor, das komplexe Aktionen erkennt, indem es sie unsupervisiert in Kombinationen atomarer Aktionen zerlegt und Gruppe-zu-Gruppe-Beziehungen zwischen visuellen Merkmalen und semantischen Darstellungen herstellt. Um die Robustheit der gelernten Gruppe-zu-Gruppe-Verbindung zu verbessern, führen wir eine Group-Excitation-(GE)-Einheit ein, um innerhalb einer Probe enthaltene Kenntnisse zu modellieren, sowie eine Konsistenzverlustfunktion (Consistency Loss), um das Modell zu zwingen, aus inter-probabilen Kenntnissen zu lernen. Unser JigsawNet erreicht auf drei Benchmarks die bisher beste Leistung und übertrifft die vorherigen Ansätze deutlich.

Neubewertung der Zero-shot-Aktionserkennung: Lernen aus latenten atomaren Aktionen | Neueste Forschungsarbeiten | HyperAI