HyperAIHyperAI

Command Palette

Search for a command to run...

Neubewertung der Zero-shot-Aktionserkennung: Lernen aus latenten atomaren Aktionen

and Alexander G. Hauptmann Wenhe Liu Lijun Yu Yijun Qian

Zusammenfassung

Um den zeitaufwändigen Prozess der Annotation und erneuten Schulung bei der Anwendung überwachter Aktionserkennungsmodelle zu vermeiden, ist die Zero-Shot-Aktionserkennung (ZSAR) zu einer vielversprechenden Forschungsrichtung geworden. ZSAR erfordert, dass Modelle Aktionen erkennen, die im Trainingsdatensatz nie vorkamen, indem visuelle Merkmale und semantische Darstellungen miteinander verknüpft werden. Aufgrund der Komplexität von Aktionen bleibt jedoch die Übertragung von Wissen aus der Quell- in die Zielaktionsdomäne herausfordernd. Bisherige ZSAR-Methoden konzentrieren sich hauptsächlich darauf, die Darstellungsvarianz zwischen Quell- und Zielaktionen zu verringern, indem neue, auf Aktionslevel basierende Merkmale integriert oder angewendet werden. Allerdings sind solche Aktionslevel-Merkmale grob granuliert und führen dazu, dass die gelernte ein-zu-eins-Verbindung gegenüber ähnlichen Zielaktionen empfindlich ist. Zudem erfordert die Integration oder Anwendung solcher Merkmale oft zusätzlichen Rechenaufwand oder Annotationen. Diese Ansätze haben übersehen, dass zwei Aktionen mit unterschiedlichen Namen dennoch dieselben atomaren Aktionskomponenten gemeinsam haben können. Dies ermöglicht es Menschen, eine unbekannte Aktion schnell zu verstehen, wenn sie eine Reihe von atomaren Aktionen aus bekannten Aktionen gelernt haben. Inspiriert davon schlagen wir das Jigsaw-Netzwerk (JigsawNet) vor, das komplexe Aktionen erkennt, indem es sie unsupervisiert in Kombinationen atomarer Aktionen zerlegt und Gruppe-zu-Gruppe-Beziehungen zwischen visuellen Merkmalen und semantischen Darstellungen herstellt. Um die Robustheit der gelernten Gruppe-zu-Gruppe-Verbindung zu verbessern, führen wir eine Group-Excitation-(GE)-Einheit ein, um innerhalb einer Probe enthaltene Kenntnisse zu modellieren, sowie eine Konsistenzverlustfunktion (Consistency Loss), um das Modell zu zwingen, aus inter-probabilen Kenntnissen zu lernen. Unser JigsawNet erreicht auf drei Benchmarks die bisher beste Leistung und übertrifft die vorherigen Ansätze deutlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Neubewertung der Zero-shot-Aktionserkennung: Lernen aus latenten atomaren Aktionen | Paper | HyperAI