HyperAIHyperAI
vor 2 Monaten

Few-Shot Temporale Aktionserkennung mit abfrageadaptivem Transformer

Nag, Sauradip ; Zhu, Xiatian ; Xiang, Tao
Few-Shot Temporale Aktionserkennung mit abfrageadaptivem Transformer
Abstract

Bestehende Arbeiten zur zeitlichen Aktionserkennung (TAL) basieren auf einer großen Anzahl von Trainingsvideos mit umfassender Segment-Annotation, was ihre Skalierung auf neue Klassen verhindert. Als Lösung für dieses Problem zielt Few-Shot TAL (FS-TAL) darauf ab, ein Modell an eine neue Klasse anzupassen, die durch so wenig wie ein einzelnes Video repräsentiert wird. Bestehende FS-TAL-Methoden gehen davon aus, dass die Trainingsvideos für neue Klassen gekürzt sind. Dieses Szenario ist jedoch nicht nur unnatürlich, da Aktionen in der Regel in ungeschnittenen Videos erfasst werden, sondern ignoriert auch Hintergrundvideoabschnitte, die wichtige kontextuelle Hinweise für die Segmentierung von Vordergrundaktionen enthalten. In dieser Arbeit schlagen wir zunächst eine neue FS-TAL-Einstellung vor, indem wir vorschlagen, ungeschnittene Trainingsvideos zu verwenden. Darüber hinaus wird ein neues FS-TAL-Modell vorgestellt, das den Wissenstransfer von den Trainingsklassen maximiert und gleichzeitig das dynamische Anpassen des Modells an sowohl die neue Klasse als auch jedes Video dieser Klasse ermöglicht. Dies wird durch die Einführung eines query-adaptiven Transformers im Modell erreicht. Ausführliche Experimente auf zwei Benchmarks für Aktionserkennung zeigen, dass unsere Methode inboth single-domain and cross-domain scenarios signifikant alle aktuellen Alternativen übertrifft. Der Quellcode kann unter https://github.com/sauradip/fewshotQAT gefunden werden.请注意,最后一句中的“in both single-domain and cross-domain scenarios”在德语中应调整为更符合德语表达习惯的结构:Ausführliche Experimente auf zwei Benchmarks für Aktionserkennung zeigen, dass unsere Methode sowohl in mono-domänen als auch in multi-domänen Szenarien signifikant alle aktuellen Alternativen übertrifft. Der Quellcode kann unter https://github.com/sauradip/fewshotQAT gefunden werden.

Few-Shot Temporale Aktionserkennung mit abfrageadaptivem Transformer | Neueste Forschungsarbeiten | HyperAI