Syntaktisch geleitete generative Einbettungen für die zero-shot Skelettbewegungserkennung

Wir stellen SynSE vor, einen neuen, syntaxgesteuerten generativen Ansatz für Zero-Shot Learning (ZSL). Unser end-to-end-Ansatz lernt schrittweise verfeinerte generative Einbettungsräume, die sowohl innerhalb als auch zwischen den beteiligten Modalitäten (visuell, sprachlich) eingeschränkt sind. Die intermodalen Einschränkungen werden zwischen der Einbettung von Aktionssequenzen und den Einbettungen von Worten mit Part-of-Speech (PoS)-Tags in der entsprechenden Aktionbeschreibung definiert. Wir wenden SynSE auf die Aufgabe der skeletonbasierten Aktionserkennung an. Unsere Designentscheidungen ermöglichen es SynSE, kompositionell zu generalisieren, d.h., Sequenzen zu erkennen, deren Aktionbeschreibungen Wörter enthalten, die während des Trainings nicht vorgekommen sind. Wir erweitern unseren Ansatz zudem über ein konfidenzbasiertes Gating-Mechanismus auf das anspruchsvollere Problem des Generalized Zero-Shot Learning (GZSL). Wir sind die Ersten, die Zero-Shot-Ergebnisse für skeletonbasierte Aktionserkennung auf den groß angelegten NTU-60 und NTU-120 Skeleton-Aktionsdatensätzen mit mehreren Aufteilungen präsentieren. Unsere Ergebnisse zeigen, dass SynSE im Vergleich zu starken Baselines auf den NTU-60 und NTU-120 Datensätzen sowohl in ZSL- als auch in GZSL-Einstellungen eine Spitzenleistung erzielt. Der Code und die vortrainierten Modelle sind unter https://github.com/skelemoa/synse-zsl verfügbar.