HyperAIHyperAI
vor 18 Tagen

Mehrfachansichts-Aktionserkennung mittels kontrastivem Lernen

{Rama Chellappa, Celso M. de Melo, Chun Pong Lau, Anshul Shah, Ketul Shah}
Mehrfachansichts-Aktionserkennung mittels kontrastivem Lernen
Abstract

In dieser Arbeit präsentieren wir eine Methode zur RGB-basierten Aktenerkennung mithilfe von Multiview-Videos. Wir stellen einen überwachten kontrastiven Lernansatz vor, um eine Merkmalsdarstellung zu erlernen, die robust gegenüber Veränderungen der Blickrichtung ist, indem multiview-Daten effektiv genutzt werden. Wir verwenden eine verbesserte überwachte kontrastive Verlustfunktion und ergänzen die positiven Beispiele durch solche aus synchronisierten Blickrichtungen. Außerdem schlagen wir einen neuen Ansatz vor, bei dem Klassifikatorwahrscheinlichkeiten zur Steuerung der Auswahl schwerer Negativer im kontrastiven Verlust eingesetzt werden, um eine differenziertere Darstellung zu lernen. Negative Beispiele aus verwirrenden Klassen, basierend auf den a posteriori-Wahrscheinlichkeiten, werden stärker gewichtet. Wir zeigen außerdem, dass unsere Methode im Vergleich zur herkömmlichen überwachten Trainingsmethode auf synthetischen Multiview-Daten eine bessere Domänenverallgemeinerung erzielt. Umfassende Experimente an realen (NTU-60, NTU-120, NUMA) und synthetischen (RoCoG) Daten belegen die Wirksamkeit unseres Ansatzes.