Tief eingebettete konditionierte latente Darstellungen für die Aktionserkennung

In den letzten Jahren hat die Mehrfach-Label-, Mehrklassen-Videobewegungserkennung erhebliche Popularität gewonnen. Während intelligente Arten über zeitlich verbundene atomare Aktionen nachdenken können, kämpfen herkömmliche künstliche neuronale Netze (KNN) noch damit, sie zu klassifizieren. In der Realität bilden atomare Aktionen oft zeitliche Verbindungen und führen zu komplexeren zusammengesetzten Aktionen. Die Herausforderung besteht darin, zusammengesetzte Aktionen unterschiedlicher Dauer zu erkennen, während andere eindeutige zusammengesetzte oder atomare Aktionen im Hintergrund stattfinden. Indem wir auf den Erfolg relationaler Netzwerke zurückgreifen, schlagen wir Methoden vor, die lernen, über das semantische Konzept von Objekten und Aktionen nachzudenken. Wir zeigen empirisch, wie KNN von Vortrainings, relationalen induktiven Verzerrungen und unsortierten mengenbasierten latente Darstellungen profitieren. In dieser Arbeit schlagen wir tiefes mengenbedingtes I3D (SCI3D) vor, ein zweistrom-relatives Netzwerk, das latente Darstellungen des Zustands und visuelle Darstellungen für die Analyse von Ereignissen und Aktionen verwendet. Diese lernen, über zeitlich verbundene Aktionen nachzudenken, um alle in dem Video auftretenden Aktionen zu identifizieren. Die vorgeschlagene Methode erreicht eine Verbesserung von etwa 1,49 % mAP bei der Erkennung atomarer Aktionen und 17,57 % mAP bei der Erkennung zusammengesetzter Aktionen im Vergleich zur I3D-NL-Basislinie auf dem CATER-Datensatz.