HyperAIHyperAI
vor 17 Tagen

Aktionen in Videos aus unbekannten Blickwinkeln erkennen

AJ Piergiovanni, Michael S. Ryoo
Aktionen in Videos aus unbekannten Blickwinkeln erkennen
Abstract

Standardverfahren zur Videobewertung setzen große CNNs ein, die darauf ausgelegt sind, räumlich-zeitliche Daten zu erfassen. Die Schulung dieser Modelle erfordert jedoch eine große Menge an gelabelten Trainingsdaten, die eine breite Vielfalt an Aktionen, Szenen, Umgebungen und Kameraperspektiven umfassen. In diesem Artikel zeigen wir, dass aktuelle convolutionale Neuronale Netzwerke nicht in der Lage sind, Aktionen aus Kameraperspektiven zu erkennen, die in ihren Trainingsdaten nicht enthalten sind (d. h. Aktionserkennung aus nicht gesehenen Perspektiven). Um dieses Problem zu lösen, entwickeln wir Ansätze basierend auf 3D-Darstellungen und führen eine neue geometrische convolutionale Schicht ein, die viewpoint-invariante Darstellungen lernen kann. Zudem stellen wir einen neuen, anspruchsvollen Datensatz für die Aktionserkennung aus nicht gesehenen Perspektiven vor und zeigen die Fähigkeit unserer Ansätze, viewpoint-invariante Darstellungen zu erlernen.

Aktionen in Videos aus unbekannten Blickwinkeln erkennen | Neueste Forschungsarbeiten | HyperAI