4D Raum-Zeit ConvNets: Minkowski Faltungsneuronale Netze

In vielen Robotik- und VR/AR-Anwendungen sind 3D-Videos leicht verfügbare Eingabequellen (eine kontinuierliche Folge von Tiefenbildern oder LIDAR-Scans). Diese 3D-Videos werden jedoch derzeit framebasiert entweder durch 2D-Konvolutionsnetze oder 3D-Wahrnehmungsalgorithmen verarbeitet. In dieser Arbeit schlagen wir 4-dimensionale Konvolutionsneuronale Netze für räumlich-zeitliche Wahrnehmung vor, die solche 3D-Videos direkt mit hochdimensionalen Konvolutionen verarbeiten können. Dafür nutzen wir dünnbesetzte Tensoren und schlagen die verallgemeinerte dünnbesetzte Konvolution vor, die alle diskreten Konvolutionen umfasst. Um die verallgemeinerte dünnbesetzte Konvolution zu implementieren, erstellen wir eine Open-Source-Auto-Differenzierungsbibliothek für dünnbesetzte Tensoren, die umfangreiche Funktionen für hochdimensionale Konvolutionsneuronale Netze bereitstellt. Mit Hilfe dieser Bibliothek erstellen wir 4D räumlich-zeitliche Konvolutionsneuronale Netze und validieren sie an verschiedenen Benchmark-Datensätzen für 3D-Semantische Segmentierung sowie an vorgeschlagenen 4D-Datensätzen für die Wahrnehmung von 3D-Videos. Um Herausforderungen im 4D-Raum zu bewältigen, schlagen wir den Hybridkern vor, einen Spezialfall der verallgemeinerten dünnbesetzten Konvolution, sowie das dreiseitig stationäre bedingte Markovfeld, das räumlich-zeitliche Konsistenz im 7D Raum-Zeit-Chromaraum erzwingt. Experimentell zeigen wir, dass Konvolutionsneuronale Netze mit ausschließlich verallgemeinerten 3D dünnbesetzten Konvolutionen deutlich besser abschneiden als Methoden auf Basis von 2D oder hybriden 2D-3D-Konvolutionen. Zudem zeigen wir, dass bei der Verarbeitung von 3D-Videos die 4D räumlich-zeitlichen Konvolutionsneuronalen Netze robust gegenüber Rauschen sind, die Leistung von 3D-Konvolutionsneuronalen Netzen übertreffen und in einigen Fällen schneller als ihre 3D-Gegenstücke arbeiten.