Sparsity-Invariante CNNs

In dieser Arbeit betrachten wir Faltungsneuronale Netze (Convolutional Neural Networks, CNNs), die auf dünn besetzten Eingaben operieren, mit einer Anwendung auf die Aufsampling von Tiefeninformationen aus dünn besetzten Laserscan-Daten. Zunächst zeigen wir, dass traditionelle Faltungsnetze bei der Anwendung auf dünn besetzte Daten schlecht abschneiden, selbst wenn die Position fehlender Daten dem Netzwerk zur Verfügung gestellt wird. Um dieses Problem zu überwinden, schlagen wir eine einfache, aber effektive dünn besetzte Faltungsschicht vor, die während des Faltungsprozesses explizit die Position fehlender Daten berücksichtigt. Wir demonstrieren die Vorteile der vorgeschlagenen Netzarchitektur in synthetischen und realen Experimenten im Vergleich zu verschiedenen Baseline-Methoden. Im Vergleich zu dichten Baselines verallgemeinert das vorgeschlagene dünn besetzte Faltungsnetz gut auf neue Datensätze und ist invariant gegenüber dem Grad der Dünnbesetzung der Daten. Für unsere Auswertung leiten wir einen neuen Datensatz vom KITTI-Benchmark ab, der 93.000 tiefenanotierte RGB-Bilder umfasst. Unser Datensatz ermöglicht das Training und die Auswertung von Techniken für das Aufsampling und die Vorhersage von Tiefendaten in anspruchsvollen realweltlichen Szenarien und wird bei Veröffentlichung zur Verfügung gestellt.