SuperCaustics: Echtzeit-Simulation von transparenten Objekten für Anwendungen im tiefen Lernen

Durchsichtige Objekte stellen ein sehr herausforderndes Problem in der Computer Vision dar. Aufgrund ihrer fehlenden präzisen Grenzen sind sie schwer zu segmentieren oder zu klassifizieren, und es gibt nur begrenzte Daten zur Verfügung, um tiefe neuronale Netze zu trainieren. Daher verwenden aktuelle Lösungen für dieses Problem starre synthetische Datensätze, die an Flexibilität mangeln und zu erheblichen Leistungsverlusten führen, wenn sie in realen Szenarien eingesetzt werden. Insbesondere enthalten diese synthetischen Datensätze aufgrund von Einschränkungen im Rendering-Prozess keine Eigenschaften wie Brechung, Dispersion und Kautiken. Um dieses Problem anzugehen, präsentieren wir SuperCaustics, eine Echtzeit-Simulation durchsichtiger Objekte mit Open-Source-Lizenz, die für Anwendungen des tiefen Lernens entwickelt wurde. SuperCaustics verfügt über umfangreiche Module zur stochastischen Erstellung von Umgebungen, nutzt Hardware-Strahlentrazierung zur Unterstützung von Kautiken (caustics), Dispersion und Brechung (refraction) und ermöglicht die Generierung riesiger Datensätze mit multimodalen, pixelgenauen Ground-Truth-Annotierungen. Um unser vorgeschlagenes System zu validieren, trainierten wir ein tiefes neuronales Netzwerk vom Grund auf neu, um durchsichtige Objekte in schwierigen Beleuchtungsszenarien zu segmentieren. Unser neuronales Netzwerk erreichte eine Leistung, die sich mit dem Stand der Technik vergleichen lässt, indem es nur 10 % der Trainingsdaten und einen Bruchteil der Trainingszeit benötigte. Weitere Experimente zeigen, dass ein Modell, das mit SuperCaustics trainiert wurde, verschiedene Arten von Kautiken segmentieren kann, sogar in Bildern mit mehreren überlappenden durchsichtigen Objekten. Nach unserem Wissen ist dies das erste solche Ergebnis für ein Modell, das auf synthetischen Daten trainiert wurde. Sowohl unser Open-Source-Code als auch unsere experimentellen Daten sind frei verfügbar online.