Multitask AET mit orthogonaler Tangenten-Regularität für die Detektion dunkler Objekte

Dunkle Umgebungen stellen eine Herausforderung für Computer-Vision-Algorithmen dar, da sie aufgrund unzureichender Photonen und unerwünschter Störungen Schwierigkeiten bei der Objekterkennung haben. Um die Objekterkennung in dunklen Umgebungen zu verbessern, schlagen wir ein neuartiges Multitask-Auto-Encoding-Transformation (MAET)-Modell vor, das in der Lage ist, die inhärenten Muster hinter der Lichtveränderung zu erkunden. Im Rahmen einer selbstüberwachten Lernstrategie lernt das MAET die inhärente visuelle Struktur durch Kodierung und Dekodierung einer realistischen, durch Beleuchtungsdegradation verursachten Transformation, wobei sowohl das physikalische Rauschmodell als auch die Bildsignalverarbeitung (ISP) berücksichtigt werden.Auf Basis dieser Darstellung erreichen wir die Aufgabe der Objekterkennung durch Dekodierung der Bounding-Box-Koordinaten und Klassen. Um eine übermäßige Verflechtung der beiden Aufgaben zu vermeiden, entkoppelt unser MAET Objekt- und Degradationsmerkmale durch Einführung einer orthogonalen Tangenten-Regularität. Dies führt zu einer parametrischen Mannigfaltigkeit, entlang derer die Multitask-Vorhersagen geometrisch formuliert werden können, indem die Orthogonalität der Tangentialvektoren entlang der Ausgaben der jeweiligen Aufgaben maximiert wird. Unser Framework lässt sich auf Basis gängiger Architekturen für Objekterkennung implementieren und direkt end-to-end mit herkömmlichen Datensätzen für Objekterkennung wie VOC und COCO trainieren. Wir erzielen eine state-of-the-art-Leistung sowohl auf synthetischen als auch auf realen Datensätzen. Der Quellcode ist unter https://github.com/cuiziteng/MAET verfügbar.