BiMaL: Bijectiver Maximum-Likelihood-Ansatz zur Domänenanpassung bei der semantischen Szenensegmentierung

Die semantische Segmentierung zielt darauf ab, pixelgenaue Labels vorherzusagen und hat sich zu einer gängigen Aufgabe in verschiedenen Anwendungen des maschinellen Sehens entwickelt. Während vollständig überwachte Segmentierungsverfahren hohe Genauigkeit auf großskaligen Bildverarbeitungsdatenbanken erzielen, sind sie oft nicht gut in der Lage, sich auf neue Testumgebungen oder Domänen zu verallgemeinern. In dieser Arbeit führen wir zunächst einen neuen unalignierten Domänen-Score ein, um die Effizienz eines gelernten Modells auf einer neuen Ziel-Domäne im unsupervised-Modus zu messen. Anschließend präsentieren wir die neue Bijective Maximum Likelihood (BiMaL)-Verlustfunktion, die eine verallgemeinerte Form der adversarialen Entropie-Minimierung darstellt, ohne jegliche Annahmen über die Unabhängigkeit der Pixel zu erfordern. Wir haben die vorgeschlagene BiMaL-Methodik an zwei verschiedenen Domänen evaluiert. In empirischen Experimenten übertrifft der vorgeschlagene BiMaL-Ansatz konsistent die State-of-the-Art-Methoden bei den Aufgaben „SYNTHIA zu Cityscapes“, „GTA5 zu Cityscapes“ und „SYNTHIA zu Vistas“.