Verbesserung der Bild-Co-Segmentierung durch Deep Metric Learning

Deep Metric Learning (DML) ist bei Aufgaben der Computer Vision von großem Nutzen. In diesem Artikel führen wir DML erstmals in die Bild-Co-Segmentierung ein. Wir stellen eine neue Triplet-Loss-Funktion für die Bildsegmentierung vor, kurz IS-Triplet-Loss genannt, und kombinieren sie mit herkömmlichen Verlustfunktionen für die Bildsegmentierung. Im Gegensatz zu typischen DML-Aufgaben, bei denen die Metrik zwischen Bildern gelernt wird, betrachten wir jeden Pixel als ein eigenständiges Beispiel und nutzen deren eingebettete Merkmale im hochdimensionalen Raum, um Tripel zu bilden. Durch die Optimierung der IS-Triplet-Loss wird angestrebt, die Distanz zwischen Pixeln unterschiedlicher Kategorien größer als die zwischen Pixeln derselben Kategorie zu machen, sodass Pixel verschiedener Kategorien im hochdimensionalen Merkmalsraum besser voneinander zu unterscheiden sind. Darüber hinaus präsentieren wir eine effiziente Strategie zur Auswahl von Tripeln, um eine praktikable Berechnung der IS-Triplet-Loss zu ermöglichen. Schließlich wird die IS-Triplet-Loss mit drei traditionellen Verlustfunktionen für die Bildsegmentierung kombiniert, um die Segmentierung durchzuführen. Wir wenden den vorgeschlagenen Ansatz auf die Bild-Co-Segmentierung an und testen ihn anhand der SBCoseg-Datenbank und der Internet-Datenbank. Die experimentellen Ergebnisse zeigen, dass unser Ansatz die Unterscheidbarkeit der Kategorien von Pixeln im hochdimensionalen Raum effektiv verbessert und somit die Leistung herkömmlicher Verlustfunktionen bei der Bildsegmentierung mit weniger Trainingszyklen unterstützt.