MST: Adaptive Multi-Scale Tokens zur geleiteten interaktiven Segmentierung

Interaktive Segmentierung hat aufgrund ihrer Anwendung in der Mensch-Computer-Interaktion und Datenannotierung erhebliche Aufmerksamkeit erfahren. Um das Problem der Skalenvariation des Ziels in der interaktiven Segmentierung anzugehen, wird ein neuartiger Algorithmus zur mehrskaligen Token-Anpassung vorgeschlagen. Durch die Durchführung von Top-k-Operationen über mehrskalige Tokens wird die Berechnungskomplexität erheblich reduziert, ohne die Leistung zu beeinträchtigen. Um die Robustheit der mehrskaligen Token-Auswahl zu verbessern, wird zudem ein auf kontrastiver Verlustfunktion basierender Token-Lernalgorithmus vorgeschlagen. Dieser Algorithmus kann die Leistung der mehrskaligen Token-Anpassung effektiv steigern. Umfassende Benchmarking-Tests zeigen, dass der Algorithmus gegenüber aktuellen Methoden eine state-of-the-art (SOTA)-Leistung erzielt. Ein interaktives Demo und sämtlicher reproduzierbarer Quellcode werden unter https://github.com/hahamyt/mst veröffentlicht.