ISTR: End-to-End-Instanzsegmentierung mit Transformers

End-to-end-Paradigmen verbessern die Genauigkeit verschiedener auf tiefen Lernverfahren basierender Computer-Vision-Modelle erheblich. Dazu wurden Aufgaben wie die Objekterkennung durch den Ersatz nicht-end-to-end-komponenten optimiert, beispielsweise durch die Eliminierung der Non-Maximum-Suppression mittels Training mit einer Set-Verlustfunktion auf Basis einer bipartiten Zuordnung. Eine solche Erweiterung ist jedoch für die Instanzsegmentierung nicht anwendbar, da deren Ausgabedimensionen im Vergleich zur Objekterkennung erheblich höher sind. In diesem Artikel präsentieren wir einen Instanzsegmentierungs-Transformer namens ISTR, der das erste end-to-end-Framework dieser Art darstellt. ISTR prognostiziert niedrigdimensionale Masken-Embeddings und ordnet diese den Ground-Truth-Masken-Embeddings mittels Set-Verlust zu. Zudem führt ISTR Detektion und Segmentierung gleichzeitig mit einer rekurrenten Verfeinerungsstrategie durch, was einen neuen Ansatz zur Instanzsegmentierung gegenüber den bestehenden top-down- und bottom-up-Frameworks darstellt. Dank der vorgeschlagenen end-to-end-Mechanik erreicht ISTR sogar mit approximativen, suboptimalen Embeddings Spitzenleistungen. Konkret erzielt ISTR auf dem MS COCO-Datensatz eine Box/AP von 46,8 und eine Mask/AP von 38,6 mit ResNet50-FPN, sowie eine Box/AP von 48,1 und eine Mask/AP von 39,9 mit ResNet101-FPN. Quantitative und qualitative Ergebnisse belegen das vielversprechende Potenzial von ISTR als solide Grundlage für die Erkennung auf Instanzebene. Der Quellcode ist unter folgender Adresse verfügbar: https://github.com/hujiecpp/ISTR.