SOLQ: Objektssegmentierung durch Lernen von Abfragen

In diesem Artikel stellen wir einen end-to-end-Framework für die Instanzsegmentierung vor. Aufbauend auf dem kürzlich vorgestellten DETR [1] entwickeln wir eine Methode namens SOLQ, die Objekte durch das Lernen einheitlicher Queries segmentiert. In SOLQ repräsentiert jede Query ein einzelnes Objekt und verfügt über mehrere Darstellungen: Klasse, Position und Maske. Die gelernten Objektqueries führen gleichzeitig Klassifikation, Box-Regression und Masken-Encodierung in einer einheitlichen Vektorform durch. Während des Trainings werden die codierten Maskenvektoren durch die Kompressionscodierung der rohen räumlichen Masken überwacht. Im Inferenzzeitpunkt können die generierten Maskenvektoren direkt durch den umgekehrten Prozess der Kompressionscodierung in räumliche Masken transformiert werden. Experimentelle Ergebnisse zeigen, dass SOLQ eine state-of-the-art-Leistung erzielt und die meisten bestehenden Ansätze übertrifft. Darüber hinaus kann das gemeinsame Lernen der einheitlichen Query-Darstellung die Detektionsleistung von DETR erheblich verbessern. Wir hoffen, dass unsere SOLQ als ein starker Baseline für Transformer-basierte Instanzsegmentierung dienen kann. Der Quellcode ist unter https://github.com/megvii-research/SOLQ verfügbar.