HyperAIHyperAI
vor 17 Tagen

Instanzen als Abfragen

Yuxin Fang, Shusheng Yang, Xinggang Wang, Yu Li, Chen Fang, Ying Shan, Bin Feng, Wenyu Liu
Instanzen als Abfragen
Abstract

Kürzlich erreichen abfragenbasierte Objektdetektionsframeworks eine vergleichbare Leistung wie frühere State-of-the-Art-Objektdetektoren. Dennoch bleibt die Frage, wie solche Frameworks optimal genutzt werden können, um Instanzsegmentierung durchzuführen, ein offenes Problem. In diesem Paper stellen wir QueryInst (Instances as Queries) vor, eine abfragenbasierte Methode zur Instanzsegmentierung, die durch parallele Supervision auf dynamischen Maskenköpfen getrieben wird. Der zentrale Ansatz von QueryInst beruht darauf, die inhärente ein-zu-eins-Beziehung zwischen Objektabfragen über verschiedene Stufen hinweg sowie die ein-zu-eins-Beziehung zwischen Masken-RoI-Features und Objektabfragen innerhalb derselben Stufe auszunutzen. Dieser Ansatz beseitigt die explizite Verbindung mehrstufiger Maskenköpfe und die Probleme der Vorschlagsverteilungsinkonsistenz, die bei nicht-abfragenbasierten mehrstufigen Methoden zur Instanzsegmentierung inhärent sind. Wir führen umfangreiche Experimente auf drei anspruchsvollen Benchmarks durch, nämlich COCO, CityScapes und YouTube-VIS, um die Wirksamkeit von QueryInst bei der Instanzsegmentierung und der Video-Instanzsegmentierung (VIS) zu evaluieren. Konkret erreicht QueryInst mit einem ResNet-101-FPN-Backbone auf COCO test-dev eine Box-AP von 48,1 und eine Mask-AP von 42,8 – jeweils zwei Punkte höher als HTC – und läuft gleichzeitig 2,4-mal schneller. Für die Video-Instanzsegmentierung erzielt QueryInst die beste Leistung unter allen Online-VIS-Verfahren und erreicht ein gut ausgewogenes Verhältnis zwischen Geschwindigkeit und Genauigkeit. Der Quellcode ist unter \url{https://github.com/hustvl/QueryInst} verfügbar.

Instanzen als Abfragen | Neueste Forschungsarbeiten | HyperAI