Panoptic-PartFormer: Lernen eines einheitlichen Modells für die panoptische Teilsegmentierung

Die Panoptic Part Segmentation (PPS) strebt danach, die panoptische Segmentierung und die Segmentierung von Teilen in eine einzige Aufgabe zu vereinen. Frühere Arbeiten haben hauptsächlich getrennte Ansätze verwendet, um Vorhersagen von Objekten (Things), Hintergründen (Stuff) und Teilen individuell zu behandeln, ohne gemeinsame Berechnungen oder Aufgabenassoziationen durchzuführen. In dieser Arbeit zielen wir darauf ab, diese Aufgaben auf architektonischer Ebene zu vereinen und das erste end-to-end-vereinte Verfahren namens Panoptic-PartFormer zu entwickeln. Insbesondere inspiriert von den jüngsten Fortschritten im Bereich der Vision Transformers, modellieren wir Objekte, Hintergründe und Teile als Objektanfragen (object queries) und lernen direkt, alle drei Vorhersagen als ein vereintes Problem der Maskenprädiktion und Klassifizierung zu optimieren. Wir entwerfen einen dekoppelten Decoder, um jeweils Teilmerkmale und Merkmale von Objekten/Hintergründen zu generieren. Anschließend schlagen wir vor, alle Anfragen und entsprechenden Merkmale gemeinsam und iterativ zur Schlussfolgerung zu nutzen. Die endgültige Maske kann durch das Skalarprodukt zwischen den Anfragen und den entsprechenden Merkmalsvektoren ermittelt werden. Ausführliche Abstraktionsstudien und Analysen belegen die Effektivität unseres Frameworks. Unser Panoptic-PartFormer erreicht neue Standarteergebnisse sowohl auf dem Cityscapes PPS-Datensatz als auch auf dem Pascal Context PPS-Datensatz mit einer Verringerung des Rechenaufwands um mindestens 70% GFLOPs und einer Reduktion der Parameterzahl um 50%. Insbesondere erzielen wir eine relative Verbesserung von 3,4% mit dem ResNet50-Basisnetzwerk und eine Verbesserung von 10% nach der Anwendung des Swin Transformers auf dem Pascal Context PPS-Datensatz. Nach bestem Wissen sind wir die Ersten, die das PPS-Problem mittels eines \textit{vereinten und end-to-end-Transformermodells} lösen. Angesichts seiner Effektivität und konzeptuellen Einfachheit hoffen wir, dass unser Panoptic-PartFormer als gute Baseline dienen kann und zukünftige vereinte Forschungsarbeiten für PPS unterstützt. Unser Code und unsere Modelle sind unter https://github.com/lxtGH/Panoptic-PartFormer verfügbar.请注意,这里有一些术语的翻译:- "thing" 被翻译为 "Objekt"- "stuff" 被翻译为 "Hintergrund"- "object query" 被翻译为 "Objektanfrage"这些翻译在上下文中是最合适的,但如果您有特定的偏好或需要进一步调整,请告知。