OneFormer: Ein Transformer zur Steuerung der universellen Bildsegmentierung

Universelle Bildsegmentierung ist kein neues Konzept. Versuche aus den letzten Jahrzehnten, die Bildsegmentierung zu vereinheitlichen, umfassten Szenenanalyse, panoptische Segmentierung und, in jüngerer Zeit, neue panoptische Architekturen. Allerdings vereinheitlichen diese panoptischen Architekturen die Bildsegmentierung nicht vollständig, da sie jeweils einzeln für semantische, instanzbezogene oder panoptische Segmentierung trainiert werden müssen, um optimale Leistungen zu erzielen. Ideal wäre ein wirklich universelles Framework, das nur einmal trainiert wird und den besten Stand der Technik (SOTA) in allen drei Segmentierungsaufgaben erreicht. Zu diesem Zweck schlagen wir OneFormer vor, ein universelles Framework zur Bildsegmentierung mit einem Multitask-Train-once-Design.Zunächst schlagen wir eine aufgabenbedingte gemeinsame Trainingsstrategie vor, die es ermöglicht, innerhalb eines einzigen Multitask-Trainingsprozesses auf den Grundwahrheiten jedes Bereichs (semantische, instanzbezogene und panoptische Segmentierung) zu trainieren. Zweitens führen wir ein Aufgabentoken ein, um unser Modell auf die aktuelle Aufgabe abzustimmen und somit eine aufgabenabhängige Dynamik zu erreichen, die sowohl das Multitask-Training als auch die Inferenz unterstützt. Drittens schlagen wir vor, während des Trainings einen Abfrage-Text-Kontrastverlust (query-text contrastive loss) zu verwenden, um bessere Unterscheidungen zwischen den Aufgaben und Klassen herzustellen.Bemerkenswerterweise übertrifft unser einzelnes OneFormer-Modell spezialisierte Mask2Former-Modelle in allen drei Segmentierungsaufgaben auf ADE20k, CityScapes und COCO, obwohl letztere jeweils einzeln für jede der drei Aufgaben mit dreimal so vielen Ressourcen trainiert wurden. Mit neuen ConvNeXt- und DiNAT-Basismodellen beobachten wir sogar noch größere Leistungsverbesserungen. Wir glauben, dass OneFormer einen wichtigen Schritt darstellt, um die Bildsegmentierung universeller und zugänglicher zu machen. Um weitere Forschung zu unterstützen, stellen wir unseren Code und unsere Modelle unter https://github.com/SHI-Labs/OneFormer offen zur Verfügung.