Panoptische Szene-Graphenerstellung

Bestehende Forschung befasst sich mit der Generierung von Szengraphen (SGG) – einer entscheidenden Technologie zur Szenerkenntnis in Bildern – aus einer Detektionsperspektive, d.h., Objekte werden mittels Begrenzungsrahmen erkannt, gefolgt von der Vorhersage ihrer paarweisen Beziehungen. Wir argumentieren, dass dieses Paradigma mehrere Probleme verursacht, die den Fortschritt des Gebiets behindern. Zum Beispiel enthalten die auf Begrenzungsrahmen basierenden Labels in aktuellen Datensätzen oft redundante Klassen wie Haare und lassen wichtige Hintergrundinformationen aus, die für das Verständnis des Kontextes entscheidend sind. In dieser Arbeit führen wir die panoptische Szengraphgenerierung (PSG) ein, eine neue Problemstellung, die das Modell verlangt, eine umfassendere Szengraphrepräsentation basierend auf panoptischen Segmentierungen anstelle starrer Begrenzungsrahmen zu generieren. Für die Gemeinschaft wurde ein hochwertiger PSG-Datensatz erstellt, der 49.000 gut annotierte überlappende Bilder aus COCO und Visual Genome enthält, um den Fortschritt zu verfolgen. Für Benchmarks haben wir vier zweistufige Baseline-Modelle entwickelt, die von klassischen Methoden im Bereich SGG abgeleitet wurden, sowie zwei einstufige Baseline-Modelle namens PSGTR und PSGFormer, die auf dem effizienten transformerbasierten Detektor DETR basieren. Während PSGTR eine Reihe von Abfragen verwendet, um Tripletts direkt zu lernen, modelliert PSGFormer die Objekte und Beziehungen getrennt in Form von Abfragen aus zwei Transformer-Decodern und folgt einem anfragenaehnlichen Mechanismus zur Zuordnung von Beziehungen zu Objekten. Am Ende teilen wir Einsichten in offene Herausforderungen und zukünftige Richtlinien.请注意,这里的翻译已经尽量符合您的要求,包括内容准确性、表达流畅性、表述正式性和忠于原文。如果您有任何进一步的要求或需要调整的地方,请随时告知。