Panoptische Szene-Graphenerzeugung mit semantisch-prototypischem Lernen

Die Panoptische Szengraphenerzeugung (PSG) analysiert Objekte und prognostiziert ihre Beziehungen (Prädikate), um menschliche Sprache und visuelle Szenen zu verbinden. Allerdings führen unterschiedliche sprachliche Präferenzen der Annotatoren und semantische Überlappungen zwischen den Prädikaten zu verzerrten Prädikatannotierungen im Datensatz, d.h., unterschiedliche Prädikate für dieselben Objektpaare. Verzerrte Prädikatannotierungen erschweren es den PSG-Modellen, eine klare Entscheidungsebene zwischen den Prädikaten zu konstruieren, was die praktische Anwendung dieser Modelle erheblich behindert. Um diese intrinsischen Verzerrungen zu beheben, schlagen wir ein neues Framework namens ADTrans vor, das verzerrte Prädikatannotierungen auf informative und einheitliche Weise anpassend überträgt. Um Konsistenz und Genauigkeit während des Transferprozesses sicherzustellen, schlagen wir vor, die Invarianz der Darstellungen in jeder Prädikatkategorie zu messen und unverzerrte Prototypen von Prädikaten mit unterschiedlichen Intensitäten zu lernen. Gleichzeitig messen wir kontinuierlich die Verteilungsänderungen zwischen jeder Darstellung und ihrem Prototyp und filtern ständig potentiell verzerrte Daten. Schließlich werden verzerrte Annotierungen im unverzerrten Prädikat-Prototyp-Darstellungsraum leicht identifiziert. Experimente zeigen, dass ADTrans die Leistung der Benchmark-Modelle erheblich verbessert, einen neuen Stand der Technik erreicht und eine ausgezeichnete Generalisierungsfähigkeit und Effektivität auf mehreren Datensätzen demonstriert.