Semantikdiversität-bewusstes Prototypenbasiertes Lernen für eine unverzerrte Szengraphenerzeugung

Die Aufgabe der Szene-Graph-Erzeugung (SGG) besteht darin, Objekte innerhalb eines Bildes zu erkennen und Prädikate vorherzusagen, die die Beziehungen zwischen den Objekten darstellen. In SGG-Benchmark-Datensätzen wird jedoch jedem Subjekt-Objekt-Paar ein einzelnes Prädikat zugeordnet, obwohl ein einzelnes Prädikat verschiedene Semantiken aufweisen kann (d.h. semantische Vielfalt). Existierende SGG-Modelle werden trainiert, für jedes Paar das eine und einzige Prädikat vorherzusagen. Dies führt dazu, dass SGG-Modelle die semantische Vielfalt, die in einem Prädikat vorhanden sein kann, übersehen und somit voreingenommene Vorhersagen treffen. In dieser Arbeit schlagen wir einen neuen, modellunabhängigen Rahmen zur semantischen Vielfalt-bewussten Prototypenbasierten Lernmethode (DPL) vor, der es ermöglicht, voreingenommenheitsfreie Vorhersagen basierend auf dem Verständnis der semantischen Vielfalt von Prädikaten zu treffen. Insbesondere lernt DPL die Bereiche im semantischen Raum, die von jedem Prädikat abgedeckt werden, um zwischen den verschiedenen Semantiken zu unterscheiden, die ein einzelnes Prädikat repräsentieren kann. Ausführliche Experimente zeigen, dass unser vorgeschlagener modellunabhängiger DPL-Rahmen erhebliche Leistungsverbesserungen bei existierenden SGG-Modellen bringt und auch effektiv das Verständnis der semantischen Vielfalt von Prädikaten fördert.