GPS-Net: Graph Property Sensing Network für die Generierung von Szenengraphen

Die Szenengraphgenerierung (Scene Graph Generation, SGG) zielt darauf ab, Objekte in einem Bild sowie deren paarweise Beziehungen zu erkennen. In jüngeren Arbeiten wurden drei zentrale Eigenschaften von Szenengraphen bisher nur unzureichend untersucht: nämlich die Richtung der Kanten, die unterschiedliche Priorität zwischen Knoten und die langschwanzige Verteilung der Beziehungen. In dieser Arbeit schlagen wir daher ein Graph Property Sensing Network (GPS-Net) vor, das diese drei Eigenschaften umfassend ausnutzt. Erstens stellen wir einen neuartigen Nachrichtenübertragungs-Modul vor, der die Knotenmerkmale durch kontextuelle Informationen spezifisch für jeden Knoten erweitert und die Kantenrichtung mittels eines dreigliedrigen Modells kodiert. Zweitens führen wir eine knotenprioritätssensitive Verlustfunktion ein, um die Unterschiede in der Priorität zwischen Knoten während des Trainings angemessen zu berücksichtigen. Dies wird erreicht durch die Einführung einer Abbildungsfunktion, die den Fokussierungsparameter im Focal-Loss anpasst. Drittens, da die Häufigkeit von Beziehungen durch das Problem der langschwanzigen Verteilung beeinflusst wird, mildern wir dieses Problem, indem wir zunächst die Verteilung weich machen und anschließend ermöglichen, dass sie je nach visuellem Erscheinungsbild jedes Subjekt-Objekt-Paares angepasst wird. Systematische Experimente belegen die Wirksamkeit der vorgeschlagenen Ansätze. Darüber hinaus erreicht GPS-Net state-of-the-art Ergebnisse auf drei etablierten Datensätzen: VG, OI und VRD, wobei signifikante Verbesserungen unter verschiedenen Einstellungen und Bewertungsmaßen erzielt werden. Der Quellcode und die Modelle sind unter \url{https://github.com/taksau/GPS-Net} verfügbar.