Gestapelte Hybrid-Aufmerksamkeit und Gruppenkollaboratives Lernen für eine unverzerrte Szengraphenerzeugung

Die Szene-Graph-Erzeugung (Scene Graph Generation), die im Allgemeinen einem regulären Encoder-Decoder-Pipeline folgt, zielt darauf ab, zunächst die visuellen Inhalte im gegebenen Bild zu kodieren und sie dann in einen kompakten Zusammenfassungsgraphen zu parsen. Bestehende Ansätze zur Szene-Graph-Erzeugung (SGG) vernachlässigen im Allgemeinen nicht nur die unzureichende Modalitätsfusion zwischen Vision und Sprache, sondern scheitern auch daran, aufgrund verzerrter Beziehungsprognosen informative Prädikate bereitzustellen, was dazu führt, dass SGG weit von der Praxis entfernt ist. Um diesem Problem entgegenzutreten, präsentieren wir in dieser Arbeit erstmals ein neuartiges Netzwerk mit gestapelten hybriden Aufmerksamkeitsmechanismen (Stacked Hybrid-Attention Network), das sowohl die intramodale Verfeinerung als auch die intermodale Interaktion fördert und als Encoder dient. Anschließend entwickeln wir eine innovative Gruppenkollaborations-Lernstrategie (Group Collaborative Learning), um den Decoder zu optimieren. Insbesondere ausgehend von der Erkenntnis, dass die Klassifikationsfähigkeit eines einzelnen Klassifizierers bei einem extrem unbalancierten Datensatz begrenzt ist, stellen wir zunächst eine Gruppe von Klassifizierern ein, die sich auf das Unterscheiden verschiedener Klassenuntergruppen spezialisiert haben. Dann optimieren wir diese Klassifizierer unter zwei Aspekten kooperativ, um eine unverzerrte Szene-Graph-Erzeugung (unbiased SGG) zu fördern. Experimente an den Datensätzen Visual Genome (VG) und GQA zeigen, dass wir nicht nur einen neuen Stand der Technik im Bereich der unverzerrten Metrik etablieren, sondern auch die Leistung gegenüber zwei Baseline-Methoden nahezu verdoppeln.