HiLo: Nutzung von Hoch- und Niederfrequenzbeziehungen für eine unverzerrte Generierung von panoptischen Szenengraphen

Die Panoptic Scene Graph-Erstellung (PSG) ist eine kürzlich vorgeschlagene Aufgabe im Bereich der Bildszenenverstehens, die das Ziel verfolgt, ein Bild zu segmentieren und Triplette von Subjekten, Objekten und ihren Beziehungen zu extrahieren, um einen Szenengraphen aufzubauen. Diese Aufgabe ist aus zwei Gründen besonders herausfordernd. Erstens leidet sie unter einem Long-Tail-Problem in ihren Beziehungskategorien, wodurch naiv verfasste, voreingenommene Methoden eher zu hochfrequenten Beziehungen tendieren. Bestehende unvoreingenommene Methoden bekämpfen das Long-Tail-Problem durch Daten-/Verlustwiederausgleich (data/loss rebalancing), um niedrigfrequente Beziehungen zu begünstigen. Zweitens kann ein Subjekt-Objekt-Paar zwei oder mehr semantisch überlappende Beziehungen haben. Während bestehende Methoden eine über die andere bevorzugen, ermöglicht unser vorgeschlagenes HiLo-Framework verschiedenen Netzwerkzweigen, sich auf niedrig- und hochfrequente Beziehungen zu spezialisieren, ihre Konsistenz zu gewährleisten und die Ergebnisse zu fusionieren. Nach bestem Wissen sind wir die Ersten, die eine explizit unvoreingenommene PSG-Methode vorschlagen. In umfangreichen Experimenten zeigen wir, dass unser HiLo-Framework den aktuellen Stand der Technik bei der PSG-Aufgabe erreicht. Wir wenden unsere Methode auch auf die Scene Graph Generation an, bei der statt Masken Kästchen vorhergesagt werden, und beobachten Verbesserungen gegenüber allen Baseline-Methoden. Der Quellcode ist unter https://github.com/franciszzj/HiLo verfügbar.