Biasing Like Human: Ein kognitiver Bias-Framework für die Generierung von Szenengraphen

Die Generierung von Szenengraphen ist eine anspruchsvolle Aufgabe, da es kein spezifisches Erkennungsmuster gibt (beispielsweise unterscheiden sich „anschauen“ und „nahe bei“ hinsichtlich der visuellen Merkmale nicht auffällig, während „nahe bei“ zwischen Objekten mit unterschiedlicher Morphologie auftreten kann). Daher geraten einige Ansätze zur Szenengraphgenerierung in die Falle, vorherrschende Relationen vorherzusagen, was auf willkürliche visuelle Merkmale und triviale Datensatzannotierungen zurückzuführen ist. Infolgedessen betonen jüngere Arbeiten daher „unvoreingenommene“ Ansätze, um die Vorhersagen besser auszugleichen und informativere Szenengraphen zu erzeugen. Dennoch sollten menschliche schnelle und präzise Urteile über Beziehungen zwischen zahlreichen Objekten nicht der reinen visuellen Wahrnehmung, sondern vielmehr einem „Bias“ (d. h. Erfahrung und sprachliches Wissen) zugeschrieben werden. Um die Fähigkeiten von Modellen zu verbessern, inspiriert durch den Mechanismus des „kognitiven Bias“, schlagen wir einen neuartigen 3-Paradigmen-Framework vor, der simuliert, wie Menschen sprachliche Merkmale der Labels als Leitfaden für visuelle Darstellungen nutzen, um versteckte Beziehungsmuster besser zu erkennen und die störende Ausbreitung von Rauschen in visuellen Signalen zu verringern. Unser Framework ist modellunabhängig und kann mit beliebigen Szenengraph-Modellen kombiniert werden. Umfassende Experimente belegen, dass unser Framework gegenüber Baseline-Modulen in mehreren Metriken signifikant besser abschneidet, dabei nur eine minimale Erhöhung der Parameter erfordert und die neueste Stand-of-the-Art-Leistung auf dem Visual Genome-Datensatz erreicht.