HyperAIHyperAI
vor 2 Monaten

Unverzerrte Szene-Graphenerstellung aus verzerrten Trainingsdaten

Kaihua Tang; Yulei Niu; Jianqiang Huang; Jiaxin Shi; Hanwang Zhang
Unverzerrte Szene-Graphenerstellung aus verzerrten Trainingsdaten
Abstract

Die heutige Aufgabe der Szengraphenerstellung (SGG) ist noch weit davon entfernt, praktisch zu sein, hauptsächlich aufgrund des starken Trainingsverzerrungen, wie zum Beispiel die Zusammenziehung vielfältiger Handlungen „Mensch geht über / sitzt auf / liegt am Strand“ zu „Mensch am Strand“. Bei solchen SGG können nachgelagerte Aufgaben wie visuelle Fragebeantwortung (VQA) kaum bessere Szenenstrukturen als lediglich eine Sammlung von Objekten ableiten. Dennoch ist das Entfernen von Verzerrungen in der SGG nicht trivial, da traditionelle Entverzerrungsmethoden nicht zwischen guten und schlechten Verzerrungen unterscheiden können, beispielsweise zwischen einem guten Kontextprior (wie „Person liest Buch“ anstatt „isst“) und einer schlechten langen Schwanz-Verzerrung (wie „nahe“ dominiert „hinter / vor“). In dieser Arbeit stellen wir einen neuen SGG-Framework vor, das auf kausaler Inferenz basiert und nicht auf der konventionellen Wahrscheinlichkeit. Zunächst bauen wir einen kausalen Graphen für die SGG auf und führen die traditionelle verzerrende Trainingsschritte mit diesem Graphen durch. Anschließend schlagen wir vor, aus dem trainierten Graphen die kontrafaktische Kausalität abzuleiten, um den Effekt der schlechten Verzerrung zu bestimmen, die entfernt werden sollte. Insbesondere verwenden wir den Gesamtdirekten Effekt (TDE) als vorgeschlagenes endgültiges Prädikat-Score für eine verzerrungsfreie SGG. Es sei darauf hingewiesen, dass unser Framework unabhängig von jedem SGG-Modell ist und daher in der Gemeinschaft breit angewendet werden kann, die verzerrungsfreie Vorhersagen sucht. Durch die Nutzung des vorgeschlagenen Szengraphendiagnose-Toolkits auf dem SGG-Benchmark Visual Genome und mehreren gängigen Modellen konnten wir erhebliche Verbesserungen gegenüber den bisher besten Methoden beobachten.

Unverzerrte Szene-Graphenerstellung aus verzerrten Trainingsdaten | Neueste Forschungsarbeiten | HyperAI