Fein granulares Szene-Graph-Generierung mit Datenübertragung

Die Szengraphenerzeugung (SGG) ist darauf ausgelegt, (Subjekt, Prädikat, Objekt)-Tripel in Bildern zu extrahieren. Kürzliche Arbeiten haben bei der SGG stetige Fortschritte gemacht und nützliche Werkzeuge für hochrangige visuelle und sprachliche Verarbeitung bereitgestellt. Dennoch sind die Vorhersagen aktueller SGG-Modelle aufgrund von Problemen in der Datenverteilung, einschließlich einer langen Schweifeverteilung und semantischer Ambiguität, dazu neigend, auf einige häufige aber wenig informative Prädikate (z.B. "auf", "bei") zu kollabieren. Dies begrenzt die praktische Anwendung dieser Modelle in nachgelagerten Aufgaben.Um die oben genannten Probleme anzugehen, schlagen wir eine neuartige Methode zur internen und externen Datenübertragung (IETrans) vor, die als Plug-and-Play-Lösung eingesetzt werden kann und sich auf große SGG mit 1.807 Prädikatklassen erweitern lässt. Unser IETrans versucht das Problem der Datenverteilung durch automatische Erstellung eines verbesserten Datensatzes zu lindern, der für alle Prädikate ausreichendere und zusammenhängendere Annotationen liefert. Durch das Training auf diesem verbesserten Datensatz verdoppelt ein Neurales Motivmodell die makroscopische Leistung, während es gleichzeitig eine wettbewerbsfähige mikroskopische Leistung beibehält. Der Code und die Daten sind öffentlich verfügbar unter https://github.com/waxnkw/IETrans-SGG.pytorch.