Command Palette
Search for a command to run...
Ortsunabhängige Generierung von Szenengraphen
Ortsunabhängige Generierung von Szenengraphen
Ege Özsoy Felix Holm Mahdi Saleh Tobias Czempiel Chantal Pellegrini Nassir Navab Benjamin Busam
Zusammenfassung
Die Generierung von Szenengraphen (Scene Graph Generation, SGG) ist eine Aufgabe im Bereich des visuellen Verständnisses, die darauf abzielt, eine Szene als Graph aus Entitäten und ihren gegenseitigen Beziehungen zu beschreiben. Bisherige Ansätze stützen sich auf räumliche Etikettierungen in Form von Umrandungsboxen oder Segmentierungsmasken, was die Anmerkungskosten erhöht und die Erweiterung von Datensätzen einschränkt. Da viele Anwendungen jedoch keine räumlichen Informationen erfordern, lösen wir diese Abhängigkeit und führen die ortsfreie Szenengraphgenerierung (location-free scene graph generation, LF-SGG) ein. Diese neue Aufgabe zielt darauf ab, Entitäten und deren Beziehungen vorherzusagen, ohne explizit ihre räumliche Lokalisierung zu berechnen. Um die Aufgabe objektiv zu evaluieren, müssen die vorhergesagten und die ground-truth-Szenengraphen miteinander verglichen werden. Wir lösen dieses NP-schwere Problem durch einen effizienten Branching-Algorithmus. Zudem entwickeln wir die erste Methode für LF-SGG, namens Pix2SG, die auf autoregressiver Sequenzmodellierung basiert. Wir belegen die Wirksamkeit unseres Ansatzes an drei Szenengraphgenerierungs-Datensätzen sowie zwei nachgelagerten Aufgaben, nämlich Bildretrieval und visuelles Fragenstellen, und zeigen, dass unsere Methode gegenüber bestehenden Verfahren konkurrenzfähig ist, ohne auf räumliche Hinweise angewiesen zu sein.