Wissensbasiertes Routingnetzwerk für die Generierung von Szenengraphen

Um eine Szene tiefgründig zu verstehen, geht es nicht nur darum, einzelne Objekte zu lokalisieren oder zu erkennen, sondern auch die Beziehungen und Interaktionen zwischen ihnen zu erschließen. Allerdings führt die ernsthaft ungleichmäßige Verteilung von realweltlichen Beziehungen dazu, dass existierende Methoden bei seltenen Beziehungen sehr schlecht abschneiden. In dieser Arbeit zeigen wir, dass die statistischen Korrelationen zwischen Objektpaaren und ihren Beziehungen den semantischen Raum effektiv regulieren können und Vorhersagen weniger eindeutig machen, wodurch das Problem der ungleichmäßigen Verteilung gut gelöst wird. Um dies zu erreichen, integrieren wir diese statistischen Korrelationen in tiefe Neuronale Netze (Deep Neural Networks), um durch die Entwicklung eines Wissens-Eingebetteten Routing-Netzes (Knowledge-Embedded Routing Network) die Generierung von Szenengraphen zu erleichtern. Spezieller zeigen wir, dass die statistischen Korrelationen zwischen Objekten, die in Bildern auftreten, und ihren Beziehungen durch einen strukturierten Wissensgraphen explizit dargestellt werden können. Ein Routing-Mechanismus wird gelernt, um Nachrichten durch den Graphen zu verbreiten und ihre Interaktionen zu erforschen. Ausführliche Experimente auf dem groß angelegten Visual Genome-Datensatz demonstrieren die Überlegenheit der vorgeschlagenen Methode im Vergleich zu aktuellen Spitzenkonkurrenten (state-of-the-art competitors).