HyperAIHyperAI
vor 17 Tagen

Ausdrucksstarke Generierung von Szenengraphen durch die Integration von Alltagswissen für visuelles Verständnis und Schlussfolgerung

{Edward, John G.; Curry, M. Jaleed; Breslin, Khan}
Abstract

Die Generierung von Szenengraphen zielt darauf ab, die semantischen Elemente in Bildern strukturiert durch die Modellierung von Objekten und deren Beziehungen zu erfassen, was für visuelle Verständnis- und Schlussfolgerungsaufgaben wie Bildbeschreibung, visuelle Fragebeantwortung, multimediale Ereignisverarbeitung, visuelle Erzählungen und Bildretrieval von entscheidender Bedeutung ist. Die derzeitigen Ansätze zur Szenengraphgenerierung erzielen begrenzte Leistung und Ausdruckskraft für höhere visuelle Verständnis- und Schlussfolgerungsaufgaben. Dieser Herausforderung kann durch die Nutzung von Alltagswissen – beispielsweise verwandten Fakten und Hintergrundkenntnissen zu den semantischen Elementen in Szenengraphen – entgegengewirkt werden. In diesem Artikel schlagen wir die Integration vielfältiger Alltagskenntnisse zu den semantischen Elementen in Szenengraphen vor, um reichhaltige und ausdrucksstarke Szenengraphen mithilfe einer heterogenen Wissensquelle zu generieren, die Alltagswissen aus sieben verschiedenen Wissensbasen konsolidiert. Die Graph-Embeddings der Objektknoten werden genutzt, um deren strukturelle Muster in der Wissensquelle auszunutzen, um相似itätsmaße für die Verbesserung und Erweiterung der Graphen zu berechnen. Wir führten experimentelle und vergleichende Analysen auf dem Standarddatensatz Visual Genome durch, wobei die vorgeschlagene Methode eine höhere Recall-Rate erzielte (R@K = 29,89; 35,4; 39,12 für K = 20, 50, 100) im Vergleich zur bestehenden State-of-the-Art-Technik (R@K = 25,8; 33,3; 37,8 für K = 20, 50, 100). Die qualitativen Ergebnisse der vorgeschlagenen Methode in einer nachgelagerten Aufgabe der Bildgenerierung zeigten, dass mit auf Alltagswissen basierenden Szenengraphen realistischere Bilder generiert werden können. Diese Ergebnisse unterstreichen die Wirksamkeit der Integration von Alltagswissen zur Verbesserung der Leistungsfähigkeit und Ausdruckskraft der Szenengraphgenerierung für visuelle Verständnis- und Schlussfolgerungsaufgaben.