HyperAIHyperAI
vor 2 Monaten

Szene-Graphenerstellung aus Objekten, Phrasen und Regionenkaptionen

Yikang Li; Wanli Ouyang; Bolei Zhou; Kun Wang; Xiaogang Wang
Szene-Graphenerstellung aus Objekten, Phrasen und Regionenkaptionen
Abstract

Objekterkennung, Szengraphenerzeugung und Regionenbeschreibung, drei Szeneverstehungsaufgaben auf verschiedenen semantischen Ebenen, sind miteinander verbunden: Szengraphen werden auf der Grundlage der in einem Bild erkannten Objekte und ihrer paarweisen Beziehungen generiert, während die Regionenbeschreibung eine sprachliche Beschreibung der Objekte, ihrer Attribute, Beziehungen und weiterer Kontextinformationen liefert. In dieser Arbeit schlagen wir ein neues neuronales Netzwerkmodell vor, das als Multi-Level Scene Description Network (MSDN) bezeichnet wird, um die drei visuellen Aufgaben in einem end-to-end-Prozess gemeinsam zu lösen. Zunächst werden Objekte, Phrasen und Caption-Regionen mit einem dynamischen Graphen basierend auf ihren räumlichen und semantischen Verbindungen ausgerichtet. Anschließend wird eine Struktur zur Feinabstimmung von Merkmalen verwendet, um Nachrichten über die drei semantischen Ebenen durch den Graphen zu übertragen. Wir evaluieren das gelernte Modell anhand der drei Aufgaben und zeigen, dass das gemeinsame Lernen über die drei Aufgaben mit unserer vorgeschlagenen Methode gegenseitige Verbesserungen gegenüber früheren Modellen bringt. Insbesondere bei der Szengraphenerzeugung übertreffen unsere Ergebnisse die des aktuellen Standes der Technik um mehr als 3% (margin).

Szene-Graphenerstellung aus Objekten, Phrasen und Regionenkaptionen | Neueste Forschungsarbeiten | HyperAI