HyperAIHyperAI

Command Palette

Search for a command to run...

Szene-Graphenerstellung aus Objekten, Phrasen und Regionenkaptionen

Yikang Li Wanli Ouyang Bolei Zhou Kun Wang Xiaogang Wang

Zusammenfassung

Objekterkennung, Szengraphenerzeugung und Regionenbeschreibung, drei Szeneverstehungsaufgaben auf verschiedenen semantischen Ebenen, sind miteinander verbunden: Szengraphen werden auf der Grundlage der in einem Bild erkannten Objekte und ihrer paarweisen Beziehungen generiert, während die Regionenbeschreibung eine sprachliche Beschreibung der Objekte, ihrer Attribute, Beziehungen und weiterer Kontextinformationen liefert. In dieser Arbeit schlagen wir ein neues neuronales Netzwerkmodell vor, das als Multi-Level Scene Description Network (MSDN) bezeichnet wird, um die drei visuellen Aufgaben in einem end-to-end-Prozess gemeinsam zu lösen. Zunächst werden Objekte, Phrasen und Caption-Regionen mit einem dynamischen Graphen basierend auf ihren räumlichen und semantischen Verbindungen ausgerichtet. Anschließend wird eine Struktur zur Feinabstimmung von Merkmalen verwendet, um Nachrichten über die drei semantischen Ebenen durch den Graphen zu übertragen. Wir evaluieren das gelernte Modell anhand der drei Aufgaben und zeigen, dass das gemeinsame Lernen über die drei Aufgaben mit unserer vorgeschlagenen Methode gegenseitige Verbesserungen gegenüber früheren Modellen bringt. Insbesondere bei der Szengraphenerzeugung übertreffen unsere Ergebnisse die des aktuellen Standes der Technik um mehr als 3% (margin).


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp