vor 7 Monaten

Zusammenfassung

Objekterkennung, Szengraphenerzeugung und Regionenbeschreibung, drei Szeneverstehungsaufgaben auf verschiedenen semantischen Ebenen, sind miteinander verbunden: Szengraphen werden auf der Grundlage der in einem Bild erkannten Objekte und ihrer paarweisen Beziehungen generiert, während die Regionenbeschreibung eine sprachliche Beschreibung der Objekte, ihrer Attribute, Beziehungen und weiterer Kontextinformationen liefert. In dieser Arbeit schlagen wir ein neues neuronales Netzwerkmodell vor, das als Multi-Level Scene Description Network (MSDN) bezeichnet wird, um die drei visuellen Aufgaben in einem end-to-end-Prozess gemeinsam zu lösen. Zunächst werden Objekte, Phrasen und Caption-Regionen mit einem dynamischen Graphen basierend auf ihren räumlichen und semantischen Verbindungen ausgerichtet. Anschließend wird eine Struktur zur Feinabstimmung von Merkmalen verwendet, um Nachrichten über die drei semantischen Ebenen durch den Graphen zu übertragen. Wir evaluieren das gelernte Modell anhand der drei Aufgaben und zeigen, dass das gemeinsame Lernen über die drei Aufgaben mit unserer vorgeschlagenen Methode gegenseitige Verbesserungen gegenüber früheren Modellen bringt. Insbesondere bei der Szengraphenerzeugung übertreffen unsere Ergebnisse die des aktuellen Standes der Technik um mehr als 3% (margin).

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Monaten

Yikang Li Wanli Ouyang Bolei Zhou Kun Wang Xiaogang Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 7 Monaten

Yikang Li Wanli Ouyang Bolei Zhou Kun Wang Xiaogang Wang

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Szene-Graphenerstellung aus Objekten, Phrasen und Regionenkaptionen

Yikang Li Wanli Ouyang Bolei Zhou Kun Wang Xiaogang Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Szene-Graphenerstellung aus Objekten, Phrasen und Regionenkaptionen

Yikang Li Wanli Ouyang Bolei Zhou Kun Wang Xiaogang Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Szene-Graphenerstellung aus Objekten, Phrasen und Regionenkaptionen

Yikang Li Wanli Ouyang Bolei Zhou Kun Wang Xiaogang Wang

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters