HyperAIHyperAI

Command Palette

Search for a command to run...

Schauen Sie tiefer, sehen Sie reicher: Tiefenbewusste Bildparagraphenbeschreibung

Hongzhi Yin Zi Huang Yang Li Yadan Luo Ziwei Wang

Zusammenfassung

Mit der weitverbreiteten Verfügbarkeit von Bildbeschreibungen auf Satzebene bleibt die automatische Generierung von Bildparagraphen bisher wenig erforscht. Die Beschreibung eines Bildes durch einen vollständigen Paragraphen erfordert eine geordnete, kohärente und abwechslungsreiche Anordnung von Sätzen und führt zwangsläufig zu einer höheren Komplexität im Vergleich zur Generierung einzelner Sätze. Bestehende Ansätze zur Bildparagraphen-Beschreibung liefern eine Folge von Sätzen, um Objekte und interessante Regionen darzustellen, wobei die Beschreibungen im Wesentlichen dadurch entstehen, dass Bildfragmente, die Objekte und Regionen enthalten, in herkömmliche Ein-Satz-Bildbeschreibungssysteme eingespeist werden. Diese Strategie ist jedoch schwierig, um Beschreibungen zu generieren, die eine räumliche Hierarchie und nicht überlappende Objekte garantieren. In diesem Artikel stellen wir ein tiefenbewusstes Aufmerksamkeitsmodell (Depth-aware Attention Model, DAM) vor, um Paragraphenbeschreibungen für Bilder zu erzeugen. Zunächst werden die Tiefenwerte von Bildbereichen geschätzt, um Objekte in unterschiedlichen räumlichen Positionen zu unterscheiden, was anschließend den sprachlichen Decoder dazu führt, räumliche Beziehungen zwischen Objekten zu erkennen und zu beschreiben. Das vorgeschlagene Modell generiert den Paragraphen logisch und kohärent. Durch die Integration der Aufmerksamkeitsmechanik kann das gelernte Modell den Fokus während der Paragraphengenerierung schnell wechseln, während gleichzeitig redundante Beschreibungen desselben Objekts vermieden werden. Umfassende quantitative Experimente und eine Benutzerstudie wurden auf dem Visual Genome-Datensatz durchgeführt, die die Wirksamkeit und Interpretierbarkeit des vorgeschlagenen Modells belegen.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Schauen Sie tiefer, sehen Sie reicher: Tiefenbewusste Bildparagraphenbeschreibung | Paper | HyperAI