HyperAIHyperAI
vor 12 Tagen

Schauen Sie tiefer, sehen Sie reicher: Tiefenbewusste Bildparagraphenbeschreibung

{Hongzhi Yin, Zi Huang, Yang Li, Yadan Luo, Ziwei Wang}
Abstract

Mit der weitverbreiteten Verfügbarkeit von Bildbeschreibungen auf Satzebene bleibt die automatische Generierung von Bildparagraphen bisher wenig erforscht. Die Beschreibung eines Bildes durch einen vollständigen Paragraphen erfordert eine geordnete, kohärente und abwechslungsreiche Anordnung von Sätzen und führt zwangsläufig zu einer höheren Komplexität im Vergleich zur Generierung einzelner Sätze. Bestehende Ansätze zur Bildparagraphen-Beschreibung liefern eine Folge von Sätzen, um Objekte und interessante Regionen darzustellen, wobei die Beschreibungen im Wesentlichen dadurch entstehen, dass Bildfragmente, die Objekte und Regionen enthalten, in herkömmliche Ein-Satz-Bildbeschreibungssysteme eingespeist werden. Diese Strategie ist jedoch schwierig, um Beschreibungen zu generieren, die eine räumliche Hierarchie und nicht überlappende Objekte garantieren. In diesem Artikel stellen wir ein tiefenbewusstes Aufmerksamkeitsmodell (Depth-aware Attention Model, DAM) vor, um Paragraphenbeschreibungen für Bilder zu erzeugen. Zunächst werden die Tiefenwerte von Bildbereichen geschätzt, um Objekte in unterschiedlichen räumlichen Positionen zu unterscheiden, was anschließend den sprachlichen Decoder dazu führt, räumliche Beziehungen zwischen Objekten zu erkennen und zu beschreiben. Das vorgeschlagene Modell generiert den Paragraphen logisch und kohärent. Durch die Integration der Aufmerksamkeitsmechanik kann das gelernte Modell den Fokus während der Paragraphengenerierung schnell wechseln, während gleichzeitig redundante Beschreibungen desselben Objekts vermieden werden. Umfassende quantitative Experimente und eine Benutzerstudie wurden auf dem Visual Genome-Datensatz durchgeführt, die die Wirksamkeit und Interpretierbarkeit des vorgeschlagenen Modells belegen.

Schauen Sie tiefer, sehen Sie reicher: Tiefenbewusste Bildparagraphenbeschreibung | Neueste Forschungsarbeiten | HyperAI