HyperAIHyperAI
vor 12 Tagen

Wenn ein Bild eine Geschichte erzählt: Die Rolle von visueller und semantischer Information zur Generierung von Absatzbeschreibungen

{Simon Dobnik, Nikolai Ilinykh}
Wenn ein Bild eine Geschichte erzählt: Die Rolle von visueller und semantischer Information zur Generierung von Absatzbeschreibungen
Abstract

Die Generierung mehrsatziger Bildbeschreibungen ist eine anspruchsvolle Aufgabe, die ein gut funktionierendes Modell erfordert, um kohärente und genaue Abschnitte zu erzeugen, die die auffälligen Objekte im Bild beschreiben. Wir argumentieren, dass mehrere Informationsquellen vorteilhaft sind, wenn visuelle Szenen mit langen Textsequenzen beschrieben werden sollen. Dazu gehören (i) perceptuelle Informationen sowie (ii) semantische (sprachliche) Informationen darüber, wie das im Bild Dargestellte beschrieben werden soll. Zudem vergleichen wir die Wirkung zweier unterschiedlicher Pooling-Mechanismen, jeweils auf einer einzelnen Modality oder auf deren Kombination. Wir zeigen, dass ein Modell, das sowohl visuelle als auch sprachliche Eingaben nutzt, zusammen mit einem bestimmten Pooling-Mechanismus zur Erzeugung genauer und vielfältiger Abschnitte eingesetzt werden kann. Die Ergebnisse unserer automatisierten und menschlichen Evaluation belegen, dass das Lernen, semantische Informationen gemeinsam mit visuellen Reizen in das Modell zur Absatzgenerierung einzubetten, keineswegs trivial ist und eine Vielzahl von Ansätzen für zukünftige Experimente aufwirft.

Wenn ein Bild eine Geschichte erzählt: Die Rolle von visueller und semantischer Information zur Generierung von Absatzbeschreibungen | Neueste Forschungsarbeiten | HyperAI