HyperAIHyperAI
vor 3 Monaten

Vision-Transformer-basiertes Modell zur Beschreibung einer Bildmenge als Geschichte

Zainy M. Malakan, Ghulam Mubashar Hassan, Ajmal Mian
Vision-Transformer-basiertes Modell zur Beschreibung einer Bildmenge als Geschichte
Abstract

Visual Story-Telling ist der Prozess, aus einer Reihe von Bildern eine mehrsätzige Erzählung zu generieren. Die angemessene Einbeziehung visueller Vielfalt und kontextueller Informationen, die in den Eingabebildern enthalten sind, stellt eine der herausforderndsten Aufgaben im Bereich des Visual Story-Telling dar. Folglich fehlen Erzählungen, die aus einer Bildsequenz abgeleitet werden, oft an Kohärenz, Relevanz und semantischen Beziehungen. In diesem Artikel stellen wir ein neuartiges, auf einem Vision Transformer basierendes Modell zur Beschreibung einer Bildsequenz als Geschichte vor. Das vorgeschlagene Verfahren extrahiert die charakteristischen Merkmale der Eingabebilder mittels eines Vision Transformers (ViT). Zunächst werden die Eingabebilder in 16×16-Patches unterteilt und zu einer linearen Projektion flacher Patches zusammengefasst. Die Transformation eines einzelnen Bildes in mehrere Bildpatches ermöglicht die Erfassung der visuellen Vielfalt der Eingabemuster. Diese Merkmale dienen als Eingabe für einen bidirektionalen LSTM, der Teil des Sequenz-Encoders ist und die vergangene und zukünftige Kontextinformation aller Bildpatches erfasst. Anschließend wird eine Aufmerksamkeitsmechanik implementiert, um die Unterscheidungskraft der Daten zu erhöhen, die an das Sprachmodell – ein Mogrifier-LSTM – weitergeleitet werden. Die Leistungsfähigkeit unseres vorgeschlagenen Modells wird anhand des Visual Story-Telling-Datensatzes (VIST) evaluiert. Die Ergebnisse zeigen, dass unser Modell die derzeitigen State-of-the-Art-Modelle übertrifft.