HyperAIHyperAI
vor 11 Tagen

Hide-and-Tell: Lernen, Fotoströme für visuelle Geschichten zu verbinden

Yunjae Jung, Dahun Kim, Sanghyun Woo, Kyungsu Kim, Sungjin Kim, In So Kweon
Hide-and-Tell: Lernen, Fotoströme für visuelle Geschichten zu verbinden
Abstract

Visuelle Erzählung ist eine Aufgabe, bei der eine kurze Geschichte auf der Grundlage von Fotostromen erstellt wird. Im Gegensatz zur bestehenden visuellen Beschreibung (Visual Captioning) zielt die Erzählung darauf ab, nicht nur faktische Beschreibungen, sondern auch menschenähnliche Erzählstruktur und semantische Tiefe zu beinhalten. Allerdings umfasst der VIST-Datensatz pro Geschichte nur eine kleine, feste Anzahl an Bildern. Daher stellt die Hauptherausforderung der visuellen Erzählung die Brücke über die visuellen Lücken zwischen den Bildern mittels erzählender und imaginativer Erzählung dar. In diesem Paper schlagen wir vor, explizit zu lernen, eine Erzählstruktur zu erfinden, die diese visuellen Lücken überbrückt. Während des Trainings wird zufällig ein oder mehrere Bilder aus dem Eingabestapel entfernt, und wir trainieren das Netzwerk dazu, dennoch eine plausibel vollständige Geschichte zu generieren, selbst wenn Bilder fehlen. Darüber hinaus präsentieren wir ein „Hide-and-Tell“-Modell für die visuelle Erzählung, das darauf ausgelegt ist, nichtlokale Beziehungen über die Fotostrome zu lernen und herkömmliche RNN-basierte Modelle zu verfeinern und zu verbessern. In Experimenten zeigen wir, dass unser Hide-and-Tell-Ansatz sowie die Netzwerkarchitektur tatsächlich wirksam für die Erzählung sind und dass unser Modell gegenüber vorherigen state-of-the-art-Methoden in automatischen Bewertungsmaßen übertrifft. Schließlich demonstrieren wir qualitativ die Fähigkeit des gelernten Modells, die Erzählstruktur über visuelle Lücken hinweg zu interpolieren.

Hide-and-Tell: Lernen, Fotoströme für visuelle Geschichten zu verbinden | Neueste Forschungsarbeiten | HyperAI