Hierarchischer Foto-Szene-Kodierer für Album-Erzählung

In dieser Arbeit schlagen wir ein neues Modell vor, das einen hierarchischen Foto-Szene-Encoder und einen Rekonstruktor für die Aufgabe des Album-Erzählens umfasst. Der Foto-Szene-Encoder besteht aus zwei Unterencodern, nämlich dem Foto-Encoder und dem Szene-Encoder, die übereinander gestapelt sind und hierarchisch arbeiten, um die Strukturinformationen der Fotos innerhalb eines Albums vollständig zu nutzen. Insbesondere generiert der Foto-Encoder semantische Darstellungen für jedes Foto und nutzt dabei zeitliche Beziehungen zwischen ihnen. Der Szene-Encoder, der sich auf die ermittelten Fotodarstellungen stützt, ist dafür verantwortlich, Szenenwechsel zu erkennen und Szenden-Darstellungen zu generieren. Anschließend fasst der Decoder die kodierten Fotodarstellungen und Szenden-Darstellungen dynamisch und aufmerksam zusammen, um eine Sequenz von Albumerzählungen zu generieren. Auf dieser Grundlage wird eine Geschichte mit mehreren kohärenten Sätzen erstellt. Um die nützlichen semantischen Informationen aus einem Album vollständig zu extrahieren, wird ein Rekonstruktor eingesetzt, um die zusammengefassten Albumerzählungen basierend auf den verborgenen Zuständen des Decoders wiederherzustellen. Das vorgeschlagene Modell kann in einem End-to-End-Prozess trainiert werden, was zu einer verbesserten Leistung im Vergleich zum Stand der Technik auf dem öffentlichen Visual Storytelling (VIST)-Datensatz führt. Abschleifungsstudien zeigen zudem die Effektivität des vorgeschlagenen hierarchischen Foto-Szene-Encoders und des Rekonstruktors.请注意,"Abschleifungsstudien" 是 "Ablation studies" 的直译,但这个术语在德语中并不常用。通常会使用 "Studien zur Komponentenanalyse" 或者直接使用 "Ablationsstudien" 来表示这一概念。因此,建议将 "Abschleifungsstudien" 替换为 "Ablationsstudien" 以保持专业性和准确性。修改后的版本:In dieser Arbeit schlagen wir ein neues Modell vor, das einen hierarchischen Foto-Szene-Encoder und einen Rekonstruktor für die Aufgabe des Album-Erzählens umfasst. Der Foto-Szene-Encoder besteht aus zwei Unterencodern, nämlich dem Foto-Encoder und dem Szene-Encoder, die übereinander gestapelt sind und hierarchisch arbeiten, um die Strukturinformationen der Fotos innerhalb eines Albums vollständig zu nutzen. Insbesondere generiert der Foto-Encoder semantische Darstellungen für jedes Foto und nutzt dabei zeitliche Beziehungen zwischen ihnen. Der Szene-Encoder, der sich auf die ermittelten Fotodarstellungen stützt, ist dafür verantwortlich, Szenenwechsel zu erkennen und Szenden-Darstellungen zu generieren. Anschließend fasst der Decoder die kodierten Fotodarstellungen und Szenden-Darstellungen dynamisch und aufmerksam zusammen, um eine Sequenz von Albumerzählungen zu generieren. Auf dieser Grundlage wird eine Geschichte mit mehreren kohärenten Sätzen erstellt. Um die nützlichen semantischen Informationen aus einem Album vollständig zu extrahieren, wird ein Rekonstruktor eingesetzt, um die zusammengefassten Albumerzählungen basierend auf den verborgenen Zuständen des Decoders wiederherzustellen. Das vorgeschlagene Modell kann in einem End-to-End-Prozess trainiert werden, was zu einer verbesserten Leistung im Vergleich zum Stand der Technik auf dem öffentlichen Visual Storytelling (VIST)-Datensatz führt. Ablationsstudien zeigen zudem die Effektivität des vorgeschlagenen hierarchischen Foto-Szene-Encoders und des Rekonstruktors.