HyperAIHyperAI
vor 18 Tagen

MemCap: Stilwissen für die Bildbeschreibung speichern

{Xiaoxun Zhang, Xinxiao wu, Wentian Zhao}
Abstract

Die Erzeugung stilistisch geprägter Bildunterschriften ist eine anspruchsvolle Aufgabe, da nicht nur der Inhalt des Bildes präzise beschrieben werden muss, sondern auch der gewünschte sprachliche Stil angemessen umgesetzt werden muss. In diesem Paper stellen wir MemCap vor, eine neuartige Methode für stilistische Bildunterschriften, die das Wissen über sprachliche Stile explizit mittels eines Gedächtnismechanismus kodiert. Im Gegensatz zu bestehenden Ansätzen, die stark auf Sprachmodelle zurückgreifen, um Stilmerkmale zu erfassen, speichert unsere Methode stilistische Elemente, die aus dem Trainingskorpus gelernt wurden. Insbesondere entwerfen wir ein Gedächtnis-Modul, das aus einer Reihe von Embedding-Vektoren besteht, die zur Kodierung stilrelevanter Phrasen im Trainingskorpus dienen. Um stilrelevante Phrasen zu identifizieren, entwickeln wir einen Satz-Zerlegungsalgorithmus, der einen stilistisch geprägten Satz in einen stilrelevanten Teil – der den sprachlichen Stil widerspiegelt – und einen inhaltsrelevanten Teil – der die visuelle Inhaltsinformation enthält – aufteilt. Bei der Generierung von Untertiteln extrahiert MemCap zunächst über eine Aufmerksamkeitsmechanik stilrelevante Inhalte aus dem Gedächtnis-Modul und integriert diese anschließend in ein Sprachmodell. Umfassende Experimente auf zwei stilistisch geprägten Bildunterschriften-Datensätzen (SentiCap und FlickrStyle10K) belegen die Wirksamkeit unseres Ansatzes.