MemCap: Stilwissen für die Bildbeschreibung speichern
Die Erzeugung stilistisch geprägter Bildunterschriften ist eine anspruchsvolle Aufgabe, da nicht nur der Inhalt des Bildes präzise beschrieben werden muss, sondern auch der gewünschte sprachliche Stil angemessen umgesetzt werden muss. In diesem Paper stellen wir MemCap vor, eine neuartige Methode für stilistische Bildunterschriften, die das Wissen über sprachliche Stile explizit mittels eines Gedächtnismechanismus kodiert. Im Gegensatz zu bestehenden Ansätzen, die stark auf Sprachmodelle zurückgreifen, um Stilmerkmale zu erfassen, speichert unsere Methode stilistische Elemente, die aus dem Trainingskorpus gelernt wurden. Insbesondere entwerfen wir ein Gedächtnis-Modul, das aus einer Reihe von Embedding-Vektoren besteht, die zur Kodierung stilrelevanter Phrasen im Trainingskorpus dienen. Um stilrelevante Phrasen zu identifizieren, entwickeln wir einen Satz-Zerlegungsalgorithmus, der einen stilistisch geprägten Satz in einen stilrelevanten Teil – der den sprachlichen Stil widerspiegelt – und einen inhaltsrelevanten Teil – der die visuelle Inhaltsinformation enthält – aufteilt. Bei der Generierung von Untertiteln extrahiert MemCap zunächst über eine Aufmerksamkeitsmechanik stilrelevante Inhalte aus dem Gedächtnis-Modul und integriert diese anschließend in ein Sprachmodell. Umfassende Experimente auf zwei stilistisch geprägten Bildunterschriften-Datensätzen (SentiCap und FlickrStyle10K) belegen die Wirksamkeit unseres Ansatzes.