Interaktive key-value Memory-erweiterte Aufmerksamkeit für Bild-Paragraph-Kommentierung

Die Bildabsatzbeschreibung (Image Paragraph Captioning, IPC) zielt darauf ab, einen detaillierten Absatz zu generieren, der den visuellen Inhalt einer Abbildung beschreibt. Durch tiefe neuronale Netze wurde erheblicher Fortschritt erzielt, wobei die Aufmerksamkeitsmechanismen eine entscheidende Rolle spielen. Allerdings neigen herkömmliche Aufmerksamkeitsmechanismen dazu, Informationen aus der vorherigen Alignierung zu ignorieren, was häufig zu Problemen der repetitiven oder unvollständigen Beschreibung führt. In diesem Artikel stellen wir ein interaktives key-value Memory-erweitertes Aufmerksamkeitsmodell für die Bildabsatzbeschreibung (IMAP) vor, das die Aufmerksamkeitsgeschichte (Informationen zur Abdeckung auffälliger Objekte) zusammen mit der Update-Kette des Dekodierzustands verfolgt und somit die Generierung repetitiver oder unvollständiger Bildbeschreibungen vermeidet. Zudem nutzen wir einen adaptiven Aufmerksamkeitsmechanismus, um eine adaptive Alignierung von Bildregionen auf Beschreibungswörter zu realisieren, wobei eine Bildregion einer beliebigen Anzahl von Beschreibungswörtern zugeordnet werden kann, während ein Beschreibungswort gleichzeitig auf eine beliebige Anzahl von Bildregionen fokussieren kann. Umfangreiche Experimente auf einem Standard-Datensatz (nämlich Stanford) belegen die Wirksamkeit unseres IMAP-Modells.