Über einen vortrainierten Objektdetektor hinaus: Kreuzmodale textuelle und visuelle Kontextinformationen für die Bildbeschreibung

Erhebliche Fortschritte wurden bei der visuellen Captioning erzielt, wobei vor allem auf vortrainierte Merkmale und später fixierte Objektdetektoren zurückgegriffen wird, die als reichhaltige Eingaben für autoregressive Modelle dienen. Ein zentrales Limitierung dieser Ansätze besteht jedoch darin, dass die Modellausgabe ausschließlich von den Ausgaben des Objektdetektors abhängt. Die Annahme, dass diese Ausgaben sämtliche notwendigen Informationen repräsentieren, ist unrealistisch, insbesondere dann, wenn der Detektor zwischen Datensätzen übertragen wird. In dieser Arbeit analysieren wir das durch diese Annahme induzierte grafische Modell und schlagen vor, eine zusätzliche Eingabe hinzuzufügen, um fehlende Informationen wie Objektbeziehungen zu repräsentieren. Speziell schlagen wir vor, Attribute und Beziehungen aus dem Visual Genome-Datensatz zu extrahieren und das Captioning-Modell darauf zu konditionieren. Entscheidend ist, dass wir (und zeigen, dass dies wichtig ist) die Verwendung eines multimodalen vortrainierten Modells (CLIP) vorschlagen, um solche kontextuellen Beschreibungen zu retrieven. Zudem sind Objektdetektormodelle fixiert und weisen nicht genügend Reichtum auf, um das Captioning-Modell ausreichend zu verankern. Als Folge schlagen wir vor, sowohl die Ausgaben des Detektors als auch die der Beschreibungen auf das Bild zu konditionieren, und zeigen qualitativ und quantitativ, dass dies die Verankerung verbessern kann. Wir validieren unsere Methode anhand von Bildcaptioning, führen eine gründliche Analyse jedes einzelnen Komponenten und der Bedeutung des vortrainierten multimodalen Modells durch und demonstrieren signifikante Verbesserungen gegenüber dem aktuellen Stand der Technik, insbesondere +7,5 % in der CIDEr- und +1,3 % in der BLEU-4-Metrik.