ControlCap: Kontrollierbare regionenbasierte Bildbeschreibung

Die regionale Bildbeschreibung ist durch das Problem der Beschreibungsdegeneration herausgefordert, das darauf hinweist, dass vortrainierte multimodale Modelle tendenziell die häufigsten Beschreibungen vorhersagen, wodurch seltene Beschreibungen übersehen werden. In dieser Studie stellen wir einen kontrollierbaren Ansatz für die regionale Bildbeschreibung (ControlCap) vor, der Steuerwörter in ein multimodales Modell integriert, um das Problem der Beschreibungsdegeneration zu adressieren. Genauer gesagt nutzt ControlCap ein diskriminatives Modul, um Steuerwörter innerhalb des Beschreibungsräums zu generieren, um diesen in mehrere Teilräume zu unterteilen. Das multimodale Modell wird dabei gezwungen, Beschreibungen innerhalb nur weniger Teilräume zu erzeugen, die die Steuerwörter enthalten. Dadurch wird die Wahrscheinlichkeit erhöht, auch seltene Beschreibungen zu erfassen, was das Problem der Beschreibungsdegeneration verringert. Darüber hinaus können interaktive Steuerwörter entweder von einem Menschen oder einem Expertenmodell bereitgestellt werden, was eine Beschreibung jenseits des während des Trainings erlernten Beschreibungsräums ermöglicht und die Generalisierungsfähigkeit des Modells verbessert. Umfangreiche Experimente auf den Datensätzen Visual Genome und RefCOCOg zeigen, dass ControlCap die CIDEr-Scores jeweils um 21,6 und 2,2 verbessert und damit die derzeitigen State-of-the-Art-Methoden mit deutlichem Abstand übertrifft. Der Quellcode ist unter https://github.com/callsys/ControlCap verfügbar.