HyperAIHyperAI

Command Palette

Search for a command to run...

ControlCap: Kontrollierbare regionenbasierte Bildbeschreibung

Yuzhong Zhao Yue Liu Zonghao Guo Weijia Wu Chen Gong Fang Wan Qixiang Ye

Zusammenfassung

Die regionale Bildbeschreibung ist durch das Problem der Beschreibungsdegeneration herausgefordert, das darauf hinweist, dass vortrainierte multimodale Modelle tendenziell die häufigsten Beschreibungen vorhersagen, wodurch seltene Beschreibungen übersehen werden. In dieser Studie stellen wir einen kontrollierbaren Ansatz für die regionale Bildbeschreibung (ControlCap) vor, der Steuerwörter in ein multimodales Modell integriert, um das Problem der Beschreibungsdegeneration zu adressieren. Genauer gesagt nutzt ControlCap ein diskriminatives Modul, um Steuerwörter innerhalb des Beschreibungsräums zu generieren, um diesen in mehrere Teilräume zu unterteilen. Das multimodale Modell wird dabei gezwungen, Beschreibungen innerhalb nur weniger Teilräume zu erzeugen, die die Steuerwörter enthalten. Dadurch wird die Wahrscheinlichkeit erhöht, auch seltene Beschreibungen zu erfassen, was das Problem der Beschreibungsdegeneration verringert. Darüber hinaus können interaktive Steuerwörter entweder von einem Menschen oder einem Expertenmodell bereitgestellt werden, was eine Beschreibung jenseits des während des Trainings erlernten Beschreibungsräums ermöglicht und die Generalisierungsfähigkeit des Modells verbessert. Umfangreiche Experimente auf den Datensätzen Visual Genome und RefCOCOg zeigen, dass ControlCap die CIDEr-Scores jeweils um 21,6 und 2,2 verbessert und damit die derzeitigen State-of-the-Art-Methoden mit deutlichem Abstand übertrifft. Der Quellcode ist unter https://github.com/callsys/ControlCap verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ControlCap: Kontrollierbare regionenbasierte Bildbeschreibung | Paper | HyperAI