HyperAIHyperAI

Command Palette

Search for a command to run...

Über einen vortrainierten Objektdetektor hinaus: Kreuzmodale textuelle und visuelle Kontextinformationen für die Bildbeschreibung

Chia-Wen Kuo Zsolt Kira

Zusammenfassung

Erhebliche Fortschritte wurden bei der visuellen Captioning erzielt, wobei vor allem auf vortrainierte Merkmale und später fixierte Objektdetektoren zurückgegriffen wird, die als reichhaltige Eingaben für autoregressive Modelle dienen. Ein zentrales Limitierung dieser Ansätze besteht jedoch darin, dass die Modellausgabe ausschließlich von den Ausgaben des Objektdetektors abhängt. Die Annahme, dass diese Ausgaben sämtliche notwendigen Informationen repräsentieren, ist unrealistisch, insbesondere dann, wenn der Detektor zwischen Datensätzen übertragen wird. In dieser Arbeit analysieren wir das durch diese Annahme induzierte grafische Modell und schlagen vor, eine zusätzliche Eingabe hinzuzufügen, um fehlende Informationen wie Objektbeziehungen zu repräsentieren. Speziell schlagen wir vor, Attribute und Beziehungen aus dem Visual Genome-Datensatz zu extrahieren und das Captioning-Modell darauf zu konditionieren. Entscheidend ist, dass wir (und zeigen, dass dies wichtig ist) die Verwendung eines multimodalen vortrainierten Modells (CLIP) vorschlagen, um solche kontextuellen Beschreibungen zu retrieven. Zudem sind Objektdetektormodelle fixiert und weisen nicht genügend Reichtum auf, um das Captioning-Modell ausreichend zu verankern. Als Folge schlagen wir vor, sowohl die Ausgaben des Detektors als auch die der Beschreibungen auf das Bild zu konditionieren, und zeigen qualitativ und quantitativ, dass dies die Verankerung verbessern kann. Wir validieren unsere Methode anhand von Bildcaptioning, führen eine gründliche Analyse jedes einzelnen Komponenten und der Bedeutung des vortrainierten multimodalen Modells durch und demonstrieren signifikante Verbesserungen gegenüber dem aktuellen Stand der Technik, insbesondere +7,5 % in der CIDEr- und +1,3 % in der BLEU-4-Metrik.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp