HyperAIHyperAI

Command Palette

Search for a command to run...

VIVO: Visual Vocabulary Pre-Training für die Beschreibung neuer Objekte

Xiaowei Hu Xi Yin Kevin Lin Lijuan Wang Lei Zhang Jianfeng Gao Zicheng Liu

Zusammenfassung

Es ist äußerst wünschenswert, jedoch herausfordernd, Bildbeschreibungen zu generieren, die neuartige Objekte beschreiben, die im trainingsbasierten Datenmaterial mit Bild-Beschreibung-Paaren nicht vorkommen, eine Fähigkeit, die im Novel Object Captioning Challenge (nocaps) evaluiert wird. In dieser Herausforderung ist die Verwendung zusätzlicher Bild-Beschreibung-Trainingsdaten außer den COCO Captions für das Modelltraining nicht erlaubt. Daher können herkömmliche Vision-Language-Pre-training (VLP)-Methoden nicht angewendet werden. In diesem Beitrag präsentieren wir VIsual VOcabulary pretraining (VIVO), ein Verfahren, das eine Pre-training ohne Bild-Beschreibung-Anmerkungen durchführt. Durch die Aufhebung der Abhängigkeit von paarenweise annotierten Bild-Beschreibung-Daten im VLP kann VIVO große Mengen an paarenweise annotierten Bild-Tag-Daten nutzen, um ein visuelles Vokabular zu lernen. Dies geschieht durch das Pre-training eines mehrschichtigen Transformer-Modells, das lernt, bildbezogene Tags mit ihren entsprechenden Bildregionen zu alignieren. Um die ungeordnete Natur der Bild-Tags zu berücksichtigen, verwendet VIVO eine Hungarian-Matching-Verlustfunktion in Kombination mit einer maskierten Tag-Vorhersage zur Durchführung des Pre-training-Prozesses. Wir validieren die Wirksamkeit von VIVO durch Feinabstimmung des vortrainierten Modells für die Bildbeschreibung. Zudem führen wir eine Analyse der visuell-textuellen Alignment-Fähigkeit unseres Modells durch. Die Ergebnisse zeigen, dass unser Modell nicht nur flüssige Bildbeschreibungen erzeugen kann, die neuartige Objekte beschreiben, sondern auch deren räumliche Positionen identifizieren kann. Unser einzelnes Modell erreicht neue SOTA-Ergebnisse auf nocaps und übertrifft sogar die menschliche CIDEr-Score.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp