vor 18 Tagen

VIVO: Visual Vocabulary Pre-Training für die Beschreibung neuer Objekte

Xiaowei Hu, Xi Yin, Kevin Lin, Lijuan Wang, Lei Zhang, Jianfeng Gao, Zicheng Liu

Abstract

Es ist äußerst wünschenswert, jedoch herausfordernd, Bildbeschreibungen zu generieren, die neuartige Objekte beschreiben, die im trainingsbasierten Datenmaterial mit Bild-Beschreibung-Paaren nicht vorkommen, eine Fähigkeit, die im Novel Object Captioning Challenge (nocaps) evaluiert wird. In dieser Herausforderung ist die Verwendung zusätzlicher Bild-Beschreibung-Trainingsdaten außer den COCO Captions für das Modelltraining nicht erlaubt. Daher können herkömmliche Vision-Language-Pre-training (VLP)-Methoden nicht angewendet werden. In diesem Beitrag präsentieren wir VIsual VOcabulary pretraining (VIVO), ein Verfahren, das eine Pre-training ohne Bild-Beschreibung-Anmerkungen durchführt. Durch die Aufhebung der Abhängigkeit von paarenweise annotierten Bild-Beschreibung-Daten im VLP kann VIVO große Mengen an paarenweise annotierten Bild-Tag-Daten nutzen, um ein visuelles Vokabular zu lernen. Dies geschieht durch das Pre-training eines mehrschichtigen Transformer-Modells, das lernt, bildbezogene Tags mit ihren entsprechenden Bildregionen zu alignieren. Um die ungeordnete Natur der Bild-Tags zu berücksichtigen, verwendet VIVO eine Hungarian-Matching-Verlustfunktion in Kombination mit einer maskierten Tag-Vorhersage zur Durchführung des Pre-training-Prozesses. Wir validieren die Wirksamkeit von VIVO durch Feinabstimmung des vortrainierten Modells für die Bildbeschreibung. Zudem führen wir eine Analyse der visuell-textuellen Alignment-Fähigkeit unseres Modells durch. Die Ergebnisse zeigen, dass unser Modell nicht nur flüssige Bildbeschreibungen erzeugen kann, die neuartige Objekte beschreiben, sondern auch deren räumliche Positionen identifizieren kann. Unser einzelnes Modell erreicht neue SOTA-Ergebnisse auf nocaps und übertrifft sogar die menschliche CIDEr-Score.