vor 2 Monaten

ERNIE-ViL 2.0: Mehrfachansichts-kontrastives Lernen für die Vortraining von Bild-Text-Modellen

Bin Shan; Weichong Yin; Yu Sun; Hao Tian; Hua Wu; Haifeng Wang

Abstract

Kürzlich haben Vision-Sprache Vorabtrainierte (VLP) Modelle, die auf Dual-Encodern basieren, dank ihrer überlegenen Leistung bei verschiedenen multimodalen Aufgaben und hoher Recheneffizienz große Aufmerksamkeit in der Wissenschaft und der Industrie gefunden. Diese Modelle versuchen, multimodale Darstellungen durch kontrastives Lernen anhand von Bild-Text-Paaren zu erlernen. Allerdings basieren die erstellten intermodalen Korrelationen nur auf einer einzelnen Sichtweise für jede Modale. In Wirklichkeit enthalten ein Bild oder ein Text verschiedene potentielle Sichtweisen, ähnlich wie Menschen eine reale Szene durch unterschiedliche Beschreibungen oder Fotos erfassen können. In dieser Arbeit stellen wir ERNIE-ViL 2.0 vor, einen Mehrsicht-Kontrastlernrahmen, der intra- und intermodale Korrelationen zwischen verschiedenen Sichtweisen gleichzeitig aufbaut, um eine robusteren multimodalen Darstellung zu erlernen. Insbesondere konstruieren wir mehrere Sichtweisen innerhalb jeder Modalität, um die intramodale Korrelation zu erlernen und so die einzelne modale Darstellung zu verbessern. Neben den inhärenten visuellen/tekstuellen Sichtweisen bilden wir Folgen von Objektetiketten als spezielle textuelle Sichtweise, um den multimodalen semantischen Abstand bei verrauschten Bild-Text-Paaren zu verringern. Mit 29 Millionen öffentlich verfügbaren Datensätzen vorab trainiert, erreicht ERNIE-ViL 2.0 wettbewerbsfähige Ergebnisse bei der englischen multimodalen Retrieval. Zudem skalieren wir die vorab trainierten Datensätze auf 1,5 Milliarden chinesische Bild-Text-Paare, um unsere Methode auf chinesische multimodale Aufgaben zu verallgemeinern. Dies führt zu erheblichen Verbesserungen im Vergleich zu früheren Top-Ergebnissen bei der chinesischen multimodalen Retrieval. Wir veröffentlichen unsere vorab trainierten Modelle unter https://github.com/PaddlePaddle/ERNIE.请注意，这里有一些细节需要注意：1. "Vision-Sprache Vorabtrainierte (VLP)" 是对 "Vision-Language Pre-trained (VLP)" 的直接翻译，但为了保持专业性和避免歧义，建议在首次出现时保留英文缩写 VLP。2. "multimodal" 在德语中通常写作 "multimodal" 或 "multimodal"（根据上下文选择合适的拼写）。3. "Objektetiketten" 是一个复合词，由 "Objekt" 和 "Etiketten" 组成，用于指代对象标签。因此，最终版本可以调整为：Kürzlich haben Vision-Sprache Vorabtrainierte (VLP) Modelle, die auf Dual-Encodern basieren, dank ihrer überlegenen Leistung bei verschiedenen multimodalen Aufgaben und hoher Recheneffizienz große Aufmerksamkeit in der Wissenschaft und der Industrie gefunden. Diese Modelle versuchen, multimodale Darstellungen durch kontrastives Lernen anhand von Bild-Text-Paaren zu erlernen. Allerdings basieren die erstellten intermodalen Korrelationen nur auf einer einzelnen Sichtweise für jede Modale. In Wirklichkeit enthalten ein Bild oder ein Text verschiedene potentielle Sichtweisen, ähnlich wie Menschen eine reale Szene durch unterschiedliche Beschreibungen oder Fotos erfassen können. In dieser Arbeit stellen wir ERNIE-ViL 2.0 vor, einen Mehrsicht-Kontrastlernrahmen (Multi-View Contrastive Learning Framework), der intra- und intermodale Korrelationen zwischen verschiedenen Sichtweisen gleichzeitig aufbaut, um eine robustere multimodale Darstellung zu erlernen. Insbesondere konstruieren wir mehrere Sichtweisen innerhalb jeder Modalität, um die intramodale Korrelation zu erlernen und so die einzelne modale Darstellung zu verbessern. Neben den inhärenten visuellen/textuellen Sichtweisen bilden wir Folgen von Objektetiketten als spezielle textuelle Sichtweise (sequences of object tags), um den multimodalen semantischen Abstand bei verrauschten Bild-Text-Paaren zu verringern. Mit 29 Millionen öffentlich verfügbaren Datensätzen vorab trainiert, erreicht ERNIE-ViL 2.0 wettbewerbsfähige Ergebnisse bei der englischen multimodalen Retrieval-Aufgabe (English cross-modal retrieval). Zudem skalieren wir die vorab trainierten Datensätze auf 1,5 Milliarden chinesische Bild-Text-Paare, um unsere Methode auf chinesische multimodale Aufgaben zu verallgemeinern. Dies führt zu erheblichen Verbesserungen im Vergleich zu früheren Top-Ergebnissen bei der chinesischen multimodalen Retrieval-Aufgabe (Chinese cross-modal retrieval). Wir veröffentlichen unsere vorab trainierten Modelle unter https://github.com/PaddlePaddle/ERNIE.这样既保持了专业性，又确保了信息的完整性。