HyperAIHyperAI

Command Palette

Search for a command to run...

ERNIE-ViL 2.0: Mehrfachansichts-kontrastives Lernen für die Vortraining von Bild-Text-Modellen

Bin Shan Weichong Yin Yu Sun Hao Tian Hua Wu Haifeng Wang

Zusammenfassung

Kürzlich haben Vision-Sprache Vorabtrainierte (VLP) Modelle, die auf Dual-Encodern basieren, dank ihrer überlegenen Leistung bei verschiedenen multimodalen Aufgaben und hoher Recheneffizienz große Aufmerksamkeit in der Wissenschaft und der Industrie gefunden. Diese Modelle versuchen, multimodale Darstellungen durch kontrastives Lernen anhand von Bild-Text-Paaren zu erlernen. Allerdings basieren die erstellten intermodalen Korrelationen nur auf einer einzelnen Sichtweise für jede Modale. In Wirklichkeit enthalten ein Bild oder ein Text verschiedene potentielle Sichtweisen, ähnlich wie Menschen eine reale Szene durch unterschiedliche Beschreibungen oder Fotos erfassen können. In dieser Arbeit stellen wir ERNIE-ViL 2.0 vor, einen Mehrsicht-Kontrastlernrahmen, der intra- und intermodale Korrelationen zwischen verschiedenen Sichtweisen gleichzeitig aufbaut, um eine robusteren multimodalen Darstellung zu erlernen. Insbesondere konstruieren wir mehrere Sichtweisen innerhalb jeder Modalität, um die intramodale Korrelation zu erlernen und so die einzelne modale Darstellung zu verbessern. Neben den inhärenten visuellen/tekstuellen Sichtweisen bilden wir Folgen von Objektetiketten als spezielle textuelle Sichtweise, um den multimodalen semantischen Abstand bei verrauschten Bild-Text-Paaren zu verringern. Mit 29 Millionen öffentlich verfügbaren Datensätzen vorab trainiert, erreicht ERNIE-ViL 2.0 wettbewerbsfähige Ergebnisse bei der englischen multimodalen Retrieval. Zudem skalieren wir die vorab trainierten Datensätze auf 1,5 Milliarden chinesische Bild-Text-Paare, um unsere Methode auf chinesische multimodale Aufgaben zu verallgemeinern. Dies führt zu erheblichen Verbesserungen im Vergleich zu früheren Top-Ergebnissen bei der chinesischen multimodalen Retrieval. Wir veröffentlichen unsere vorab trainierten Modelle unter https://github.com/PaddlePaddle/ERNIE.请注意,这里有一些细节需要注意:1. "Vision-Sprache Vorabtrainierte (VLP)" 是对 "Vision-Language Pre-trained (VLP)" 的直接翻译,但为了保持专业性和避免歧义,建议在首次出现时保留英文缩写 VLP。2. "multimodal" 在德语中通常写作 "multimodal" 或 "multimodal"(根据上下文选择合适的拼写)。3. "Objektetiketten" 是一个复合词,由 "Objekt" 和 "Etiketten" 组成,用于指代对象标签。因此,最终版本可以调整为:Kürzlich haben Vision-Sprache Vorabtrainierte (VLP) Modelle, die auf Dual-Encodern basieren, dank ihrer überlegenen Leistung bei verschiedenen multimodalen Aufgaben und hoher Recheneffizienz große Aufmerksamkeit in der Wissenschaft und der Industrie gefunden. Diese Modelle versuchen, multimodale Darstellungen durch kontrastives Lernen anhand von Bild-Text-Paaren zu erlernen. Allerdings basieren die erstellten intermodalen Korrelationen nur auf einer einzelnen Sichtweise für jede Modale. In Wirklichkeit enthalten ein Bild oder ein Text verschiedene potentielle Sichtweisen, ähnlich wie Menschen eine reale Szene durch unterschiedliche Beschreibungen oder Fotos erfassen können. In dieser Arbeit stellen wir ERNIE-ViL 2.0 vor, einen Mehrsicht-Kontrastlernrahmen (Multi-View Contrastive Learning Framework), der intra- und intermodale Korrelationen zwischen verschiedenen Sichtweisen gleichzeitig aufbaut, um eine robustere multimodale Darstellung zu erlernen. Insbesondere konstruieren wir mehrere Sichtweisen innerhalb jeder Modalität, um die intramodale Korrelation zu erlernen und so die einzelne modale Darstellung zu verbessern. Neben den inhärenten visuellen/textuellen Sichtweisen bilden wir Folgen von Objektetiketten als spezielle textuelle Sichtweise (sequences of object tags), um den multimodalen semantischen Abstand bei verrauschten Bild-Text-Paaren zu verringern. Mit 29 Millionen öffentlich verfügbaren Datensätzen vorab trainiert, erreicht ERNIE-ViL 2.0 wettbewerbsfähige Ergebnisse bei der englischen multimodalen Retrieval-Aufgabe (English cross-modal retrieval). Zudem skalieren wir die vorab trainierten Datensätze auf 1,5 Milliarden chinesische Bild-Text-Paare, um unsere Methode auf chinesische multimodale Aufgaben zu verallgemeinern. Dies führt zu erheblichen Verbesserungen im Vergleich zu früheren Top-Ergebnissen bei der chinesischen multimodalen Retrieval-Aufgabe (Chinese cross-modal retrieval). Wir veröffentlichen unsere vorab trainierten Modelle unter https://github.com/PaddlePaddle/ERNIE.这样既保持了专业性,又确保了信息的完整性


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp