WenLan: Brückenbildung zwischen Vision und Sprache durch großskaliges multimodales Vortrainieren

In den letzten Jahren wurden multimodale Vortrainingsmodelle intensiv erforscht, um die Verbindung zwischen Vision und Sprache zu schaffen. Allerdings modellieren die meisten dieser Ansätze die intermodale Wechselwirkung zwischen Bild-Text-Paaren explizit unter der Annahme, dass zwischen den Modalitäten Text und Bild eine starke semantische Korrelation besteht. Da diese starke Annahme in realen Anwendungsszenarien oft nicht zutrifft, entscheiden wir uns dafür, die intermodale Korrelation implizit zu modellieren, was der Schwerpunkt des von unserem Team geleiteten chinesischen Projekts „WenLan“ ist. Genauer gesagt, unter der Annahme einer schwachen Korrelation zwischen Bild-Text-Paaren, schlagen wir innerhalb des Rahmenwerks für cross-modale kontrastive Lernverfahren ein zweitüriges Vortrainingsmodell namens BriVL vor. Im Gegensatz zu OpenAI CLIP, das eine einfache kontrastive Lernmethode verwendet, entwickeln wir einen fortschrittlicheren Algorithmus, indem wir die neueste Methode MoCo an die cross-modale Situation anpassen. Durch die Erstellung eines großen, auf einer Warteschlange basierenden Wörterbuchs kann unser BriVL-Modell unter begrenzten GPU-Ressourcen eine größere Anzahl an negativen Beispielen einbeziehen. Darüber hinaus erstellen wir eine große chinesischsprachige, mehrquellenbasierte Bild-Text-Datenbank namens RUC-CAS-WenLan, um unser BriVL-Modell zu trainieren. Ausführliche Experimente zeigen, dass das vortrainierte BriVL-Modell sowohl gegenüber UNITER als auch gegenüber OpenAI CLIP auf verschiedenen Downstream-Aufgaben eine bessere Leistung erzielt.