vor 11 Tagen

WenLan: Brückenbildung zwischen Vision und Sprache durch großskaliges multimodales Vortrainieren

Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, Zongzheng Xi, Yueqian Yang, Anwen Hu, Jinming Zhao, Ruichen Li, Yida Zhao, Liang Zhang, Yuqing Song, Xin Hong, Wanqing Cui, Danyang Hou, Yingyan Li, Junyi Li, Peiyu Liu, Zheng Gong, Chuhao Jin, Yuchong Sun, Shizhe Chen, Zhiwu Lu, Zhicheng Dou, Qin Jin, Yanyan Lan, Wayne Xin Zhao, Ruihua Song, Ji-Rong Wen

Details der Forschungsarbeit anzeigen

WenLan: Brückenbildung zwischen Vision und Sprache durch großskaliges multimodales Vortrainieren

Abstract

In den letzten Jahren wurden multimodale Vortrainingsmodelle intensiv erforscht, um die Verbindung zwischen Vision und Sprache zu schaffen. Allerdings modellieren die meisten dieser Ansätze die intermodale Wechselwirkung zwischen Bild-Text-Paaren explizit unter der Annahme, dass zwischen den Modalitäten Text und Bild eine starke semantische Korrelation besteht. Da diese starke Annahme in realen Anwendungsszenarien oft nicht zutrifft, entscheiden wir uns dafür, die intermodale Korrelation implizit zu modellieren, was der Schwerpunkt des von unserem Team geleiteten chinesischen Projekts „WenLan“ ist. Genauer gesagt, unter der Annahme einer schwachen Korrelation zwischen Bild-Text-Paaren, schlagen wir innerhalb des Rahmenwerks für cross-modale kontrastive Lernverfahren ein zweitüriges Vortrainingsmodell namens BriVL vor. Im Gegensatz zu OpenAI CLIP, das eine einfache kontrastive Lernmethode verwendet, entwickeln wir einen fortschrittlicheren Algorithmus, indem wir die neueste Methode MoCo an die cross-modale Situation anpassen. Durch die Erstellung eines großen, auf einer Warteschlange basierenden Wörterbuchs kann unser BriVL-Modell unter begrenzten GPU-Ressourcen eine größere Anzahl an negativen Beispielen einbeziehen. Darüber hinaus erstellen wir eine große chinesischsprachige, mehrquellenbasierte Bild-Text-Datenbank namens RUC-CAS-WenLan, um unser BriVL-Modell zu trainieren. Ausführliche Experimente zeigen, dass das vortrainierte BriVL-Modell sowohl gegenüber UNITER als auch gegenüber OpenAI CLIP auf verschiedenen Downstream-Aufgaben eine bessere Leistung erzielt.