AltCLIP: Ändern des Sprachencoders in CLIP für erweiterte Sprachfähigkeiten

In dieser Arbeit präsentieren wir eine konzeptionell einfache und effektive Methode zur Ausbildung eines starken bilinguellen/multilinguellen multimodalen Repräsentationsmodells. Ausgehend vom von OpenAI veröffentlichten vortrainierten multimodalen Repräsentationsmodell CLIP, haben wir dessen Textencoder durch einen vortrainierten multilingualen Textencoder XLM-R ersetzt und sowohl die Sprach- als auch die Bildrepräsentationen mittels eines zweistufigen Trainingsverfahrens, das aus Lehrerlernen (teacher learning) und Kontrastivem Lernen (contrastive learning) besteht, angepasst. Wir überprüfen unsere Methode durch Evaluierungen einer Vielzahl von Aufgaben. Wir erzielen neue Stand der Technik-Leistungen in einer Reihe von Aufgaben, darunter ImageNet-CN, Flicker30k-CN, COCO-CN und XTD. Darüber hinaus erhalten wir bei fast allen Aufgaben sehr ähnliche Leistungen wie CLIP, was darauf hinweist, dass man den Textencoder in CLIP einfach austauschen kann, um erweiterte Fähigkeiten wie multilinguale Verarbeitung zu ermöglichen. Unsere Modelle und Code sind unter https://github.com/FlagAI-Open/FlagAI verfügbar.