HyperAIHyperAI

Command Palette

Search for a command to run...

AltCLIP: Ändern des Sprachencoders in CLIP für erweiterte Sprachfähigkeiten

Zhongzhi Chen Guang Liu Bo-Wen Zhang Fulong Ye Qinghong Yang Ledell Wu

Zusammenfassung

In dieser Arbeit präsentieren wir eine konzeptionell einfache und effektive Methode zur Ausbildung eines starken bilinguellen/multilinguellen multimodalen Repräsentationsmodells. Ausgehend vom von OpenAI veröffentlichten vortrainierten multimodalen Repräsentationsmodell CLIP, haben wir dessen Textencoder durch einen vortrainierten multilingualen Textencoder XLM-R ersetzt und sowohl die Sprach- als auch die Bildrepräsentationen mittels eines zweistufigen Trainingsverfahrens, das aus Lehrerlernen (teacher learning) und Kontrastivem Lernen (contrastive learning) besteht, angepasst. Wir überprüfen unsere Methode durch Evaluierungen einer Vielzahl von Aufgaben. Wir erzielen neue Stand der Technik-Leistungen in einer Reihe von Aufgaben, darunter ImageNet-CN, Flicker30k-CN, COCO-CN und XTD. Darüber hinaus erhalten wir bei fast allen Aufgaben sehr ähnliche Leistungen wie CLIP, was darauf hinweist, dass man den Textencoder in CLIP einfach austauschen kann, um erweiterte Fähigkeiten wie multilinguale Verarbeitung zu ermöglichen. Unsere Modelle und Code sind unter https://github.com/FlagAI-Open/FlagAI verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
AltCLIP: Ändern des Sprachencoders in CLIP für erweiterte Sprachfähigkeiten | Paper | HyperAI