HyperAIHyperAI
منذ 2 أشهر

AltCLIP: تعديل مُشفر اللغة في CLIP لتوسيع قدرات اللغة

Zhongzhi Chen; Guang Liu; Bo-Wen Zhang; Fulong Ye; Qinghong Yang; Ledell Wu
AltCLIP: تعديل مُشفر اللغة في CLIP لتوسيع قدرات اللغة
الملخص

في هذا العمل، نقدم طريقة بسيطة ومفهومة وفعالة لتدريب نموذج تمثيل ثنائي或多语言 (bilingual/multilingual) متعدد الوسائط قوي. بدأنا من النموذج المُعد مسبقًا للتمثيل المتعدد الوسائط CLIP الذي أطلقته OpenAI، حيث قمنا بتعديل مُشفر النص فيه باستخدام مُشفر النص متعدد اللغات المُعد مسبقًا XLM-R، وتم.Aligning كل من التمثيلات اللغوية وتمثيلات الصور من خلال نظام تدريب ذو مرحلتين يتكون من التعلم بالإشراف (teacher learning) والتعلم التبايني (contrastive learning). نحن نتحقق من صحة طرقنا من خلال تقييم مجموعة واسعة من المهام. لقد حققنا أداءً جديدًا يتفوق على أفضل الأداءات السابقة في العديد من المهام بما في ذلك ImageNet-CN، Flicker30k-CN، COCO-CN وXTD. علاوة على ذلك، حصلنا على أداء قريب جدًا من CLIP في جميع المهام تقريبًا، مما يشير إلى أنه يمكن ببساطة تعديل مُشفر النص في CLIP لتوسيع قدراته مثل فهم اللغات المتعددة. يمكن الوصول إلى نماذجنا وكود البرمجيات الخاص بنا عبر الرابط: https://github.com/FlagAI-Open/FlagAI.

AltCLIP: تعديل مُشفر اللغة في CLIP لتوسيع قدرات اللغة | أحدث الأوراق البحثية | HyperAI