HyperAIHyperAI
منذ 17 أيام

نمذجة اللغة متعددة الوسائط المعززة بالاسترجاع

Michihiro Yasunaga, Armen Aghajanyan, Weijia Shi, Rich James, Jure Leskovec, Percy Liang, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih
نمذجة اللغة متعددة الوسائط المعززة بالاسترجاع
الملخص

لقد حققت النماذج متعددة الوسائط الحديثة مثل DALL-E وCM3 تقدماً ملحوظاً في توليد الصور من النصوص وتحويل الصور إلى نصوص. ومع ذلك، تخزن هذه النماذج كل المعرفة المكتسبة (مثل مظهر برج إيفل) داخل معاملات النموذج، مما يتطلب نماذجًا أكبر باستمرار وبيانات تدريب أكثر لاستيعاب معرفة أكبر. ولدمج المعرفة بطريقة أكثر قابلية للتوسع وتنظيمًا، نقترح نموذجًا متعدد الوسائط مدعومًا بالاسترجاع، والذي يمكّن النموذج الأساسي متعدد الوسائط (المُولِّد) من الرجوع إلى نصوص وصور ذات صلة يتم استرجاعها بواسطة مُسترجع من الذاكرة الخارجية (مثل المستندات على الويب). وبشكل محدد، نستخدم نموذجًا مُدرَّبًا مسبقًا من نوع CLIP كمُسترجع، ونُدرّب نموذج CM3 Transformer كمُولِّد على مجموعة بيانات LAION. ويُسمَّى النموذج الناتج، الذي يُعرف بـ RA-CM3 (CM3 المدعوم بالاسترجاع)، أول نموذج متعدد الوسائط قادر على استرجاع وتحقيق كل من النصوص والصور. ونُظهر أن RA-CM3 يتفوّق بشكل كبير على النماذج الأساسية متعددة الوسائط مثل DALL-E وCM3 في مهام توليد الصور وكتابة الوصف (بتحسّن قدره 12 نقطة في FID و17 نقطة في CIDEr على مجموعة بيانات MS-COCO)، مع الحاجة إلى موارد حوسبة أقل بكثير أثناء التدريب (أقل من 30٪ من موارد DALL-E). علاوةً على ذلك، نُظهر أن RA-CM3 يمتلك قدرات جديدة، مثل توليد صور وفّقية وتعلُّم متعدد الوسائط في السياق (مثلاً، توليد صور من أمثلة توضيحية).