توسيع النماذج متعددة الوسائط التلقائية: التدريب المسبق وضبط التعليم

نُقدِّم نموذج CM3Leon (تُلفظ "تشاميليون")، وهو نموذج لغوي متعدد الوسائط، مُعتمد على الترميز (token-based)، وفقط من نوع المُفكِّك (decoder-only)، قادر على إنشاء النصوص والصور، وكذلك ملء الفراغات فيها. يستخدم نموذج CM3Leon بنية CM3 متعددة الوسائط، لكنه يُظهر أيضًا الفوائد الكبيرة المترتبة على التوسيع والتخصيص باستخدام بيانات تعليمية متنوعة ذات طابع تعليمي. وهو أول نموذج متعدد الوسائط يتم تدريبه وفقًا لوصفة مُعدّلة من وصفات النماذج اللغوية ذات النص الواحد، وتشمل مرحلة تدريب مُسبق على نطاق واسع تعتمد على الاسترجاع (retrieval-augmented)، ومرحلة ثانية من التدريب المُراقب متعدد المهام (SFT). كما أنه نموذج عام يمكنه إنجاز كل من التوليد من نص إلى صورة، والتحويل من صورة إلى نص، مما يتيح لنا تقديم أساليب تفكير تناضُضيّة ذاتية (self-contained contrastive decoding) تُنتج نتائج عالية الجودة. تُظهر التجارب الواسعة أن هذه الوصفة فعّالة للغاية في النماذج متعددة الوسائط. ويحقق نموذج CM3Leon أداءً متقدمًا جدًا في التوليد من نص إلى صورة، باستخدام ما يعادل خمسة أضعاف أقل من حسابات التدريب مقارنة بالطرق المماثلة (بمعدل FID على مجموعة بيانات MS-COCO بدون تدريب مسبق يبلغ 4.88). وبعد مرحلة SFT، يمكن لنموذج CM3Leon أيضًا إظهار مستويات غير مسبوقة من التحكّم في مهام تتراوح بين تحرير الصور الموجهة باللغة، والتحرير المُتحكم فيه بالصورة، وتقسيم الصور.