HyperAIHyperAI

Command Palette

Search for a command to run...

توسيع النماذج متعددة الوسائط التلقائية: التدريب المسبق وضبط التعليم

الملخص

نُقدِّم نموذج CM3Leon (تُلفظ "تشاميليون")، وهو نموذج لغوي متعدد الوسائط، مُعتمد على الترميز (token-based)، وفقط من نوع المُفكِّك (decoder-only)، قادر على إنشاء النصوص والصور، وكذلك ملء الفراغات فيها. يستخدم نموذج CM3Leon بنية CM3 متعددة الوسائط، لكنه يُظهر أيضًا الفوائد الكبيرة المترتبة على التوسيع والتخصيص باستخدام بيانات تعليمية متنوعة ذات طابع تعليمي. وهو أول نموذج متعدد الوسائط يتم تدريبه وفقًا لوصفة مُعدّلة من وصفات النماذج اللغوية ذات النص الواحد، وتشمل مرحلة تدريب مُسبق على نطاق واسع تعتمد على الاسترجاع (retrieval-augmented)، ومرحلة ثانية من التدريب المُراقب متعدد المهام (SFT). كما أنه نموذج عام يمكنه إنجاز كل من التوليد من نص إلى صورة، والتحويل من صورة إلى نص، مما يتيح لنا تقديم أساليب تفكير تناضُضيّة ذاتية (self-contained contrastive decoding) تُنتج نتائج عالية الجودة. تُظهر التجارب الواسعة أن هذه الوصفة فعّالة للغاية في النماذج متعددة الوسائط. ويحقق نموذج CM3Leon أداءً متقدمًا جدًا في التوليد من نص إلى صورة، باستخدام ما يعادل خمسة أضعاف أقل من حسابات التدريب مقارنة بالطرق المماثلة (بمعدل FID على مجموعة بيانات MS-COCO بدون تدريب مسبق يبلغ 4.88). وبعد مرحلة SFT، يمكن لنموذج CM3Leon أيضًا إظهار مستويات غير مسبوقة من التحكّم في مهام تتراوح بين تحرير الصور الموجهة باللغة، والتحرير المُتحكم فيه بالصورة، وتقسيم الصور.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp