HyperAIHyperAI

Command Palette

Search for a command to run...

OPT: مُدرّب مُسبق متعدد الحواس للإدراك عبر الوسائط والتكوين

الملخص

في هذه الورقة البحثية، نقترح نموذجًا مُدرَّبًا مسبقًا على مستوى الشمولية (OPT) لفهم وإنشاء المُحتوى عبر الوسائط المختلفة، من خلال نمذجة معاً للموارد البصرية والنصية والصوتية. يُبنى نموذج OPT ضمن إطار عمل مُشفِّر-مُفكِّك، يحتوي على ثلاثة مُشفِّرات منفصلة لكل وسيلة لتوليد تمثيلات قائمة على الرموز (token-based embeddings) لكل وسيلة، ومُشفِّر متقاطع بين الوسائط لتمثيل العلاقات بين الوسائط الثلاث، بالإضافة إلى مُفكِّكَين متقاطعين بين الوسائط لإنشاء النص والصورة على التوالي. وبالنسبة لتدريب النموذج المسبق (pre-training) لـ OPT، قمنا بتصميم خطة تعلم مُسبَق متعددة المهام، لتمثيل الموارد متعددة الوسائط من ثلاث مستويات مختلفة من الدقة في البيانات، وهي: مستوى الرمز (token-level)، ومستوى الوسيلة (modality-level)، ومستوى العينة (sample-level). وباستخدام هذه الخطة، يتعلم النموذج محاذاة وترجمة بين الوسائط المختلفة. تم إجراء عملية التدريب المسبق على كمية كبيرة من المجموعات الثلاثية (صورة-نص-صوت) المستمدة من مجموعة Open Images. أظهرت النتائج التجريبية أن OPT قادر على تعلُّم تمثيلات متعددة الوسائط قوية للصورة والنص والصوت، وتحقيق نتائج واعدة في مجموعة متنوعة من المهام المتعلقة بالفهم والإنشاء عبر الوسائط المختلفة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp