HyperAIHyperAI
منذ 11 أيام

OPT: مُدرّب مُسبق متعدد الحواس للإدراك عبر الوسائط والتكوين

Jing Liu, Xinxin Zhu, Fei Liu, Longteng Guo, Zijia Zhao, Mingzhen Sun, Weining Wang, Hanqing Lu, Shiyu Zhou, Jiajun Zhang, Jinqiao Wang
OPT: مُدرّب مُسبق متعدد الحواس للإدراك عبر الوسائط والتكوين
الملخص

في هذه الورقة البحثية، نقترح نموذجًا مُدرَّبًا مسبقًا على مستوى الشمولية (OPT) لفهم وإنشاء المُحتوى عبر الوسائط المختلفة، من خلال نمذجة معاً للموارد البصرية والنصية والصوتية. يُبنى نموذج OPT ضمن إطار عمل مُشفِّر-مُفكِّك، يحتوي على ثلاثة مُشفِّرات منفصلة لكل وسيلة لتوليد تمثيلات قائمة على الرموز (token-based embeddings) لكل وسيلة، ومُشفِّر متقاطع بين الوسائط لتمثيل العلاقات بين الوسائط الثلاث، بالإضافة إلى مُفكِّكَين متقاطعين بين الوسائط لإنشاء النص والصورة على التوالي. وبالنسبة لتدريب النموذج المسبق (pre-training) لـ OPT، قمنا بتصميم خطة تعلم مُسبَق متعددة المهام، لتمثيل الموارد متعددة الوسائط من ثلاث مستويات مختلفة من الدقة في البيانات، وهي: مستوى الرمز (token-level)، ومستوى الوسيلة (modality-level)، ومستوى العينة (sample-level). وباستخدام هذه الخطة، يتعلم النموذج محاذاة وترجمة بين الوسائط المختلفة. تم إجراء عملية التدريب المسبق على كمية كبيرة من المجموعات الثلاثية (صورة-نص-صوت) المستمدة من مجموعة Open Images. أظهرت النتائج التجريبية أن OPT قادر على تعلُّم تمثيلات متعددة الوسائط قوية للصورة والنص والصوت، وتحقيق نتائج واعدة في مجموعة متنوعة من المهام المتعلقة بالفهم والإنشاء عبر الوسائط المختلفة.

OPT: مُدرّب مُسبق متعدد الحواس للإدراك عبر الوسائط والتكوين | أحدث الأوراق البحثية | HyperAI