HyperAIHyperAI

Command Palette

Search for a command to run...

COSA: نموذج أساسي متعدد الوسائط بصري-لغوي مُدرَّب مسبقًا على عينات متسلسلة

Sihan Chen Xingjian He Handong Li Xiaojie Jin Jiashi Feng Jing Liu

الملخص

نظرًا للحجم المحدود والجودة المنخفضة لقاعدة البيانات التدريبية الخاصة بالفيديو-نص، تُستخدم معظم نماذج الأساس البصرية-اللغوية مجموعات بيانات الصورة-النص في مرحلة التدريب المسبق، مع التركيز الأساسي على نمذجة التمثيلات البصرية الدلالية، بينما تتجاهل التمثيلات الدلالية الزمنية والارتباطات الزمنية. ولحل هذه المشكلة، نقترح نموذج COSA، وهو نموذج أساس بصري-لغوي مُدرّب مسبقًا باستخدام عينات مُتسلسلة (COncatenated SAmple). يُعالج نموذج COSA محتوى الصورة والمؤشرات الزمنية على مستوى الحدث بشكل مشترك باستخدام فقط مجموعات بيانات الصورة-النص. ونحقق ذلك من خلال تسلسل دمج أزواج متعددة من الصور-النص كمدخلات للتدريب المسبق. ويُحوّل هذا التحويل بشكل فعّال مجموعات بيانات الصورة-النص الحالية إلى قاعدة بيانات افتراضية مماثلة لنص الفيديو الطويل (long-form video-paragraph)، مما يمكّن من تحسين التحولات المشهدية وتقديم علاقة واضحة بين الوصف والحدث. أظهرت التجارب الواسعة أن نموذج COSA يُحسّن الأداء بشكل متسق عبر مجموعة واسعة من المهام اللاحقة، بما في ذلك مهام الفيديو-النص الطويل والقصير، بالإضافة إلى مهام الصورة-النص مثل الاسترجاع والوصف والأسئلة والأجوبة. وبشكل ملحوظ، حقق نموذج COSA نتائج قياسية على العديد من المعايير التنافسية. تم إصدار الكود والنماذج على الرابط: https://github.com/TXH-mercury/COSA.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp