HyperAIHyperAI

Command Palette

Search for a command to run...

إلى التكيّف السريع للنماذج المسبقة المُتَناقِضة لاسترجاع الفيديو واللغة متعدد القنوات

Xudong Lin Simran Tiwari Shiyuan Huang Manling Li Mike Zheng Shou Heng Ji Shih-Fu Chang

الملخص

تتطلب المهام المتعلقة باسترجاع الفيديو واللغة متعدد القنوات أن تفهم النماذج المعلومات من قنوات مختلفة (مثل: فيديو + سؤال، فيديو + كلام) لربط الفيديو بشكل صحيح بالإجابة أو الاستعلام النصي. من الجيد أن النماذج متعددة الوسائط القائمة على التمييز أُظهرت فعالية كبيرة في توحيد الكيانات في الصور/الفيديوهات والنصوص، مثل نموذج CLIP؛ كما تم دراسة نماذج النص القائمة على التمييز بشكل واسع مؤخرًا بسبب قدرتها القوية على إنتاج تمثيلات جمل مميزة، مثل SimCSE. ومع ذلك، لا توجد طريقة واضحة لتمكين التكيف السريع بين هاتين الفئتين من النماذج في سياق استرجاع الفيديو واللغة متعدد القنوات، خصوصًا مع قلة البيانات والموارد. في هذه الورقة، نحدد مساحة تصميم نموذج منهجية تتكون من محورين: كيفية تمثيل الفيديوهات، وكيفية دمج معلومات الفيديو والنص. بناءً على تصنيف الطرق الحديثة، نستعرض خيارات تمثيل الفيديوهات باستخدام متجهات متجانسة (continuous feature vectors) أو رموز نصية منفصلة (discrete text tokens)؛ أما بالنسبة لطريقة الدمج، فإننا نستكشف استخدام نموذج متعدد الوسائط من نوع المُحَوِّل (multimodal transformer) أو استخدام نموذج نصي مُدرَّب مسبقًا على التمييز. قمنا بتقييم مكثف للارتباطات الأربعة الناتجة على خمسة مجموعات بيانات لاسترجاع الفيديو واللغة. ووجدنا بشكل مفاجئ أن استخدام الرموز النصية المنفصلة مع نموذج نصي مُدرَّب مسبقًا على التمييز يحقق أفضل الأداء، حتى يتفوق على النماذج الرائدة في مجال iVQA وHow2QA دون الحاجة إلى تدريب إضافي على ملايين البيانات الفيديو-النصية. وتشير التحليلات الإضافية إلى أن هذا يعود إلى قدرة تمثيل الفيديوهات كرموز نصية على التقاط المعلومات البصرية الأساسية، فضلًا عن أن الرموز النصية تكون متوافقة بشكل طبيعي مع النماذج النصية التي تصبح قوية جدًا في الاسترجاع بعد عملية التدريب المسبق القائمة على التمييز. تُشكل جميع التحليلات التجريبية الأساس المتين لبحوث مستقبلية في مجال الذكاء متعدد الوسائط الميسور التكلفة والقابل للتحديث.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp