HyperAIHyperAI
منذ 7 أيام

إلى التكيّف السريع للنماذج المسبقة المُتَناقِضة لاسترجاع الفيديو واللغة متعدد القنوات

Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang
إلى التكيّف السريع للنماذج المسبقة المُتَناقِضة لاسترجاع الفيديو واللغة متعدد القنوات
الملخص

تتطلب المهام المتعلقة باسترجاع الفيديو واللغة متعدد القنوات أن تفهم النماذج المعلومات من قنوات مختلفة (مثل: فيديو + سؤال، فيديو + كلام) لربط الفيديو بشكل صحيح بالإجابة أو الاستعلام النصي. من الجيد أن النماذج متعددة الوسائط القائمة على التمييز أُظهرت فعالية كبيرة في توحيد الكيانات في الصور/الفيديوهات والنصوص، مثل نموذج CLIP؛ كما تم دراسة نماذج النص القائمة على التمييز بشكل واسع مؤخرًا بسبب قدرتها القوية على إنتاج تمثيلات جمل مميزة، مثل SimCSE. ومع ذلك، لا توجد طريقة واضحة لتمكين التكيف السريع بين هاتين الفئتين من النماذج في سياق استرجاع الفيديو واللغة متعدد القنوات، خصوصًا مع قلة البيانات والموارد. في هذه الورقة، نحدد مساحة تصميم نموذج منهجية تتكون من محورين: كيفية تمثيل الفيديوهات، وكيفية دمج معلومات الفيديو والنص. بناءً على تصنيف الطرق الحديثة، نستعرض خيارات تمثيل الفيديوهات باستخدام متجهات متجانسة (continuous feature vectors) أو رموز نصية منفصلة (discrete text tokens)؛ أما بالنسبة لطريقة الدمج، فإننا نستكشف استخدام نموذج متعدد الوسائط من نوع المُحَوِّل (multimodal transformer) أو استخدام نموذج نصي مُدرَّب مسبقًا على التمييز. قمنا بتقييم مكثف للارتباطات الأربعة الناتجة على خمسة مجموعات بيانات لاسترجاع الفيديو واللغة. ووجدنا بشكل مفاجئ أن استخدام الرموز النصية المنفصلة مع نموذج نصي مُدرَّب مسبقًا على التمييز يحقق أفضل الأداء، حتى يتفوق على النماذج الرائدة في مجال iVQA وHow2QA دون الحاجة إلى تدريب إضافي على ملايين البيانات الفيديو-النصية. وتشير التحليلات الإضافية إلى أن هذا يعود إلى قدرة تمثيل الفيديوهات كرموز نصية على التقاط المعلومات البصرية الأساسية، فضلًا عن أن الرموز النصية تكون متوافقة بشكل طبيعي مع النماذج النصية التي تصبح قوية جدًا في الاسترجاع بعد عملية التدريب المسبق القائمة على التمييز. تُشكل جميع التحليلات التجريبية الأساس المتين لبحوث مستقبلية في مجال الذكاء متعدد الوسائط الميسور التكلفة والقابل للتحديث.

إلى التكيّف السريع للنماذج المسبقة المُتَناقِضة لاسترجاع الفيديو واللغة متعدد القنوات | أحدث الأوراق البحثية | HyperAI