HyperAIHyperAI
منذ 7 أيام

OmniVL: نموذج أساسي واحد للمهام المرئية-اللغوية والمرئية-اللغوية الفيديو

Junke Wang, Dongdong Chen, Zuxuan Wu, Chong Luo, Luowei Zhou, Yucheng Zhao, Yujia Xie, Ce Liu, Yu-Gang Jiang, Lu Yuan
OmniVL: نموذج أساسي واحد للمهام المرئية-اللغوية والمرئية-اللغوية الفيديو
الملخص

تقدم هذه الورقة البحثية نموذج OmniVL، وهو نموذج أساسي جديد يدعم مهام توليد اللغة المرتبطة بالصور والفيديوهات باستخدام معمارية واحدة عالمية. يعتمد النموذج على مُشفر بصري مبني على مُحولّر موحد (Transformer) لمعالجة كل من المدخلات الصورية والفيديوهات، مما يمكّنه من إجراء تدريب مسبق مشترك على المهام المرتبطة بالصور واللغة، وكذلك المهام المرتبطة بالفيديوهات واللغة. ونُظهر لأول مرة أن هذا النموذج يُحقق فوائد متبادلة لكلتا المهام (الصور والفيديوهات)، على عكس النموذج التقليدي الاتجاهي الواحد (مثل استخدام المهام المرتبطة بالصور واللغة لدعم المهام المرتبطة بالفيديوهات واللغة). ولتحقيق ذلك، نقترح نموذج تدريب مسبق مُفصَّل (Decoupled Joint Pretraining) يُفكّك نموذج التوليد البصري-اللغوي بشكل فعّال إلى البعدين المكاني والزمني، مما يُحسّن الأداء في كلتا المهام. بالإضافة إلى ذلك، نقدّم خسارة جديدة تُسمّى UniVLC (خسارة تباينية موحدة للرؤية واللغة)، والتي تُستخدم لدمج البيانات المرتبطة بالصور والنصوص، والفيديوهات والنصوص، والصور والوسوم (مثل تصنيف الصور)، والفيديوهات والوسوم (مثل التعرف على الحركات في الفيديو)، بهدف الاستفادة القصوى من بيانات التدريب المُراقبة وغير المُراقبة بدقة. وبلا الحاجة إلى إضافات مخصصة لكل مهمة، يمكن لـ OmniVL دعم مهام بصرية فقط (مثل تصنيف الصور، التعرف على الحركات في الفيديو)، ومهمات التوافق بين الوسائط المختلفة (مثل استرجاع النصوص المرتبطة بالصور أو الفيديوهات)، بالإضافة إلى مهام فهم وتوليد متعددة الوسائط (مثل الإجابة على الأسئلة المتعلقة بالصور أو الفيديوهات، وكتابة الوصف النصي). وقد تم تقييم OmniVL على طيف واسع من المهام التالية، وحقق نتائج متميزة أو تنافسية مقارنة بالنموذج المماثل من حيث الحجم والحجم النسبي للبيانات.