HyperAIHyperAI
منذ 17 أيام

COTS: نموذج تدريب مسبق متعدد الوسائط تعاوني ثنائي التدفق للرؤية واللغة لاسترجاع عبر الوسائط

Haoyu Lu, Nanyi Fei, Yuqi Huo, Yizhao Gao, Zhiwu Lu, Ji-Rong Wen
COTS: نموذج تدريب مسبق متعدد الوسائط تعاوني ثنائي التدفق للرؤية واللغة لاسترجاع عبر الوسائط
الملخص

أظهر التدريب المسبق على نطاق واسع في تدفق واحد أداءً ملحوظًا في مهام استرجاع الصور والنصوص. للأسف، يعاني هذا النهج من كفاءة منخفضة أثناء الاستنتاج بسبب طبقات الانتباه الثقيلة. في الآونة الأخيرة، أظهرت طرق التدفق المزدوج مثل CLIP وALIGN، التي تتميز بكفاءة عالية في الاستنتاج، أداءً واعدًا أيضًا، لكنها تأخذ بعين الاعتبار فقط التماثل على مستوى المثيل بين التدفقين (مما يترك مجالًا للتحسين). لتجاوز هذه القيود، نقترح نموذجًا جديدًا للتدريب المسبق البصري-اللغوي ثنائي التدفق يُسمى COTS، والذي يعتمد على تعزيز التفاعل بين الوسائط المختلفة. بالإضافة إلى التماثل على مستوى المثيل باستخدام تعلم التماثل الحركي (momentum contrastive learning)، نستخدم مستويين إضافيين للتفاعل بين الوسائط في نموذجنا COTS: (1) التفاعل على مستوى الرموز (token-level interaction) - حيث تم تصميم هدف تعلم نموذج التوليد البصري-اللغوي المُقنع (Masked Vision-Language Modeling, MVLM) دون استخدام وحدة شبكة تفاعلية بين التدفقين، مع تطبيق نموذج التشفير التلقائي المتغير (Variational Autoencoder) على المُشفر البصري لإنتاج رموز بصرية لكل صورة. (2) التفاعل على مستوى المهمة (task-level interaction) - حيث تم تصميم هدف تعلم التماثل باستخدام التباعد كولب-ليبلر (KL-alignment) بين مهام استرجاع النص إلى الصورة واسترجاع الصورة إلى النص، مع حساب توزيع الاحتمال لكل مهمة باستخدام طوابير سالبة في تعلم التماثل الحركي. وفي إطار مقارنة عادلة، حقق نموذجنا COTS أفضل أداء بين جميع الطرق الثنائية التدفق، مع أداء مُComparable (مع تسريع يصل إلى 10,800 مرة في الاستنتاج) مقارنة بأحدث الطرق الأحادية التدفق. وبشكل مهم، يمكن تطبيق نموذج COTS أيضًا على استرجاع النص إلى الفيديو، مما يُحقق حالة جديدة من الأداء الريادي على مجموعة بيانات MSR-VTT الشهيرة.

COTS: نموذج تدريب مسبق متعدد الوسائط تعاوني ثنائي التدفق للرؤية واللغة لاسترجاع عبر الوسائط | أحدث الأوراق البحثية | HyperAI