HyperAIHyperAI
منذ 9 أيام

CenterCLIP: تجميع الرموز لاسترجاع نصي-فيديو فعّال

Shuai Zhao, Linchao Zhu, Xiaohan Wang, Yi Yang
CenterCLIP: تجميع الرموز لاسترجاع نصي-فيديو فعّال
الملخص

في الآونة الأخيرة، حققت الطرق الكبيرة للتدريب المسبق مثل CLIP تقدماً كبيراً في الأبحاث متعددة الوسائط، مثل استرجاع الفيديو بناءً على النص. في CLIP، تُعد النماذج التحويلية (Transformers) محورية في نمذجة العلاقات المعقدة متعددة الوسائط. ومع ذلك، في نموذج التحويل البصري الخاص بـ CLIP، فإن عملية التجزئة البصرية الأساسية، التي تُنتج تسلسلاً من الرموز البصرية المنفصلة، تُولّد العديد من الرموز المتماثلة بسبب الطبيعة الزائدة التي تتميّز بها الإطارات المتتالية والمشابهة في الفيديوهات. وهذا يزيد بشكل كبير من تكاليف الحوسبة، ويعيق نشر نماذج استرجاع الفيديو في التطبيقات عبر الويب. في هذه الورقة، لخفض عدد الرموز البصرية الزائدة في الفيديو، نصمم خوارزمية تجميع الرموز متعددة المقاطع، بهدف تحديد الرموز الأكثر تمثيلاً وحذف الرموز غير الضرورية. وبما أن التكرار في الإطارات يحدث في الغالب في الإطارات المتتالية، نقوم بتقسيم الفيديوهات إلى عدة مقاطع، ونُجري تجميعاً على مستوى كل مقاطع. ثم نُلصق الرموز المركزية من كل مقاطع لتكوين تسلسل جديد، مع الحفاظ الجيد على العلاقات المكانية الزمنية الأصلية. ونُطبّق خوارزميتين لتجميع لتحديد مركزات محددة (medoids) بكفاءة، وتقسيم المجموعات بشكل تكراري في الفضاء عالي الأبعاد. من خلال هذه العملية المتمثلة في تجميع الرموز وتحديد المراكز، ننجح في تقليل تكاليف الحوسبة عن طريق إزالة الرموز البصرية الزائدة. كما يعزز هذا الأسلوب بشكل إضافي التوافق الدلالي على مستوى المقاطع بين تمثيلات الفيديو والنص، مع تعزيز التفاعلات المكانية الزمنية بين الرموز الناتجة من الإطارات داخل نفس المقطع. يُسمّى هذا الأسلوب بـ CenterCLIP، وقد تفوّق على النماذج الرائدة الحالية بفارق كبير في معايير استرجاع الفيديو النصية الشهيرة، مع تقليل تكلفة الذاكرة أثناء التدريب بنسبة 35%، وزيادة سرعة الاستنتاج بنسبة 14% في الحالة المثلى. يمكن الوصول إلى الشفرة المصدرية عبر الرابط التالي: \href{https://github.com/mzhaoshuai/CenterCLIP}{https://github.com/mzhaoshuai/CenterCLIP}.

CenterCLIP: تجميع الرموز لاسترجاع نصي-فيديو فعّال | أحدث الأوراق البحثية | HyperAI