HyperAIHyperAI

Command Palette

Search for a command to run...

فيسيل: تعلم التشابه المكاني-الزماني الدقيق للفيديوهات

Giorgos Kordopatis-Zilos Symeon Papadopoulos Ioannis Patras Ioannis Kompatsiaris

الملخص

في هذا البحث، نقدم ViSiL، وهي هندسة لتعلم التشابه بين الفيديوهات تأخذ بعين الاعتبار العلاقات المكانية-الزمانية الدقيقة بين أزواج الفيديوهات - هذه العلاقات غالبًا ما تضيع في طرق استرجاع الفيديو السابقة التي تقوم بتضمين الإطار بأكمله أو حتى الفيديو بأكمله في وصف متجهي قبل تقدير التشابه. بالمقارنة مع ذلك، يتم تدريب نهجنا القائم على الشبكات العصبية التلافيفية (CNN) لحساب التشابه بين الفيديوهات من خلال مصفوفات التشابه الدقيقة بين الإطارات، وذلك للنظر في العلاقات داخل الإطار وبين الإطارات. في الطريقة المقترحة، يتم تقدير التشابه الزوجي بين الإطارات من خلال تطبيق الضرب النقطي للموتر (Tensor Dot) ثم تشابه تشامفر (Chamfer Similarity) على خصائص الإطارات الإقليمية للشبكة العصبية التلافيفية - وهذا يتجنب جمع الخصائص قبل حساب التشابه بين الإطارات. بعد ذلك، يتم إدخال مصفوفة التشابه بين جميع إطارات الفيديو إلى شبكة CNN ذات الأربع طبقات، ومن ثم يتم تلخيصها باستخدام تشابه تشامفر (Chamfer Similarity) إلى درجة تشابه بين الفيديوهات - وهذا يتجنب جمع الخصائص قبل حساب التشابه بين الفيديوهات ويُمكن من التقاط الأنماط الزمانية للتشابه بين سلاسل الإطارات المتطابقة. نقوم بتدريب الشبكة المقترحة باستخدام مخطط خسارة ثلاثي الأبعاد (triplet loss scheme) وتقييمها على خمسة قواعد بيانات عامة معيارية لأربع مشاكل مختلفة في استرجاع الفيديو حيث نظهر تحسينات كبيرة بالمقارنة مع أفضل التقنيات الحالية. إن تنفيذ ViSiL متاح بشكل عام.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
فيسيل: تعلم التشابه المكاني-الزماني الدقيق للفيديوهات | مستندات | HyperAI