HyperAIHyperAI
منذ 2 أشهر

تعلم التوافق متعدد الحبوب من مقاطع الفيديو الطويلة والضوضائية على المدى الطويل

Lin, Yijie ; Zhang, Jie ; Huang, Zhenyu ; Liu, Jia ; Wen, Zujie ; Peng, Xi
تعلم التوافق متعدد الحبوب من مقاطع الفيديو الطويلة والضوضائية على المدى الطويل
الملخص

الدراسات الحالية في مجال الفيديو واللغة تركز بشكل أساسي على تعلم مقاطع الفيديو القصيرة، مما يجعل الاعتماديات الزمنية طويلة الأجل نادراً ما يتم استكشافها بسبب التكلفة الحسابية المرتفعة للغاية لنمذجة الفيديوهات الطويلة. لحل هذه المشكلة، أحد الحلول الممكنة هو تعلم التوافق بين مقاطع الفيديو والعناوين، ولكن هذا الحل يواجه حتماً مشكلة التوافق الضوضائي متعدد الحبيبات (MNC). بعبارة أخرى، MNC يشير إلى عدم مطابقة المقاطع والعناوين (حبيبات خشنة) وعدم مطابقة الإطارات والكلمات (حبيبات دقيقة)، مما يعيق التعلم الزمني وفهم الفيديو. في هذا البحث، نقترح استخدام نموذج النقل الأمثل المقاوم للضوضاء (Norton) الذي يعالج MNC في إطار موحد للنقل الأمثل (OT). باختصار، يستخدم Norton خسائر مقارنة بين الفيديو والفقرة وخسائر مقارنة بين المقطع والعنوان لالتقاط الاعتماديات طويلة الأجل بناءً على OT. لمعالجة عدم المطابقة الخشن في مقارنة الفيديو والفقرة، يقوم Norton بتصفية المقاطع والعناوين غير ذات الصلة من خلال سلة الدفع القابلة للمطابقة وإعادة ترتيب أزواج المقطع والعنوان غير المتزامنة بناءً على المسافة النقلية. لمعالجة عدم المطابقة الدقيق، يقوم Norton بتضمين عامل الحد الأقصى اللين لتعرف الكلمات الرئيسية والإطارات الأساسية. بالإضافة إلى ذلك، يستغل Norton العينات السلبية المحتملة الخطأ في مقارنة المقطع والعنوان عن طريق تصحيح هدف المطابقة باستخدام تعيين OT لضمان النمذجة الزمنية الدقيقة. تم إجراء تجارب واسعة على استرجاع الفيديو وسؤال وجواب الفيديو وتقسيم الأنشطة لتثبت فعالية طريقتنا. يمكن الحصول على الكود من الرابط التالي: https://lin-yijie.github.io/projects/Norton.

تعلم التوافق متعدد الحبوب من مقاطع الفيديو الطويلة والضوضائية على المدى الطويل | أحدث الأوراق البحثية | HyperAI