DiffusionVMR: نموذج الانتشار للبحث المشترك عن لحظات الفيديو وكشف النقاط المهمة

استعادة لحظات الفيديو وتحديد النقاط المهمة قد حظيت باهتمام في العصر الحالي مع انتشار محتوى الفيديو، بهدف تحديد مواقع اللحظات وتقييم أهمية المقاطع بناءً على استعلامات محددة للمستخدم. نظرًا لأن محتوى الفيديو مستمر زمنيًا، غالبًا ما يكون هناك نقص في الحدود الواضحة بين الأحداث الزمنية داخل الفيديو. هذا الغموض في الحدود يجعل من الصعب على النموذج تعلم التوافق بين النص والمقاطع الفيديوية، مما يؤدي إلى أداء غير مثالي للطرق الحالية في التنبؤ بالفواصل المستهدفة. لحل هذه المشكلة، نقترح حل المهمتين معًا من وجهة نظر توليد خالٍ من الضوضاء. بالإضافة إلى ذلك، يمكن تحديد الحد المستهدف بوضوح من خلال التكرار والتحسين من الخشن إلى الدقيق. بشكل خاص، تم اقتراح إطار جديد يُسمى DiffusionVMR (استعادة لحظات الفيديو بالتوزيع) لإعادة تعريف المهمتين كعملية توليد مشروطة موحدة من خلال دمج نموذج الانتشار. أثناء التدريب، يتم إضافة ضوضاء جاوسية لتدمير الحقيقة الأرضية، ويتم إنتاج مرشحين ضوضائيين كمدخلات. يتم تدريب النموذج على عكس عملية إضافة الضوضاء هذه. في مرحلة الاستدلال، يبدأ DiffusionVMR مباشرة من الضوضاء الجاوسية ويعمل على تحسين المقترحات تدريجيًا من الضوضاء إلى الإخراج ذي المعنى. يُذكر أن DiffusionVMR يرث مزايا نماذج الانتشار التي تسمح بنتائج متكررة ومُحسنة أثناء الاستدلال، مما يعزز الانتقال الحدي من الخشن إلى الدقيق. علاوة على ذلك، يتم فصل التدريب والاستدلال في DiffusionVMR. يمكن استخدام أي إعداد في DiffusionVMR أثناء الاستدلال دون الحاجة للتوافق مع مرحلة التدريب. أظهرت التجارب الواسعة التي أجريت على خمسة مقاييس شائعة الاستخدام (أي QVHighlight، Charades-STA، TACoS، YouTubeHighlights وTVSum) عبر مهمتين (استعادة اللحظات و/أو تحديد النقاط المهمة) فعالية ومرنّة الإطار المقترح DiffusionVMR.请注意,DiffusionVMR 是一个专有名词,因此在首次出现时保留了英文原名,并在之后的使用中直接使用阿拉伯语翻译。其他不常见的术语也进行了类似的处理。希望这能帮助您更好地理解翻译内容。