HyperAIHyperAI
منذ 2 أشهر

FlashVTG: شبكة تكديس الميزات وتعامل التكيفي مع النقاط للتوثيق الزمني للفيديو

Cao, Zhuo ; Zhang, Bingqing ; Du, Heming ; Yu, Xin ; Li, Xue ; Wang, Sen
FlashVTG: شبكة تكديس الميزات وتعامل التكيفي مع النقاط للتوثيق الزمني للفيديو
الملخص

تهدف تقنية توجيه الفيديو الزمني بالنص (VTG) إلى تحديد المقاطع ذات الصلة في مقاطع الفيديو غير المقصوصة بناءً على الوصف النصي، وتشمل هذه التقنية مهمتين فرعيتين: استرجاع اللحظات (MR) وكشف النقاط البارزة (HD). رغم أن الأساليب السابقة قد حققت نتائج جديرة بالتقدير، إلا أن استرجاع اللحظات القصيرة في الفيديو لا يزال يشكل تحديًا كبيرًا. هذا التحدي يعود بشكل رئيسي إلى الاعتماد على استعلامات مفككة ومحدودة من قبل المُفكِّك (decoder)، مما يحد بشكل كبير من دقة التوقعات. بالإضافة إلى ذلك، غالبًا ما تكون النتائج غير المثلى بسبب ترتيب التوقعات بناءً على توقعات معزولة، مع إغفال السياق الأوسع للفيديو. لمعالجة هذه المشكلات، نقدم إطار عمل FlashVTG الذي يتميز بوجود وحدة طبقات الخصائص الزمنية (TFL) ووحدة تحسين التقييم التكيفي (ASR). تعمل وحدة TFL على استبدال الهيكل التقليدي للمُفكِّك لالتقاط التغيرات الدقيقة في محتوى الفيديو عبر عدة مقاييس زمنية، بينما تحسن وحدة ASR تصنيف التوقعات من خلال دمج السياق من اللحظات المجاورة والخصائص متعددة المقاييس الزمنية. أظهرت التجارب الواسعة أن FlashVTG يحقق أداءً عالميًا رائدًا على أربع قواعد بيانات شائعة الاستخدام في كل من MR و HD. وبشكل خاص، على قاعدة البيانات QVHighlights، فإنها تعزز مؤشر mAP بنسبة 5.8% لـ MR و3.3% لـ HD. بالنسبة لاسترجاع اللحظات القصيرة، فإن FlashVTG يزيد مؤشر mAP بنسبة 125% عن أفضل الأداء السابق (SOTA). يتم تحقيق جميع هذه التحسينات دون إضافة أي عبء تدريبي إضافي، مما يؤكد فعاليتها. يمكن الوصول إلى كودنا عبر الرابط https://github.com/Zhuo-Cao/FlashVTG.

FlashVTG: شبكة تكديس الميزات وتعامل التكيفي مع النقاط للتوثيق الزمني للفيديو | أحدث الأوراق البحثية | HyperAI