HyperAIHyperAI

Command Palette

Search for a command to run...

FlashVTG: شبكة تكديس الميزات وتعامل التكيفي مع النقاط للتوثيق الزمني للفيديو

Zhuo Cao extsuperscript1,* Bingqing Zhang extsuperscript1 Heming Du extsuperscript1 Xin Yu extsuperscript1 Xue Li extsuperscript1,† Sen Wang extsuperscript1

الملخص

تهدف تقنية توجيه الفيديو الزمني بالنص (VTG) إلى تحديد المقاطع ذات الصلة في مقاطع الفيديو غير المقصوصة بناءً على الوصف النصي، وتشمل هذه التقنية مهمتين فرعيتين: استرجاع اللحظات (MR) وكشف النقاط البارزة (HD). رغم أن الأساليب السابقة قد حققت نتائج جديرة بالتقدير، إلا أن استرجاع اللحظات القصيرة في الفيديو لا يزال يشكل تحديًا كبيرًا. هذا التحدي يعود بشكل رئيسي إلى الاعتماد على استعلامات مفككة ومحدودة من قبل المُفكِّك (decoder)، مما يحد بشكل كبير من دقة التوقعات. بالإضافة إلى ذلك، غالبًا ما تكون النتائج غير المثلى بسبب ترتيب التوقعات بناءً على توقعات معزولة، مع إغفال السياق الأوسع للفيديو. لمعالجة هذه المشكلات، نقدم إطار عمل FlashVTG الذي يتميز بوجود وحدة طبقات الخصائص الزمنية (TFL) ووحدة تحسين التقييم التكيفي (ASR). تعمل وحدة TFL على استبدال الهيكل التقليدي للمُفكِّك لالتقاط التغيرات الدقيقة في محتوى الفيديو عبر عدة مقاييس زمنية، بينما تحسن وحدة ASR تصنيف التوقعات من خلال دمج السياق من اللحظات المجاورة والخصائص متعددة المقاييس الزمنية. أظهرت التجارب الواسعة أن FlashVTG يحقق أداءً عالميًا رائدًا على أربع قواعد بيانات شائعة الاستخدام في كل من MR و HD. وبشكل خاص، على قاعدة البيانات QVHighlights، فإنها تعزز مؤشر mAP بنسبة 5.8% لـ MR و3.3% لـ HD. بالنسبة لاسترجاع اللحظات القصيرة، فإن FlashVTG يزيد مؤشر mAP بنسبة 125% عن أفضل الأداء السابق (SOTA). يتم تحقيق جميع هذه التحسينات دون إضافة أي عبء تدريبي إضافي، مما يؤكد فعاليتها. يمكن الوصول إلى كودنا عبر الرابط https://github.com/Zhuo-Cao/FlashVTG.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp