HyperAIHyperAI

Command Palette

Search for a command to run...

R2R^2R2-تكييف: التعلم النقل الفعال من الصور إلى الفيديو لتحديد المكان الزمني في الفيديو

Ye Liu¹,³* Jixuan He²,† Wanhua Li³ Junsik Kim³ Donglai Wei³ Hanspeter Pfister³ Chang Wen Chen¹,‡

الملخص

الترقيم الزمني للفيديو (VTG) هو مشكلة فهم فيديو دقيق تهدف إلى تحديد المقاطع ذات الصلة في مقاطع الفيديو غير المقصوصة بناءً على استعلامات اللغة الطبيعية. معظم النماذج الحالية لـ VTG تُبنى على أساس ميزات CLIP الأخيرة لكل إطار، مع مساعدة من نواة زمنية إضافية (مثل SlowFast) تحتوي على آليات استدلال زمني معقدة. في هذا العمل، ندعي أن CLIP نفسها تظهر بالفعل إمكانات كبيرة لنمذجة المكان والزمان بدقة، حيث توفر كل طبقة معلومات مختلفة ومعتبرة بمستويات حبيبية مختلفة. مستوحين من هذا، نقترح التعلم العكسي المتكرر (R2R^2R2-Tuning)، وهو إطار نقل تعلم كفء من حيث المعلمات والذاكرة للترقيم الزمني للفيديو. يتعلم أسلوبنا كتلة R2R^2R2 خفيفة الوزن تحتوي فقط على 1.5% من إجمالي المعلمات لتنفيذ نمذجة مكان وزمان متقدمة بشكل تدريجي. بدءًا من الطبقة الأخيرة لـ CLIP، تقوم كتلة R2R^2R2 بتجميع الخصائص المكانية من الطبقات السابقة بشكل متكرر، ثم تعديل الارتباط الزمني بناءً على الاستعلام المعطى، مما يؤدي إلى مخطط من الغليظ إلى الدقيق. يحقق R2R^2R2-Tuning أفضل الأداء الحالي في ثلاث مهام لـ VTG (أي استرجاع اللحظة، اكتشاف النقاط البارزة، وإيجاز الفيديو) على ستة مقاييس عامة (أي QVHighlights، Charades-STA، Ego4D-NLQ، TACoS، YouTube Highlights، وTVSum) حتى بدون وجود النواة الإضافية، مما يدل على أهمية وفعالية المخطط المقترح. رمز البرمجيات الخاص بنا متاح على https://github.com/yeliudev/R2-Tuning.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
$R^2$-تكييف: التعلم النقل الفعال من الصور إلى الفيديو لتحديد المكان الزمني في الفيديو | مستندات | HyperAI