HyperAIHyperAI

Command Palette

Search for a command to run...

UniVTG: نحو توحيد التحديد الزمني للفيديو واللغة

Kevin Qinghong Lin Pengchuan Zhang Joya Chen Shraman Pramanick Difei Gao Alex Jinpeng Wang Rui Yan Mike Zheng Shou

الملخص

تثبيت الفيديو الزمني (VTG)، الذي يهدف إلى تحديد المقاطع المستهدفة من الفيديوهات (مثل الفواصل المتتابعة أو اللقطات المنفصلة) وفقًا لاستعلامات اللغة المخصصة (مثل الجمل أو الكلمات)، يعتبر مهمًا جدًا للمتصفحين على وسائل التواصل الاجتماعي. معظم الطرق في هذا المجال تطور نماذج محددة للمهمة يتم تدريبها باستخدام علامات محددة للنوع، مثل استرجاع اللحظة (الفترة الزمنية) وكشف النقاط البارزة (منحنى الأهمية)، مما يحد من قدرتها على التعميم لأداء مهام VTG المختلفة والعلامات. في هذه الورقة البحثية، نقترح توحيد العلامات والمهمات المتنوعة لـ VTG، والتي أطلقنا عليها اسم UniVTG، في ثلاثة اتجاهات: أولاً، نعيد النظر في نطاق واسع من علامات VTG والمهمات ونحدد صيغة موحدة. بناءً على هذا، نطور خطط تصنيف البيانات لإنشاء إشراف زائف قابل للتوسع. ثانيًا، نطور نموذج تحديد فعال ومرن قادر على التعامل مع كل مهمة والاستفادة الكاملة من كل علامة. ثالثًا، بفضل الإطار الموحد، نتمكن من فتح التعلم الأولي للتحديد الزمني من العلامات المتنوعة ذات الحجم الكبير وتطوير قدرات تحديد أقوى مثل التحديد بدون تصوير (zero-shot grounding). تجارب واسعة النطاق على ثلاث مهمات (استرجاع اللحظة وكشف النقاط البارزة وتلخيص الفيديو) عبر سبعة مجموعات بيانات (QVHighlights وCharades-STA وTACoS وEgo4D وYouTube Highlights وTVSum وQFVS) تثبت فعالية وإمكانية التكيف ل إطار العمل المقترح. الرموز متاحة على https://github.com/showlab/UniVTG.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp