HyperAIHyperAI

Command Palette

Search for a command to run...

VTG-GPT: توجيه زمني صفر للفيديو بدون ضبط مع GPT

Yifang Xu Yunzhuo Sun Zien Xie Benxiang Zhai Sidan Du

الملخص

يهدف تأريخ الفيديو الزمني (VTG) إلى تحديد المقاطع الزمنية المحددة من فيديو غير مقصوص بناءً على استعلام لغوي. ومع ذلك، فإن معظم النماذج الحالية لـ VTG يتم تدريبها على أزواج فيديو-نص مُشَرَّحة بشكل واسع، وهو عملية لا تقتصر فقط على إدخال التحيزات البشرية من الاستعلامات، بل تتسبب أيضًا في زيادة التكاليف الحسابية بشكل كبير. للتعامل مع هذه التحديات، نقترح VTG-GPT، وهي طريقة تعتمد على GPT لأداء VTG بدون تدريب أو تعديل دقيق. لتخفيض التحيز في الاستعلام الأصلي، نستخدم Baichuan2 لإنشاء استعلامات خالية من التحيز. وللتقليل من المعلومات الزائدة في الفيديوهات، نطبق MiniGPT-v2 لتحويل المحتوى البصري إلى عناوين أكثر دقة. وأخيرًا، نصمم جهاز إنشاء الاقتراحات والمعالجة ما بعد الإنتاج لإنتاج مقاطع زمنية دقيقة من الاستعلامات الخالية من التحيز والعناوين الصورية. تظهر التجارب الواسعة أن VTG-GPT تتفوق بشكل كبير على أفضل الأساليب الحالية (SOTA) في الإعدادات بدون تدريب وتتجاوز الأساليب غير المراقبة. وبشكل أكثر إثارة للانتباه، فإنها تحقق أداءً تنافسيًا يعادل الأساليب المراقبة. يمكن الوصول إلى الكود عبر الرابط: https://github.com/YoucanBaby/VTG-GPT


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp