VTG-GPT: توجيه زمني صفر للفيديو بدون ضبط مع GPT

يهدف تأريخ الفيديو الزمني (VTG) إلى تحديد المقاطع الزمنية المحددة من فيديو غير مقصوص بناءً على استعلام لغوي. ومع ذلك، فإن معظم النماذج الحالية لـ VTG يتم تدريبها على أزواج فيديو-نص مُشَرَّحة بشكل واسع، وهو عملية لا تقتصر فقط على إدخال التحيزات البشرية من الاستعلامات، بل تتسبب أيضًا في زيادة التكاليف الحسابية بشكل كبير. للتعامل مع هذه التحديات، نقترح VTG-GPT، وهي طريقة تعتمد على GPT لأداء VTG بدون تدريب أو تعديل دقيق. لتخفيض التحيز في الاستعلام الأصلي، نستخدم Baichuan2 لإنشاء استعلامات خالية من التحيز. وللتقليل من المعلومات الزائدة في الفيديوهات، نطبق MiniGPT-v2 لتحويل المحتوى البصري إلى عناوين أكثر دقة. وأخيرًا، نصمم جهاز إنشاء الاقتراحات والمعالجة ما بعد الإنتاج لإنتاج مقاطع زمنية دقيقة من الاستعلامات الخالية من التحيز والعناوين الصورية. تظهر التجارب الواسعة أن VTG-GPT تتفوق بشكل كبير على أفضل الأساليب الحالية (SOTA) في الإعدادات بدون تدريب وتتجاوز الأساليب غير المراقبة. وبشكل أكثر إثارة للانتباه، فإنها تحقق أداءً تنافسيًا يعادل الأساليب المراقبة. يمكن الوصول إلى الكود عبر الرابط: https://github.com/YoucanBaby/VTG-GPT