الاستجابة للأسئلة حول الفيديو بدون تدريب مسبق باستخدام برامج إجرائية

نقترح الإجابة على أسئلة غير مسبقة حول الفيديوهات من خلال إنشاء برامج إجرائية قصيرة تُستنتج الإجابة النهائية من حل سلسلة من المهام البصرية الفرعية. نقدم نموذج "الاستفسار الإجرائي للفيديو" (Procedural Video Querying - ProViQ)، الذي يستخدم نموذج لغة كبير لإنشاء هذه البرامج من سؤال دخل وواجهة برمجة تطبيقات (API) لمكونات بصرية مُضمنة في النص المُدخل، ثم يُنفّذ هذه البرامج للحصول على الناتج. وقد أثبتت النماذج الإجرائية المشابهة الحديثة نجاحها في إجابة الأسئلة المتعلقة بالصور، لكن الفيديوهات تبقى تحديًا كبيرًا: حيث نزود ProViQ بمكونات مصممة خصيصًا لفهم الفيديو، مما يمكّنه من التعميم على طيف واسع من الفيديوهات. يتيح هذا الإطار القائم على توليد الكود أيضًا لـ ProViQ أداء مهام فيديو أخرى بجانب إجابة الأسئلة، مثل تتبع كائنات متعددة أو تحرير فيديو أساسي. حقق ProViQ أداءً متميزًا على مجموعة متنوعة من المعايير، مع تحسينات تصل إلى 25% في مجموعات بيانات أسئلة الفيديو القصيرة والطويلة، المفتوحة والمتعددة الوسائط. يمكن زيارة صفحة المشروع عبر الرابط: https://rccchoudhury.github.io/proviq2023.