منذ 6 أشهر

الملخص

نقترح الإجابة على أسئلة غير مسبقة حول الفيديوهات من خلال إنشاء برامج إجرائية قصيرة تُستنتج الإجابة النهائية من حل سلسلة من المهام البصرية الفرعية. نقدم نموذج "الاستفسار الإجرائي للفيديو" (Procedural Video Querying - ProViQ)، الذي يستخدم نموذج لغة كبير لإنشاء هذه البرامج من سؤال دخل وواجهة برمجة تطبيقات (API) لمكونات بصرية مُضمنة في النص المُدخل، ثم يُنفّذ هذه البرامج للحصول على الناتج. وقد أثبتت النماذج الإجرائية المشابهة الحديثة نجاحها في إجابة الأسئلة المتعلقة بالصور، لكن الفيديوهات تبقى تحديًا كبيرًا: حيث نزود ProViQ بمكونات مصممة خصيصًا لفهم الفيديو، مما يمكّنه من التعميم على طيف واسع من الفيديوهات. يتيح هذا الإطار القائم على توليد الكود أيضًا لـ ProViQ أداء مهام فيديو أخرى بجانب إجابة الأسئلة، مثل تتبع كائنات متعددة أو تحرير فيديو أساسي. حقق ProViQ أداءً متميزًا على مجموعة متنوعة من المعايير، مع تحسينات تصل إلى 25% في مجموعات بيانات أسئلة الفيديو القصيرة والطويلة، المفتوحة والمتعددة الوسائط. يمكن زيارة صفحة المشروع عبر الرابط: https://rccchoudhury.github.io/proviq2023.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار