منذ 8 أشهر

الملخص

حققت نماذج اللغات الكبيرة المرئية (Vid-LLMs) تقدمًا ملحوظًا في فهم محتوى الفيديو لحوار الأسئلة والأجوبة (QA). ومع ذلك، فإنها تواجه صعوبات في توسيع هذا الفهم البصري إلى المهام التي تتطلب تحديد موقع زمني دقيق، المعروفة باسم التأطير الزمني للفيديو (VTG). لسد هذه الثغرة، نقدم طريقة جديدة تُسمى Number-Prompt (NumPro)، والتي تمكّن Vid-LLMs من ربط الفهم البصري بالتأطير الزمني بإضافة معرفات عددية فريدة لكل إطار فيديو. من خلال معاملة الفيديو كسلسلة من الصور الإطارية المرقمة، تقوم NumPro بتحويل VTG إلى عملية بديهية: تصفح لوحات المانغا بشكل متتابع. هذا يسمح لـ Vid-LLMs بـ "قراءة" خطوط الأحداث، وربط المحتوى البصري بدقة بالمعلومات الزمنية المقابلة. أظهرت تجاربنا أن NumPro يعزز بشكل كبير أداء VTG لنماذج Vid-LLMs الرائدة دون أي تكلفة حسابية إضافية. علاوة على ذلك، فإن التعديل الدقيق على مجموعة بيانات محسنة بواسطة NumPro يحدد مستوى جديد من التقنية الرائدة في VTG، حيث يتفوق على الطرق السابقة الأفضل بأكثر من 6.9% في mIoU لاسترجاع اللحظات وأكثر من 8.5% في mAP لاكتشاف النقاط البارزة. سيتم توفير الكود في https://github.com/yongliang-wu/NumPro.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار