HyperAIHyperAI
منذ 2 أشهر

رقمها: فيديوهات التأصيل الزمني مثل قلب المانغا

Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang
رقمها: فيديوهات التأصيل الزمني مثل قلب المانغا
الملخص

حققت نماذج اللغات الكبيرة المرئية (Vid-LLMs) تقدمًا ملحوظًا في فهم محتوى الفيديو لحوار الأسئلة والأجوبة (QA). ومع ذلك، فإنها تواجه صعوبات في توسيع هذا الفهم البصري إلى المهام التي تتطلب تحديد موقع زمني دقيق، المعروفة باسم التأطير الزمني للفيديو (VTG). لسد هذه الثغرة، نقدم طريقة جديدة تُسمى Number-Prompt (NumPro)، والتي تمكّن Vid-LLMs من ربط الفهم البصري بالتأطير الزمني بإضافة معرفات عددية فريدة لكل إطار فيديو. من خلال معاملة الفيديو كسلسلة من الصور الإطارية المرقمة، تقوم NumPro بتحويل VTG إلى عملية بديهية: تصفح لوحات المانغا بشكل متتابع. هذا يسمح لـ Vid-LLMs بـ "قراءة" خطوط الأحداث، وربط المحتوى البصري بدقة بالمعلومات الزمنية المقابلة. أظهرت تجاربنا أن NumPro يعزز بشكل كبير أداء VTG لنماذج Vid-LLMs الرائدة دون أي تكلفة حسابية إضافية. علاوة على ذلك، فإن التعديل الدقيق على مجموعة بيانات محسنة بواسطة NumPro يحدد مستوى جديد من التقنية الرائدة في VTG، حيث يتفوق على الطرق السابقة الأفضل بأكثر من 6.9% في mIoU لاسترجاع اللحظات وأكثر من 8.5% في mAP لاكتشاف النقاط البارزة. سيتم توفير الكود في https://github.com/yongliang-wu/NumPro.

رقمها: فيديوهات التأصيل الزمني مثل قلب المانغا | أحدث الأوراق البحثية | HyperAI