HyperAIHyperAI

Command Palette

Search for a command to run...

رقمها: فيديوهات التأصيل الزمني مثل قلب المانغا

Yongliang Wu Xinting Hu Yuyang Sun Yizhou Zhou Wenbo Zhu Fengyun Rao Bernt Schiele Xu Yang

الملخص

حققت نماذج اللغات الكبيرة المرئية (Vid-LLMs) تقدمًا ملحوظًا في فهم محتوى الفيديو لحوار الأسئلة والأجوبة (QA). ومع ذلك، فإنها تواجه صعوبات في توسيع هذا الفهم البصري إلى المهام التي تتطلب تحديد موقع زمني دقيق، المعروفة باسم التأطير الزمني للفيديو (VTG). لسد هذه الثغرة، نقدم طريقة جديدة تُسمى Number-Prompt (NumPro)، والتي تمكّن Vid-LLMs من ربط الفهم البصري بالتأطير الزمني بإضافة معرفات عددية فريدة لكل إطار فيديو. من خلال معاملة الفيديو كسلسلة من الصور الإطارية المرقمة، تقوم NumPro بتحويل VTG إلى عملية بديهية: تصفح لوحات المانغا بشكل متتابع. هذا يسمح لـ Vid-LLMs بـ "قراءة" خطوط الأحداث، وربط المحتوى البصري بدقة بالمعلومات الزمنية المقابلة. أظهرت تجاربنا أن NumPro يعزز بشكل كبير أداء VTG لنماذج Vid-LLMs الرائدة دون أي تكلفة حسابية إضافية. علاوة على ذلك، فإن التعديل الدقيق على مجموعة بيانات محسنة بواسطة NumPro يحدد مستوى جديد من التقنية الرائدة في VTG، حيث يتفوق على الطرق السابقة الأفضل بأكثر من 6.9% في mIoU لاسترجاع اللحظات وأكثر من 8.5% في mAP لاكتشاف النقاط البارزة. سيتم توفير الكود في https://github.com/yongliang-wu/NumPro.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp