HyperAIHyperAI

Command Palette

Search for a command to run...

HawkEye: تدريب نماذج اللغة المتعددة الوسائط على الفيديو والنص لربط النص بالفيديوهات

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

الملخص

أظهرت نماذج اللغات الكبيرة للفيديو والنص (video-text LLMs) أداءً ملحوظًا في الإجابة على الأسئلة وإجراء المحادثات حول مقاطع الفيديو البسيطة. ومع ذلك، فإن أدائها يكاد يكون عشوائيًا في ترقيم النصوص في مقاطع الفيديو الطويلة والمعقدة، حيث تفتقر إلى القدرة على فهم وتحليل المعلومات الزمنية، وهي الفرق الأساسي بين الفيديوهات والصور. في هذا البحث، نقترح نظام "HawkEye"، وهو أحد أولى نماذج اللغات الكبيرة للفيديو والنص التي يمكنها تنفيذ ترقيم الفيديو الزمني بطريقة نصية كاملة. لجمع بيانات التدريب المناسبة لترقيم الفيديو الزمني، قمنا ببناء "InternVid-G"، وهو مكتبة بيانات كبيرة الحجم تحتوي على تعليقات على مستوى المقاطع وأقسام سلبية، والتي من خلالها قدمنا هدفين تدريبيين جديدين يراعيان الزمن لنماذج اللغات الكبيرة للفيديو والنص. كما اقترحنا طريقة تمثيل خشنة للمقاطع في الفيديوهات، وهي أكثر صلابة وأسهل بالنسبة لنماذج اللغات الكبيرة لتعلمها وتتبعها من البدائل الأخرى. أظهرت التجارب الواسعة أن "HawkEye" أفضل في ترقيم الفيديو الزمني وأنه مكافئ لأداء النماذج الأخرى الموجودة في المهام الأخرى المتعلقة بالفيديو والنص، مما يؤكد قدراته المتعددة الأوضاع المتفوقة في فهم الفيديو والنص.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp