منذ 8 أشهر

الملخص

أظهرت نماذج اللغات الكبيرة للفيديو والنص (video-text LLMs) أداءً ملحوظًا في الإجابة على الأسئلة وإجراء المحادثات حول مقاطع الفيديو البسيطة. ومع ذلك، فإن أدائها يكاد يكون عشوائيًا في ترقيم النصوص في مقاطع الفيديو الطويلة والمعقدة، حيث تفتقر إلى القدرة على فهم وتحليل المعلومات الزمنية، وهي الفرق الأساسي بين الفيديوهات والصور. في هذا البحث، نقترح نظام "HawkEye"، وهو أحد أولى نماذج اللغات الكبيرة للفيديو والنص التي يمكنها تنفيذ ترقيم الفيديو الزمني بطريقة نصية كاملة. لجمع بيانات التدريب المناسبة لترقيم الفيديو الزمني، قمنا ببناء "InternVid-G"، وهو مكتبة بيانات كبيرة الحجم تحتوي على تعليقات على مستوى المقاطع وأقسام سلبية، والتي من خلالها قدمنا هدفين تدريبيين جديدين يراعيان الزمن لنماذج اللغات الكبيرة للفيديو والنص. كما اقترحنا طريقة تمثيل خشنة للمقاطع في الفيديوهات، وهي أكثر صلابة وأسهل بالنسبة لنماذج اللغات الكبيرة لتعلمها وتتبعها من البدائل الأخرى. أظهرت التجارب الواسعة أن "HawkEye" أفضل في ترقيم الفيديو الزمني وأنه مكافئ لأداء النماذج الأخرى الموجودة في المهام الأخرى المتعلقة بالفيديو والنص، مما يؤكد قدراته المتعددة الأوضاع المتفوقة في فهم الفيديو والنص.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HawkEye: تدريب نماذج اللغة المتعددة الوسائط على الفيديو والنص لربط النص بالفيديوهات

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HawkEye: تدريب نماذج اللغة المتعددة الوسائط على الفيديو والنص لربط النص بالفيديوهات

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

HawkEye: تدريب نماذج اللغة المتعددة الوسائط على الفيديو والنص لربط النص بالفيديوهات

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters