HyperAIHyperAI
منذ 2 أشهر

HawkEye: تدريب نماذج اللغة المتعددة الوسائط على الفيديو والنص لربط النص بالفيديوهات

Yueqian Wang; Xiaojun Meng; Jianxin Liang; Yuxuan Wang; Qun Liu; Dongyan Zhao
HawkEye: تدريب نماذج اللغة المتعددة الوسائط على الفيديو والنص لربط النص بالفيديوهات
الملخص

أظهرت نماذج اللغات الكبيرة للفيديو والنص (video-text LLMs) أداءً ملحوظًا في الإجابة على الأسئلة وإجراء المحادثات حول مقاطع الفيديو البسيطة. ومع ذلك، فإن أدائها يكاد يكون عشوائيًا في ترقيم النصوص في مقاطع الفيديو الطويلة والمعقدة، حيث تفتقر إلى القدرة على فهم وتحليل المعلومات الزمنية، وهي الفرق الأساسي بين الفيديوهات والصور. في هذا البحث، نقترح نظام "HawkEye"، وهو أحد أولى نماذج اللغات الكبيرة للفيديو والنص التي يمكنها تنفيذ ترقيم الفيديو الزمني بطريقة نصية كاملة. لجمع بيانات التدريب المناسبة لترقيم الفيديو الزمني، قمنا ببناء "InternVid-G"، وهو مكتبة بيانات كبيرة الحجم تحتوي على تعليقات على مستوى المقاطع وأقسام سلبية، والتي من خلالها قدمنا هدفين تدريبيين جديدين يراعيان الزمن لنماذج اللغات الكبيرة للفيديو والنص. كما اقترحنا طريقة تمثيل خشنة للمقاطع في الفيديوهات، وهي أكثر صلابة وأسهل بالنسبة لنماذج اللغات الكبيرة لتعلمها وتتبعها من البدائل الأخرى. أظهرت التجارب الواسعة أن "HawkEye" أفضل في ترقيم الفيديو الزمني وأنه مكافئ لأداء النماذج الأخرى الموجودة في المهام الأخرى المتعلقة بالفيديو والنص، مما يؤكد قدراته المتعددة الأوضاع المتفوقة في فهم الفيديو والنص.

HawkEye: تدريب نماذج اللغة المتعددة الوسائط على الفيديو والنص لربط النص بالفيديوهات | أحدث الأوراق البحثية | HyperAI