HyperAIHyperAI

Command Palette

Search for a command to run...

VTimeLLM: تمكين نماذج اللغة الكبيرة من فهم لحظات الفيديو

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

الملخص

أظهرت نماذج اللغات الكبيرة (LLMs) قدرات ملحوظة في فهم النص، والتي تم توسيعها إلى نماذج الفيديو اللغوية (Video LLMs) لمعالجة بيانات الفيديو وفهم التفاصيل البصرية. ومع ذلك، فإن النماذج الحالية للفيديو اللغوي يمكنها فقط تقديم وصف عام للفيديو بأكمله، مما يفشل في التقاط حدود الوقت الدقيقة لوقائع محددة. في هذا البحث، نحل هذه المشكلة من خلال اقتراح VTimeLLM، وهو نموذج فيديو لغوي جديد مصمم لفهم الأحداث الزمنية الدقيقة والمنطق المتعلق بحدود الوقت. بشكل خاص، يتبنى VTimeLLM استراتيجية تدريب ثلاثية المراحل واعية بالحدود، والتي تستفيد على التوالي من أزواج الصور-النصوص لتوفير التوافق بين الخصائص، ومن مقاطع الفيديو متعددة الأحداث لزيادة الوعي بالحدود الزمنية، ومن ضبط تعليمات الفيديو عالية الجودة لتحسين قدرة الفهم الزمني بالإضافة إلى التناسق مع نوايا الإنسان. تظهر التجارب الواسعة أن VTimeLLM يتفوق بشكل كبير على النماذج الحالية للفيديو اللغوي في مهمات الفهم الزمني الدقيق المتعلقة بالفيديوهات مثل تحديد الفيديو الزمني (Temporal Video Grounding) وتسمية الفيديو الكثيفة (Dense Video Captioning). بالإضافة إلى ذلك، فإن الاستفادة من فهم الحدود الزمنية الدقيقة للفيديوهات تمكن VTimeLLM من التفوق على النماذج الحالية للفيديو اللغوي في معيار حوار الفيديو، مما يدل على قدراته العالية في الفهم والمنطق عبر الأنظمة المتعددة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp