منذ 8 أشهر

الملخص

أظهرت نماذج اللغات الكبيرة (LLMs) قدرات ملحوظة في فهم النص، والتي تم توسيعها إلى نماذج الفيديو اللغوية (Video LLMs) لمعالجة بيانات الفيديو وفهم التفاصيل البصرية. ومع ذلك، فإن النماذج الحالية للفيديو اللغوي يمكنها فقط تقديم وصف عام للفيديو بأكمله، مما يفشل في التقاط حدود الوقت الدقيقة لوقائع محددة. في هذا البحث، نحل هذه المشكلة من خلال اقتراح VTimeLLM، وهو نموذج فيديو لغوي جديد مصمم لفهم الأحداث الزمنية الدقيقة والمنطق المتعلق بحدود الوقت. بشكل خاص، يتبنى VTimeLLM استراتيجية تدريب ثلاثية المراحل واعية بالحدود، والتي تستفيد على التوالي من أزواج الصور-النصوص لتوفير التوافق بين الخصائص، ومن مقاطع الفيديو متعددة الأحداث لزيادة الوعي بالحدود الزمنية، ومن ضبط تعليمات الفيديو عالية الجودة لتحسين قدرة الفهم الزمني بالإضافة إلى التناسق مع نوايا الإنسان. تظهر التجارب الواسعة أن VTimeLLM يتفوق بشكل كبير على النماذج الحالية للفيديو اللغوي في مهمات الفهم الزمني الدقيق المتعلقة بالفيديوهات مثل تحديد الفيديو الزمني (Temporal Video Grounding) وتسمية الفيديو الكثيفة (Dense Video Captioning). بالإضافة إلى ذلك، فإن الاستفادة من فهم الحدود الزمنية الدقيقة للفيديوهات تمكن VTimeLLM من التفوق على النماذج الحالية للفيديو اللغوي في معيار حوار الفيديو، مما يدل على قدراته العالية في الفهم والمنطق عبر الأنظمة المتعددة.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VTimeLLM: تمكين نماذج اللغة الكبيرة من فهم لحظات الفيديو

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VTimeLLM: تمكين نماذج اللغة الكبيرة من فهم لحظات الفيديو

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

VTimeLLM: تمكين نماذج اللغة الكبيرة من فهم لحظات الفيديو

Bin Huang Xin Wang* Hong Chen Zihan Song Wenwu Zhu*

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters