HyperAIHyperAI
منذ 2 أشهر

VTimeLLM: تمكين نماذج اللغة الكبيرة من فهم لحظات الفيديو

Bin Huang; Xin Wang; Hong Chen; Zihan Song; Wenwu Zhu
VTimeLLM: تمكين نماذج اللغة الكبيرة من فهم لحظات الفيديو
الملخص

أظهرت نماذج اللغات الكبيرة (LLMs) قدرات ملحوظة في فهم النص، والتي تم توسيعها إلى نماذج الفيديو اللغوية (Video LLMs) لمعالجة بيانات الفيديو وفهم التفاصيل البصرية. ومع ذلك، فإن النماذج الحالية للفيديو اللغوي يمكنها فقط تقديم وصف عام للفيديو بأكمله، مما يفشل في التقاط حدود الوقت الدقيقة لوقائع محددة. في هذا البحث، نحل هذه المشكلة من خلال اقتراح VTimeLLM، وهو نموذج فيديو لغوي جديد مصمم لفهم الأحداث الزمنية الدقيقة والمنطق المتعلق بحدود الوقت. بشكل خاص، يتبنى VTimeLLM استراتيجية تدريب ثلاثية المراحل واعية بالحدود، والتي تستفيد على التوالي من أزواج الصور-النصوص لتوفير التوافق بين الخصائص، ومن مقاطع الفيديو متعددة الأحداث لزيادة الوعي بالحدود الزمنية، ومن ضبط تعليمات الفيديو عالية الجودة لتحسين قدرة الفهم الزمني بالإضافة إلى التناسق مع نوايا الإنسان. تظهر التجارب الواسعة أن VTimeLLM يتفوق بشكل كبير على النماذج الحالية للفيديو اللغوي في مهمات الفهم الزمني الدقيق المتعلقة بالفيديوهات مثل تحديد الفيديو الزمني (Temporal Video Grounding) وتسمية الفيديو الكثيفة (Dense Video Captioning). بالإضافة إلى ذلك، فإن الاستفادة من فهم الحدود الزمنية الدقيقة للفيديوهات تمكن VTimeLLM من التفوق على النماذج الحالية للفيديو اللغوي في معيار حوار الفيديو، مما يدل على قدراته العالية في الفهم والمنطق عبر الأنظمة المتعددة.

VTimeLLM: تمكين نماذج اللغة الكبيرة من فهم لحظات الفيديو | أحدث الأوراق البحثية | HyperAI