ReVisionLLM: نموذج لغة الرؤية المتكرر للترابط الزمني في مقاطع الفيديو الطويلة مدتها ساعة

النماذج اللغوية الكبيرة (LLMs) تتفوق في استرجاع المعلومات من النصوص الطويلة، ولكن نظيراتها الرؤية-اللغوية (VLMs) تواجه صعوبات مع مقاطع الفيديو التي تستغرق ساعة، خاصة فيما يتعلق بالتضمين الزمني. بوجه خاص، فإن هذه النماذج الرؤية-اللغوية محدودة بقيود الإطارات، مما يؤدي غالباً إلى فقدان التفاصيل الزمنية الأساسية المطلوبة لتحديد مواقع الأحداث بدقة في محتوى الفيديو الممتد. نقترح نموذج ReVisionLLM، وهو نموذج رؤية-لغوي متكرر مصمم لتحديد مواقع الأحداث في مقاطع الفيديو التي تستغرق ساعة. مستوحى من استراتيجيات البحث البشرية، يركز نموذجنا في البداية على أقسام واسعة ذات اهتمام، ثم يعدل تركيزه تدريجياً للوصول إلى الحدود الزمنية الدقيقة. يمكن لنموذجنا التعامل بسلاسة مع مقاطع الفيديو ذات الأطوال المختلفة بشكل كبير، من دقائق إلى ساعات. كما نقدم استراتيجية تدريب هرمية تبدأ بالمقاطع القصيرة لالتقاط الأحداث المميزة وتتوسع تدريجياً نحو مقاطع الفيديو الأطول. حسب علم us، يعد ReVisionLLM أول نموذج VLM قادر على التضمين الزمني في مقاطع الفيديو التي تستغرق ساعة، حيث يتفوق على الأساليب السابقة الأكثر تقدماً بمargins كبيرة (+2.6% [email protected] على MAD). يمكن الوصول إلى الشيفرة البرمجية عبر الرابط https://github.com/Tanveer81/ReVisionLLM.请注意,"us" 和 "margins" 在阿拉伯语中通常会进行适当的本地化处理,因此在最终版本中可能会被替换为更合适的词语。以下是优化后的版本:حسب علم الباحثين، يعد ReVisionLLM أول نموذج VLM قادر على التضمين الزمني في مقاطع الفيديو التي تستغرق ساعة، حيث يتفوق على الأساليب السابقة الأكثر تقدماً بهامش كبير (+2.6% [email protected] على MAD). يمكن الوصول إلى الشيفرة البرمجية عبر الرابط https://github.com/Tanveer81/ReVisionLLM.