استخلاص زمني فعّال للنماذج الكبيرة للغة متعددة الوسائط باستخدام جسر التثبيت الزمني

على الرغم من التقدم المحرز في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، تظل التحديات المتعلقة بفهم مقاطع الفيديو الطويلة استجابةً لاستفسارات لغوية قائمة، وذلك بشكل رئيسي بسبب عدم الكفاءة في تحديد الزمن (temporal grounding) وحجم النافذة السياقية المُدرّبة مسبقًا المحدود. في هذا العمل، نقدّم إطار عمل جديد يُسمى جسر التموضع الزمني (Temporal Grounding Bridge - TGB)، الذي يُعزز نماذج MLLMs بقدرات متقدمة في التموضع الزمني ويدّر سياقها بشكل أوسع. يُحسّن إطارنا بشكل كبير القدرات الزمنية للنماذج الحالية من خلال ثلاث ابتكارات رئيسية: خوارزمية فعّالة لتحديد فترات زمنية متعددة (multi-span temporal grounding) تُطبّق على ميزات زمنية منخفضة الأبعاد مستخرجة من التدفقات (flow)؛ ونمط تدريب استخلاص طول متعدد الوسائط (multimodal length extrapolation training paradigm) يستخدم الميزات الزمنية منخفضة الأبعاد لتوسيع حجم النافذة السياقية أثناء التدريب؛ ونموذج تمهيدي (bootstrapping framework) يربط نموذجنا بنماذج MLLMs قابلة للتركيب (pluggable MLLMs) دون الحاجة إلى تسمية بيانات. وقد قمنا بتوثيق أداء TGB عبر سبعة معايير (benchmarks) لمقاطع الفيديو، وأظهرت النتائج تحسينات كبيرة مقارنة بالنماذج السابقة. وبشكل ملحوظ، فإن نموذجنا، الذي تم تدريبه أولًا على تسلسلات من أربع إطارات، يُظهر قدرة فعّالة على التعامل مع تسلسلات تصل إلى 16 إطارًا دون التضحية بالأداء، مما يبرز قابليته للتوسع وفعاليته في التطبيقات الواقعية. يُتاح الكود الخاص بنا للعامة عبر الرابط التالي: https://github.com/bigai-nlco/VideoTGB