HyperAIHyperAI

Command Palette

Search for a command to run...

استخلاص زمني فعّال للنماذج الكبيرة للغة متعددة الوسائط باستخدام جسر التثبيت الزمني

Yuxuan Wang Yueqian Wang Pengfei Wu Jianxin Liang Dongyan Zhao Yang Liu Zilong Zheng

الملخص

على الرغم من التقدم المحرز في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، تظل التحديات المتعلقة بفهم مقاطع الفيديو الطويلة استجابةً لاستفسارات لغوية قائمة، وذلك بشكل رئيسي بسبب عدم الكفاءة في تحديد الزمن (temporal grounding) وحجم النافذة السياقية المُدرّبة مسبقًا المحدود. في هذا العمل، نقدّم إطار عمل جديد يُسمى جسر التموضع الزمني (Temporal Grounding Bridge - TGB)، الذي يُعزز نماذج MLLMs بقدرات متقدمة في التموضع الزمني ويدّر سياقها بشكل أوسع. يُحسّن إطارنا بشكل كبير القدرات الزمنية للنماذج الحالية من خلال ثلاث ابتكارات رئيسية: خوارزمية فعّالة لتحديد فترات زمنية متعددة (multi-span temporal grounding) تُطبّق على ميزات زمنية منخفضة الأبعاد مستخرجة من التدفقات (flow)؛ ونمط تدريب استخلاص طول متعدد الوسائط (multimodal length extrapolation training paradigm) يستخدم الميزات الزمنية منخفضة الأبعاد لتوسيع حجم النافذة السياقية أثناء التدريب؛ ونموذج تمهيدي (bootstrapping framework) يربط نموذجنا بنماذج MLLMs قابلة للتركيب (pluggable MLLMs) دون الحاجة إلى تسمية بيانات. وقد قمنا بتوثيق أداء TGB عبر سبعة معايير (benchmarks) لمقاطع الفيديو، وأظهرت النتائج تحسينات كبيرة مقارنة بالنماذج السابقة. وبشكل ملحوظ، فإن نموذجنا، الذي تم تدريبه أولًا على تسلسلات من أربع إطارات، يُظهر قدرة فعّالة على التعامل مع تسلسلات تصل إلى 16 إطارًا دون التضحية بالأداء، مما يبرز قابليته للتوسع وفعاليته في التطبيقات الواقعية. يُتاح الكود الخاص بنا للعامة عبر الرابط التالي: https://github.com/bigai-nlco/VideoTGB


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استخلاص زمني فعّال للنماذج الكبيرة للغة متعددة الوسائط باستخدام جسر التثبيت الزمني | مستندات | HyperAI