منذ 6 أشهر

الملخص

على الرغم من التقدم المحرز في نماذج اللغة الكبيرة متعددة الوسائط (MLLMs)، تظل التحديات المتعلقة بفهم مقاطع الفيديو الطويلة استجابةً لاستفسارات لغوية قائمة، وذلك بشكل رئيسي بسبب عدم الكفاءة في تحديد الزمن (temporal grounding) وحجم النافذة السياقية المُدرّبة مسبقًا المحدود. في هذا العمل، نقدّم إطار عمل جديد يُسمى جسر التموضع الزمني (Temporal Grounding Bridge - TGB)، الذي يُعزز نماذج MLLMs بقدرات متقدمة في التموضع الزمني ويدّر سياقها بشكل أوسع. يُحسّن إطارنا بشكل كبير القدرات الزمنية للنماذج الحالية من خلال ثلاث ابتكارات رئيسية: خوارزمية فعّالة لتحديد فترات زمنية متعددة (multi-span temporal grounding) تُطبّق على ميزات زمنية منخفضة الأبعاد مستخرجة من التدفقات (flow)؛ ونمط تدريب استخلاص طول متعدد الوسائط (multimodal length extrapolation training paradigm) يستخدم الميزات الزمنية منخفضة الأبعاد لتوسيع حجم النافذة السياقية أثناء التدريب؛ ونموذج تمهيدي (bootstrapping framework) يربط نموذجنا بنماذج MLLMs قابلة للتركيب (pluggable MLLMs) دون الحاجة إلى تسمية بيانات. وقد قمنا بتوثيق أداء TGB عبر سبعة معايير (benchmarks) لمقاطع الفيديو، وأظهرت النتائج تحسينات كبيرة مقارنة بالنماذج السابقة. وبشكل ملحوظ، فإن نموذجنا، الذي تم تدريبه أولًا على تسلسلات من أربع إطارات، يُظهر قدرة فعّالة على التعامل مع تسلسلات تصل إلى 16 إطارًا دون التضحية بالأداء، مما يبرز قابليته للتوسع وفعاليته في التطبيقات الواقعية. يُتاح الكود الخاص بنا للعامة عبر الرابط التالي: https://github.com/bigai-nlco/VideoTGB

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yuxuan Wang Yueqian Wang Pengfei Wu Jianxin Liang Dongyan Zhao Yang Liu Zilong Zheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yuxuan Wang Yueqian Wang Pengfei Wu Jianxin Liang Dongyan Zhao Yang Liu Zilong Zheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yuxuan Wang Yueqian Wang Pengfei Wu Jianxin Liang Dongyan Zhao Yang Liu Zilong Zheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استخلاص زمني فعّال للنماذج الكبيرة للغة متعددة الوسائط باستخدام جسر التثبيت الزمني

Yuxuan Wang Yueqian Wang Pengfei Wu Jianxin Liang Dongyan Zhao Yang Liu Zilong Zheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استخلاص زمني فعّال للنماذج الكبيرة للغة متعددة الوسائط باستخدام جسر التثبيت الزمني

Yuxuan Wang Yueqian Wang Pengfei Wu Jianxin Liang Dongyan Zhao Yang Liu Zilong Zheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

استخلاص زمني فعّال للنماذج الكبيرة للغة متعددة الوسائط باستخدام جسر التثبيت الزمني

Yuxuan Wang Yueqian Wang Pengfei Wu Jianxin Liang Dongyan Zhao Yang Liu Zilong Zheng

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters