منذ 8 أشهر

الملخص

حققت التدريبات الكبيرة للنماذج اللغوية-الفيديو تقدمًا ملحوظًا في مهام فهم اللغة والفيديو. ومع ذلك، لا يزال العبء الحاسوبي الثقيل لترميز الفيديو يشكل عقبة كفاءة صعبة، خاصة بالنسبة للفيديوهات الطويلة. تحتوي هذه الفيديوهات على عدد كبير من الرموز البصرية بسبب خصائصها ثلاثية الأبعاد والازدواجية المكانية-الزمانية، مما يجعل من الصعب التقاط العلاقات الزمنية والمكانيّة المعقدة. لمعالجة هذه المشكلة، نقترح طريقة فعالة تُسمى تجميع الرموز الزمنيّة-المكانيّة (TESTA). تقوم TESTA بتقليص معاني الفيديو من خلال دمج الإطارات المتشابهة بشكل تكيفي، وكذلك الدمج التكيفي للأجزاء المتشابهة داخل كل إطار. يمكن لـ TESTA أن تقلل من عدد الرموز البصرية بنسبة 75٪ وبالتالي تسريع ترميز الفيديو. بناءً على TESTA، نقدم نموذجًا مسبق التدريب للغة-الفيديو مجهزًا بوحدة تجميع رموز مقسّمة زمنيًا ومكانيًا في كل كتلة من كتل مشفر الفيديو. قمنا بتقييم نموذجنا على خمسة مجموعات بيانات لمهمتي استرجاع الفقرات إلى الفيديو وأسئلة الفيديو الطويلة. أظهرت النتائج التجريبية أن TESTA تحسن الكفاءة الحاسوبية بمقدار 1.7 مرة، وتحقق زيادة كبيرة في الأداء بفضل قابلية توسيعها في معالجة الإطارات المدخلة الأطول، مثل +13.7 R@1 على QuerYD و+6.5 R@1 على Condensed Movie.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TESTA: تجميع الرموز الزمنية-المكانية لفهم اللغة في مقاطع الفيديو الطويلة

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TESTA: تجميع الرموز الزمنية-المكانية لفهم اللغة في مقاطع الفيديو الطويلة

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

TESTA: تجميع الرموز الزمنية-المكانية لفهم اللغة في مقاطع الفيديو الطويلة

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters