HyperAIHyperAI

Command Palette

Search for a command to run...

TESTA: تجميع الرموز الزمنية-المكانية لفهم اللغة في مقاطع الفيديو الطويلة

Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou

الملخص

حققت التدريبات الكبيرة للنماذج اللغوية-الفيديو تقدمًا ملحوظًا في مهام فهم اللغة والفيديو. ومع ذلك، لا يزال العبء الحاسوبي الثقيل لترميز الفيديو يشكل عقبة كفاءة صعبة، خاصة بالنسبة للفيديوهات الطويلة. تحتوي هذه الفيديوهات على عدد كبير من الرموز البصرية بسبب خصائصها ثلاثية الأبعاد والازدواجية المكانية-الزمانية، مما يجعل من الصعب التقاط العلاقات الزمنية والمكانيّة المعقدة. لمعالجة هذه المشكلة، نقترح طريقة فعالة تُسمى تجميع الرموز الزمنيّة-المكانيّة (TESTA). تقوم TESTA بتقليص معاني الفيديو من خلال دمج الإطارات المتشابهة بشكل تكيفي، وكذلك الدمج التكيفي للأجزاء المتشابهة داخل كل إطار. يمكن لـ TESTA أن تقلل من عدد الرموز البصرية بنسبة 75٪ وبالتالي تسريع ترميز الفيديو. بناءً على TESTA، نقدم نموذجًا مسبق التدريب للغة-الفيديو مجهزًا بوحدة تجميع رموز مقسّمة زمنيًا ومكانيًا في كل كتلة من كتل مشفر الفيديو. قمنا بتقييم نموذجنا على خمسة مجموعات بيانات لمهمتي استرجاع الفقرات إلى الفيديو وأسئلة الفيديو الطويلة. أظهرت النتائج التجريبية أن TESTA تحسن الكفاءة الحاسوبية بمقدار 1.7 مرة، وتحقق زيادة كبيرة في الأداء بفضل قابلية توسيعها في معالجة الإطارات المدخلة الأطول، مثل +13.7 R@1 على QuerYD و+6.5 R@1 على Condensed Movie.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp