HyperAIHyperAI
منذ 2 أشهر

TESTA: تجميع الرموز الزمنية-المكانية لفهم اللغة في مقاطع الفيديو الطويلة

Shuhuai Ren; Sishuo Chen; Shicheng Li; Xu Sun; Lu Hou
TESTA: تجميع الرموز الزمنية-المكانية لفهم اللغة في مقاطع الفيديو الطويلة
الملخص

حققت التدريبات الكبيرة للنماذج اللغوية-الفيديو تقدمًا ملحوظًا في مهام فهم اللغة والفيديو. ومع ذلك، لا يزال العبء الحاسوبي الثقيل لترميز الفيديو يشكل عقبة كفاءة صعبة، خاصة بالنسبة للفيديوهات الطويلة. تحتوي هذه الفيديوهات على عدد كبير من الرموز البصرية بسبب خصائصها ثلاثية الأبعاد والازدواجية المكانية-الزمانية، مما يجعل من الصعب التقاط العلاقات الزمنية والمكانيّة المعقدة. لمعالجة هذه المشكلة، نقترح طريقة فعالة تُسمى تجميع الرموز الزمنيّة-المكانيّة (TESTA). تقوم TESTA بتقليص معاني الفيديو من خلال دمج الإطارات المتشابهة بشكل تكيفي، وكذلك الدمج التكيفي للأجزاء المتشابهة داخل كل إطار. يمكن لـ TESTA أن تقلل من عدد الرموز البصرية بنسبة 75٪ وبالتالي تسريع ترميز الفيديو. بناءً على TESTA، نقدم نموذجًا مسبق التدريب للغة-الفيديو مجهزًا بوحدة تجميع رموز مقسّمة زمنيًا ومكانيًا في كل كتلة من كتل مشفر الفيديو. قمنا بتقييم نموذجنا على خمسة مجموعات بيانات لمهمتي استرجاع الفقرات إلى الفيديو وأسئلة الفيديو الطويلة. أظهرت النتائج التجريبية أن TESTA تحسن الكفاءة الحاسوبية بمقدار 1.7 مرة، وتحقق زيادة كبيرة في الأداء بفضل قابلية توسيعها في معالجة الإطارات المدخلة الأطول، مثل +13.7 R@1 على QuerYD و+6.5 R@1 على Condensed Movie.