HyperAIHyperAI

Command Palette

Search for a command to run...

RTQ: إعادة التفكير في فهم الفيديو واللغة على أساس نموذج الصورة والنص

Xiao Wang Yaoyu Li Tian Gan Zheng Zhang Jingjing Lv Liqiang Nie

الملخص

أُقيمت التطورات الحديثة في فهم الفيديو واللغة على أساس نماذج الصورة والنص، مما أدى إلى نتائج واعدة بفضل المعرفة المشتركة بين الصور والفيديوهات. ومع ذلك، يواجه فهم الفيديو واللغة تحديات فريدة ناتجة عن تضمين تفاصيل معنوية معقدة للغاية، مما يسبب تكرار المعلومات، والاعتماد الزمني، وتعقيد المشهد. ورغم أن التقنيات الحالية قد تصدت جزئياً لهذه المشكلات، فإن تحليلنا الكمي يشير إلى أن بعض هذه الطرق مكملة لبعضها البعض. وبناءً على ذلك، نقترح إطاراً جديداً يُسمى RTQ (إعادة التشكيل، النموذج الزمني، والاستعلام)، والذي يعالج هذه التحديات بشكل متزامن. يعتمد هذا النهج على تحسين المعلومات الزائدة داخل الإطارات، ونمذجة العلاقات الزمنية بين الإطارات، واستخلاص المعلومات الخاصة بالمهمة من الفيديوهات. ويُبرز نموذجنا أداءً متميزاً حتى في غياب التدريب المسبق على بيانات الفيديو واللغة، مع تحقيق نتائج تُقاس أو تفوق النتائج التي تحققها أفضل الطرق المُدرَّبة مسبقاً في الحد الأدنى. يمكن الوصول إلى الكود من خلال الرابط: https://github.com/SCZwangxiao/RTQ-MM2023.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RTQ: إعادة التفكير في فهم الفيديو واللغة على أساس نموذج الصورة والنص | مستندات | HyperAI