منذ 8 أشهر

الملخص

تلقى التدريب المسبق للنموذج لتعلم تمثيل الفيديو والنص القابل للنقل اهتمامًا كبيرًا في السنوات الأخيرة. غالبًا ما تعتمد الأعمال السابقة الرائدة على مرمزين منفصلين لتحقيق الاسترجاع الكفء، لكنها تتجاهل الارتباطات المحلية بين الفيديوهات والنصوص. بينما تستخدم سلسلة أخرى من الأبحاث مرمز مشترك لتفاعل الفيديو مع النص، ولكن هذا يؤدي إلى كفاءة منخفضة حيث يجب إدخال كل زوج من النص والفيديو إلى النموذج. في هذا البحث، نمكّن التفاعلات الدقيقة بين الفيديو والنص مع الحفاظ على الكفاءة العالية للاسترجاع من خلال مهمة مسبقة جديدة، أطلقنا عليها اسم أسئلة متعددة الخيارات (MCQ)، حيث يتم تدريب وحدة بارامترية تُسمى BridgeFormer على الإجابة عن "الأسئلة" التي يتم بناؤها بواسطة خصائص النص بالاستعانة بخصائص الفيديو. بشكل خاص، نستغل المعاني الغنية للنص (أي الأسماء والأفعال) لبناء الأسئلة، مما يمكن مرمز الفيديو من التقاط المزيد من المحتوى الإقليمي والديناميكيات الزمنية. وفي صورة الأسئلة والإجابات، يمكن إنشاء الارتباطات الدلالية بين الخصائص المحلية للفيديو والنص بشكل صحيح. يمكن إزالة BridgeFormer للاستخدام في المهام اللاحقة، مما يوفر نموذجًا كفؤًا ومرونةً باستخدام مرمزين فقط. طريقة عملنا تتفوق على أفضل الأساليب الحالية في مهمة استرجاع النص إلى الفيديو الشائعة في خمسة مجموعات بيانات وبإعدادات تجريبية مختلفة (أي الاسترجاع بدون تدريب وإعادة التدريب)، بما في ذلك HowTo100M (مليون فيديو). كما أجرينا اختبار الاسترجاع بدون تدريب للتعرف على الحركات، والذي يمكن اعتباره استرجاع الفيديو إلى النص، وأثبتت طريقتنا أيضًا أنها تتخطى نظيراتها بشكل كبير. بالإضافة إلى ذلك، حققت طريقتنا نتائج تنافسية باستخدام مقاطع فيديو قصيرة جدًا للتدريب المسبق في المهام اللاحقة ذات الوسيلة الواحدة، مثل التعرف على الحركات باستخدام التقييم الخطي.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Yuying Ge Yixiao Ge Xihui Liu Dian Li Ying Shan Xiaohu Qie Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yuying Ge Yixiao Ge Xihui Liu Dian Li Ying Shan Xiaohu Qie Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Yuying Ge Yixiao Ge Xihui Liu Dian Li Ying Shan Xiaohu Qie Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جسر الاسترجاع الفيديو-النصي باستخدام الأسئلة ذات الخيارات المتعددة

Yuying Ge Yixiao Ge Xihui Liu Dian Li Ying Shan Xiaohu Qie Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جسر الاسترجاع الفيديو-النصي باستخدام الأسئلة ذات الخيارات المتعددة

Yuying Ge Yixiao Ge Xihui Liu Dian Li Ying Shan Xiaohu Qie Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

جسر الاسترجاع الفيديو-النصي باستخدام الأسئلة ذات الخيارات المتعددة

Yuying Ge Yixiao Ge Xihui Liu Dian Li Ying Shan Xiaohu Qie Ping Luo

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters