HyperAIHyperAI

Command Palette

Search for a command to run...

BEVT: تدريب مسبق لنموذج BERT لمحولات الفيديو

Rui Wang Dongdong Chen Zuxuan Wu Yinpeng Chen Xiyang Dai Mengchen Liu Yu-Gang Jiang Luowei Zhou Lu Yuan

الملخص

تُركّز هذه الورقة على تدريب نموذج BERT لمحولات الفيديو. إنها تمديد بسيط لكنه يستحق الدراسة، بالنظر إلى النجاح الأخير الذي حققته تدريبات BERT على محولات الصور. نقدّم نموذج BEVT الذي يفصل تعلم تمثيل الفيديو إلى تعلّم التمثيل المكاني وتعلّم الديناميات الزمنية. بشكل خاص، يقوم BEVT أولاً بتطبيق نموذج الصورة المُحجبة (Masked Image Modeling) على بيانات الصور، ثم يُطبّق نموذج الصورة المُحجبة بشكل مشترك مع نموذج الفيديو المُحجب (Masked Video Modeling) على بيانات الفيديو. تم تحفيز هذا التصميم بمراعاة ملاحظتين: 1) توفر المحولات التي تم تدريبها على مجموعات بيانات الصور معلومات أولية مكانيّة جيدة، مما يُسهّل تعلّم محولات الفيديو، التي غالبًا ما تكون مكلفة من حيث الحوسبة إذا تم تدريبها من الصفر؛ 2) تتغير المؤشرات التمييزية، أي المعلومات المكانية والزمنية الضرورية لاتخاذ توقعات صحيحة، بين الفيديوهات المختلفة بسبب التباين الكبير داخل الفئة وخارجها. أجرينا تجارب واسعة على ثلاث معايير صعبة للفيديو، حيث حقق BEVT نتائج واعدة جدًا. على معيار Kinetics 400، الذي يعتمد بشكل أساسي على تمثيلات مكانية تمييزية، حقق BEVT نتائج مماثلة للأساليب المُتخصصة القوية التي تعتمد على التدريب المُشرَّف. أما على معياري Something-Something-V2 وDiving 48، اللذين يحتويان على فيديوهات تعتمد على الديناميات الزمنية، فقد تفوق BEVT بفارق واضح على جميع النماذج البديلة، وحقق أداءً يُعدّ الأفضل في المجال، بتحقيق دقة أولى (Top-1) تبلغ 71.4% و87.2% على التوالي. سيتم إتاحة الكود على الرابط: \url{https://github.com/xyzforever/BEVT}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
BEVT: تدريب مسبق لنموذج BERT لمحولات الفيديو | مستندات | HyperAI