منذ 17 أيام

BEVT: تدريب مسبق لنموذج BERT لمحولات الفيديو

Rui Wang, Dongdong Chen, Zuxuan Wu, Yinpeng Chen, Xiyang Dai, Mengchen Liu, Yu-Gang Jiang, Luowei Zhou, Lu Yuan

الملخص

تُركّز هذه الورقة على تدريب نموذج BERT لمحولات الفيديو. إنها تمديد بسيط لكنه يستحق الدراسة، بالنظر إلى النجاح الأخير الذي حققته تدريبات BERT على محولات الصور. نقدّم نموذج BEVT الذي يفصل تعلم تمثيل الفيديو إلى تعلّم التمثيل المكاني وتعلّم الديناميات الزمنية. بشكل خاص، يقوم BEVT أولاً بتطبيق نموذج الصورة المُحجبة (Masked Image Modeling) على بيانات الصور، ثم يُطبّق نموذج الصورة المُحجبة بشكل مشترك مع نموذج الفيديو المُحجب (Masked Video Modeling) على بيانات الفيديو. تم تحفيز هذا التصميم بمراعاة ملاحظتين: 1) توفر المحولات التي تم تدريبها على مجموعات بيانات الصور معلومات أولية مكانيّة جيدة، مما يُسهّل تعلّم محولات الفيديو، التي غالبًا ما تكون مكلفة من حيث الحوسبة إذا تم تدريبها من الصفر؛ 2) تتغير المؤشرات التمييزية، أي المعلومات المكانية والزمنية الضرورية لاتخاذ توقعات صحيحة، بين الفيديوهات المختلفة بسبب التباين الكبير داخل الفئة وخارجها. أجرينا تجارب واسعة على ثلاث معايير صعبة للفيديو، حيث حقق BEVT نتائج واعدة جدًا. على معيار Kinetics 400، الذي يعتمد بشكل أساسي على تمثيلات مكانية تمييزية، حقق BEVT نتائج مماثلة للأساليب المُتخصصة القوية التي تعتمد على التدريب المُشرَّف. أما على معياري Something-Something-V2 وDiving 48، اللذين يحتويان على فيديوهات تعتمد على الديناميات الزمنية، فقد تفوق BEVT بفارق واضح على جميع النماذج البديلة، وحقق أداءً يُعدّ الأفضل في المجال، بتحقيق دقة أولى (Top-1) تبلغ 71.4% و87.2% على التوالي. سيتم إتاحة الكود على الرابط: \url{https://github.com/xyzforever/BEVT}.