DropMAE: تعلّم التمثيلات من خلال مُشَرِّحات الترميز المُعَطَّلة ذات الانتباه المكاني للمهام التوافقية الزمنية

تُعنى هذه الورقة بدراسة تدريب مسبق لـ "مُشفّر الترميز المُقنَّع" (MAE) على الفيديو لمهام لاحقة تعتمد على التوافق الزمني، مثل مهام التتبع على مستوى الكائنات، بما في ذلك تتبع الكائنات في الفيديو (VOT) وتقسيم الكائنات في الفيديو (VOS)، وتعلم التماثل البصري التلقائي، ومهام التتبع الكثيف مثل تقدير التدفق البصري والتعقب الطويل الأمد للنقاط، بالإضافة إلى تتبع السحابة ثلاثية الأبعاد للنقاط. وبشكل خاص، تسعى عملنا إلى توفير تمثيل عام يعزز قدرة التوافق الزمني في مختلف مهام التتبع اللاحقة. ولتحقيق ذلك، نلاحظ أولًا أن التوسع البسيط في MAE، والذي يُعَمِّد إلى إخفاء قطع عشوائية من الإطارات في الفيديو وإعادة بناء بكسلات الإطار، يعتمد بشكل كبير على المؤشرات المكانية بينما يتجاهل العلاقات الزمنية أثناء إعادة بناء الإطارات، مما يؤدي إلى تمثيلات زمنية غير مثالية للتوافق. ولتخفيف هذه المشكلة، نقترح نموذج DropMAE، الذي يُطبّق بشكل تكيفي توقف الانتباه المكاني أثناء إعادة بناء الإطار، بهدف تعزيز تعلم التماثل الزمني في الفيديو. ونحصل من خلال DropMAE على عدة نتائج مهمة: 1) يُعد DropMAE متعلمًا قويًا وفعالًا للتوافق الزمني، حيث يحقق نتائج أفضل في التدريب الدقيق على المهام القائمة على التوافق مقارنة بنموذج MAE المستند إلى ImageNet، مع تسريع بنسبة 2x في عملية التدريب المسبق. 2) يُظهر DropMAE فعالية في مهام تتبع مختلفة، بما في ذلك مهام التوافق على مستوى الكائنات مثل VOT وVOS، ومهام التتبع الكثيف مثل تقدير التدفق البصري والتعقب لأي نقطة (TAP)، وحتى التتبع ثلاثي الأبعاد في بيانات السحابة النقطية ذات الطبيعة المختلفة. وبما أنه لم يكن هناك ما يُشابهه سابقًا، فقد قمنا ببناء مُتتبعات تعتمد على ViT لمختلف مهام التتبع اللاحقة، ويمكن تحميل نموذج DropMAE المُدرّب مسبقًا مباشرة في هذه المتتبعات القائمة على ViT دون الحاجة إلى أي تعديلات إضافية. وقد أثبتت التجارب على ست مهام تتبع لاحقة فعالية DropMAE كتمثيل مُدرّب مسبق عام لمهام تتبع متنوعة.