منذ 11 أيام

ماست: مُتَّسِقٌ مُتَعَلِّمٌ ذاتيًا مُتَزَوِّدٌ بذاكرة

Zihang Lai, Erika Lu, Weidi Xie

الملخص

أظهر الاهتمام الأخير بالتعقب الكثيف ذاتي التدريب تقدماً سريعاً، لكن الأداء لا يزال بعيداً عن الطرق المراقبة. نقترح نموذجاً للتعقب الكثيف يتم تدريبه على مقاطع فيديو دون أي تسميات، يتفوق على الطرق ذاتية التدريب السابقة في المعايير الحالية بفارق كبير (+15%)، ويحقق أداءً يقارب الأداء المُحقَّق بالطرق المراقبة. في هذا البحث، نعيد تقييم الخيارات التقليدية المستخدمة في تدريب التعلم الذاتي ووظيفة خسارة إعادة البناء من خلال إجراء تجارب شاملة، والتي كشفت أخيراً عن الخيارات المثلى. ثانيًا، نُحسّن على الطرق الحالية من خلال إضافة مكون ذا أهمية حاسمة إلى معمارية النموذج: المُخزون (الذاكرة). ثالثًا، نُقيّم الأداء على مهام التجزئة الكثيفة لكائنات الفيديو ذات التدريب شبه المراقب (المعروفة أيضًا بالتعقب الكثيف) على نطاق واسع، ونُقدّم معياراً جديداً: القدرة على التعميم (generalizability). تؤدي مساهماتنا الأولى والثانية إلى شبكة ذاتية التدريب تُعدّ أول شبكة تُصبح منافسة للطرق المراقبة في المقاييس القياسية لتقييم التعقب الكثيف. وعند قياس القدرة على التعميم، نُظهر أن الطرق ذاتية التدريب تفوق في الواقع معظم الطرق المراقبة. نعتقد أن هذا المعيار الجديد للقدرة على التعميم يمكنه التقاط حالات الاستخدام الفعلية للتعقب الكثيف بشكل أفضل، وسيُشجع على اهتمام جديد بهذه الاتجاهات البحثية.