الذاكرة القائمة على الاهتزاز: تحسين التعرف البصري على البيانات الطويلة الذيل بفضل التنوّع في الذاكرة

تتناول هذه الورقة الاعتراف البصري العميق على بيانات ذات توزيع طويل الذيل. وللحفاظ على الشمولية، ننظر إلى حالتين تطبيقيتين، وهما: التصنيف العميق وتعلم المقاييس العميق. في ظل توزيع البيانات الطويلة الذيل، تمثل الفئات الغالبة (أي الفئات في الذيل) عددًا قليلاً نسبيًا من العينات، وغالبًا ما تعاني من نقص في التنوّع الداخلي للصفات. وتشكل الحل الجذري هو تعزيز فئات الذيل من خلال زيادة تنوّعها. ولتحقيق ذلك، نقدّم طريقة بسيطة وموثوقة تُسمى "الاهتزاز القائم على الذاكرة" (MBJ). لاحظنا أنه أثناء التدريب، تتغير معاملات النموذج العميق باستمرار بعد كل تكرار، مما يؤدي إلى ظاهرة نسمّيها "اهتزاز المعاملات" (weight jitters). وبذلك، عند إدخال صورة واحدة، تُنتج نسختان تاريخيتان من النموذج ميزات مختلفة في الفضاء المدمج عميقًا، ما يُحدث ما نسميه "اهتزاز الميزات" (feature jitters). وباستخدام ذاكرة مخصصة، نقوم بجمع هذه الاهتزازات (سواء كانت معاملات أو ميزات) عبر عدة تكرارات تدريبية، ونحصل بذلك على ما يُعرف بـ "الاهتزاز القائم على الذاكرة". ويساهم التراكم المتراكم للاهتزازات في تعزيز التنوّع الداخلي للصفات في فئات الذيل، وبالتالي تحسين الأداء في الاعتراف البصري طويل الذيل. وبإجراء تعديلات طفيفة، يمكن تطبيق MBJ على المهمتين الأساسيتين في الاعتراف البصري، وهما: التصنيف الصوتي العميق وتعلم المقاييس العميق (على بيانات ذات توزيع طويل الذيل). وقد أظهرت التجارب الواسعة على خمسة معايير تصنيف طويلة الذيل واثنين من معايير تعلم المقاييس العميق تحسينًا ملحوظًا. علاوةً على ذلك، تُظهر الأداء المحقّق تكافؤًا مع أحدث النتائج المحققة في كلا المهمتين.