ذاكرة حدثية مُفَرِّطة مع انتباه ذاتي للمنطقة للتعرف البصري طويل الذيل

لقد زاد الاهتمام بشكل متزايد في نمذجة البيانات ذات التوزيع الطويل الذيل (long-tailed data). على عكس المجموعات الاصطناعية التي تُجمع بشكل صناعي، فإن البيانات ذات التوزيع الطويل الذيل موجودة بطبيعتها في العالم الحقيقي، مما يجعلها أكثر واقعية. ولمعالجة مشكلة عدم التوازن بين الفئات، نُقدّم ذاكرة دورية مُضخّمة (Inflated Episodic Memory - IEM) للتمييز البصري للبيانات ذات التوزيع الطويل الذيل. أولاً، تُعدّ IEM توسعاً للشبكات العصبية التلافيفية (convolutional neural networks) من خلال إدخال ميزات تمثيلية فئوية، مما يُمكّن من التعلم السريع على الفئات ذات التكرار المنخفض (الذيل). في التعلم القليل النماذج (few-shot learning) التقليدي، يُستخدم عادةً بروتوكول واحد فقط لتمثيل فئة واحدة. لكن البيانات ذات التوزيع الطويل الذيل تتميز بتنوع داخلي أعلى داخل الفئة، مما يجعل من الصعب تعلم بروتوكول واحد يُمثّل فئة كاملة. ولذلك، نُقدّم IEM لتخزين أبرز الميزات التمييزية لكل فئة بشكل منفصل. علاوةً على ذلك، يتم تحديث بنوك الذاكرة بشكل مستقل، مما يقلل بشكل إضافي من احتمالية تعلم فئات متحيزة (skewed classifiers). ثانيًا، نُقدّم آلية انتباه ذاتي إقليمي جديدة لترميز خرائط الميزات المكانية متعددة المقاييس. وتُعد هذه الآلية مفيدة في دمج ميزات أكثر تمييزًا، مما يعزز القدرة على التعميم على الفئات ذات التكرار المنخفض. نقترح ترميز خرائط الميزات المحلية على مقاييس متعددة، مع جمع المعلومات السياقية المكانية في الوقت نفسه. وباستخدام IEM وآلية الانتباه الإقليمي الذاتي، نحقق أداءً متفوّقًا على مستوى الحالة (state-of-the-art) في أربع معايير قياسية معروفة لتمييز الصور ذات التوزيع الطويل الذيل. علاوةً على ذلك، نُثبت فعالية IEM على معيار آخر يخص تمييز الفيديو ذي التوزيع الطويل الذيل، وهو معيار YouTube-8M.