HyperAIHyperAI
منذ 9 أيام

توسيع فضاء الميزات للبيانات ذات التوزيع الطويل الذيل

Peng Chu, Xiao Bian, Shaopeng Liu, Haibin Ling
توسيع فضاء الميزات للبيانات ذات التوزيع الطويل الذيل
الملخص

تتبع البيانات الواقعية غالبًا توزيعًا طويل الذيل، حيث تختلف تكرار كل فئة بشكل ملحوظ. على سبيل المثال، قد يحتوي مجموعة بيانات على عدد كبير من الفئات غير الممثلة بشكل كافٍ، مقابل عدد قليل من الفئات التي تمتلك كمية كافية من البيانات. ومع ذلك، يُتوقع من النموذج المُصمم لتمثيل هذه المجموعة أداءً متجانسًا إلى حد معقول عبر جميع الفئات. ومن بين أفضل الممارسات لتخفيف مشكلة عدم توازن البيانات، تُعدّ خسائر مُوازنة الفئات، بالإضافة إلى الطرق المتقدمة لإعادة عينة البيانات وتعزيزها. ولكن الجزء الآخر من المشكلة، المتعلق بالفئات غير الممثلة بشكل كافٍ، يتطلب بالضرورة استنادًا إلى معرفة إضافية لاستعادة المعلومات المفقودة.في هذا العمل، نقدّم منهجية جديدة لمعالجة مشكلة التوزيع طويل الذيل من خلال تعزيز الفئات غير الممثلة بشكل كافٍ في فضاء الميزات باستخدام الميزات المستخلصة من الفئات الغنية بالعينات. وبشكل خاص، نقوم بتحليل ميزات كل فئة إلى مكوّن عام للعائلة (class-generic) ومكوّن خاص بالفئة (class-specific) باستخدام خرائط تفعيل الفئة (class activation maps). ثم، يتم إنشاء عينات جديدة للفئات غير الممثلة بشكل كافٍ بشكل ديناميكي أثناء مراحل التدريب، وذلك من خلال دمج الميزات الخاصة بالفئات غير الممثلة مع الميزات العامة المستمدة من الفئات المُربكة (التي تشبهها). وقد أظهرت نتائجنا على مجموعات بيانات مختلفة مثل iNaturalist وImageNet-LT وPlaces-LT، بالإضافة إلى نسخة طويلة الذيل من CIFAR، أداءً يُعدّ من أفضل الأداء في الحالة الراهنة (state-of-the-art).

توسيع فضاء الميزات للبيانات ذات التوزيع الطويل الذيل | أحدث الأوراق البحثية | HyperAI