HyperAIHyperAI
منذ 11 أيام

التحيّز في العينة في التصنيف النشط العميق: دراسة تجريبية

Ameya Prabhu, Charles Dognin, Maneesh Singh
التحيّز في العينة في التصنيف النشط العميق: دراسة تجريبية
الملخص

تُعد التكاليف المتزايدة والوقت الطويل المطلوب لعملية تسمية البيانات وتدريب النماذج عوائق رئيسية عند تدريب نماذج الشبكات العصبية العميقة (DNN) على مجموعات بيانات كبيرة. ويمكن التخفيف من هذه العوائق من خلال تحديد عينات بيانات أصغر تمثل المجموعة بشكل فعّال، باستخدام استراتيجيات مثل التعلم النشط. وقد سبق أن أشارت الدراسات السابقة في مجال التعلم النشط في معالجة اللغة الطبيعية (NLP) إلى مشكلة التحيز في العينات الناتجة عن الاستفسارات القائمة على عدم اليقين، وطورت حلولاً مكلفة للتعامل معها. وبناءً على دراسة تجريبية واسعة النطاق، نُظهر أن اختيار المجموعات النشطة باستخدام الانتروبيا اللاحقة للنماذج العميقة مثل FastText.zip (FTZ) يكون مقاومًا لتأثيرات التحيز في العينات، كما أنه مرن تجاه مختلف الخيارات الخوارزمية (مثل حجم الاستفسار واستراتيجياته)، على عكس ما تشير إليه الأدبيات التقليدية. كما نُظهر أن الاستراتيجية المبنية على FTZ تُنتج عينات مشابهة لتلك التي تُنتجها أساليب أكثر تطورًا (مثل الشبكات المجمعة). وأخيرًا، نُثبت فعالية العينات المختارة من خلال إنشاء مجموعات بيانات صغيرة ولكن عالية الجودة، واستخدامها في تدريب نماذج كبيرة بسرعة وتكلفة منخفضة. وباستنادًا إلى هذه النتائج، نقترح أساسًا بسيطًا للتصنيف النصي العميق النشط، والذي يتفوق على أفضل الحلول الحالية. ونتوقع أن تكون الدراسة المقدمة مفيدة ومحفزة لمشاكل ضغط المجموعات، وكذلك لسياقات التعلم النشط أو شبه المراقب أو التعلم عبر الإنترنت. يمكن الوصول إلى الكود والنماذج عبر الرابط التالي: https://github.com/drimpossible/Sampling-Bias-Active-Learning

التحيّز في العينة في التصنيف النشط العميق: دراسة تجريبية | أحدث الأوراق البحثية | HyperAI