HyperAIHyperAI

Command Palette

Search for a command to run...

التحيّز في العينة في التصنيف النشط العميق: دراسة تجريبية

Ameya Prabhu Charles Dognin Maneesh Singh

الملخص

تُعد التكاليف المتزايدة والوقت الطويل المطلوب لعملية تسمية البيانات وتدريب النماذج عوائق رئيسية عند تدريب نماذج الشبكات العصبية العميقة (DNN) على مجموعات بيانات كبيرة. ويمكن التخفيف من هذه العوائق من خلال تحديد عينات بيانات أصغر تمثل المجموعة بشكل فعّال، باستخدام استراتيجيات مثل التعلم النشط. وقد سبق أن أشارت الدراسات السابقة في مجال التعلم النشط في معالجة اللغة الطبيعية (NLP) إلى مشكلة التحيز في العينات الناتجة عن الاستفسارات القائمة على عدم اليقين، وطورت حلولاً مكلفة للتعامل معها. وبناءً على دراسة تجريبية واسعة النطاق، نُظهر أن اختيار المجموعات النشطة باستخدام الانتروبيا اللاحقة للنماذج العميقة مثل FastText.zip (FTZ) يكون مقاومًا لتأثيرات التحيز في العينات، كما أنه مرن تجاه مختلف الخيارات الخوارزمية (مثل حجم الاستفسار واستراتيجياته)، على عكس ما تشير إليه الأدبيات التقليدية. كما نُظهر أن الاستراتيجية المبنية على FTZ تُنتج عينات مشابهة لتلك التي تُنتجها أساليب أكثر تطورًا (مثل الشبكات المجمعة). وأخيرًا، نُثبت فعالية العينات المختارة من خلال إنشاء مجموعات بيانات صغيرة ولكن عالية الجودة، واستخدامها في تدريب نماذج كبيرة بسرعة وتكلفة منخفضة. وباستنادًا إلى هذه النتائج، نقترح أساسًا بسيطًا للتصنيف النصي العميق النشط، والذي يتفوق على أفضل الحلول الحالية. ونتوقع أن تكون الدراسة المقدمة مفيدة ومحفزة لمشاكل ضغط المجموعات، وكذلك لسياقات التعلم النشط أو شبه المراقب أو التعلم عبر الإنترنت. يمكن الوصول إلى الكود والنماذج عبر الرابط التالي: https://github.com/drimpossible/Sampling-Bias-Active-Learning


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp