خطوة نحو تقييم التنوع البيولوجي العالمي: مجموعة بيانات BIOSCAN-1M للحشرات

في مسعى لتوثيق تنوع الحشرات، نقترح مجموعة بيانات كبيرة جديدة مُصنّفة يدويًا لصور الحشرات، تُعرف باسم مجموعة بيانات BIOSCAN-Insect. يتم تصنيف كل سجل تأريخياً من قبل خبير، كما يرتبط بكل سجل معلومات وراثية تشمل تسلسلات نوكلوتيدية خام لسلاسل الترميز الجيني (barcode) وأرقام فهرس الترميز المُخصصة، والتي تُعد مؤشرات وراثية تُستخدم كمُعَوِّضات لتصنيف الأنواع. تقدّم هذه الورقة مجموعة بيانات مُختارة تضم مليون صورة، وتُركّز بشكل أساسي على تدريب نماذج رؤية حاسوبية قادرة على إجراء تقييم تأريخي مبني على الصور، غير أن المجموعة تمتلك أيضًا خصائص مُثيرة للاهتمام، يُعد دراستها موضع اهتمام للجماعة الأوسع في مجال التعلم الآلي. ونظراً للطبيعة البيولوجية المتأصلة في هذه المجموعة، تُظهر توزيعًا مميّزًا بانحياز طويل الذيل (long-tailed class-imbalance) بين الفئات. علاوةً على ذلك، فإن التصنيف التأريخي يعتمد على نظام تصنيف هرمي، ما يُشكّل مشكلة تصنيف دقيقة جدًا عند المستويات الدنيا. إلى جانب إثارة الاهتمام في أوساط مجتمع التعلم الآلي ببحوث التنوع البيولوجي، فإن التقدم في إنشاء تصنيف آلي مبني على الصور سيُسهم أيضًا في تحقيق الهدف النهائي لجميع أبحاث BIOSCAN: وضع الأسس لاستقصاء شمولي للتنوع البيولوجي العالمي. تقدّم هذه الورقة مقدمة عن المجموعة، وتفحص مهمة التصنيف من خلال تنفيذ وتحليل تصنيف آلي قائم على الأساس (baseline classifier).