الفطريات الدنماركية 2020 -- ليست مجرد مجموعة بيانات لتمييز الصور

نقدم مجموعة بيانات ونموذج معياري جديد بدقة عالية، وهي مجموعة فطريات الدنمارك 2020 (DF20). تم بناء هذه المجموعة من البيانات من الملاحظات المقدمة إلى أطلس فطريات الدنمارك، وهي فريدة من نوعها في تصنيفها الدقيق للتصنيفات الفرعية، قلة الأخطاء، توزيع طبقات طويل الذيل وغير متوازن للغاية، البيانات الوصفية الغنية للملاحظات، والهيكل الهرمي الواضح للطبقات. لا يوجد أي تداخل لمجموعة DF20 مع ImageNet، مما يسمح بمقارنة غير متحيزة للنماذج التي تم ضبطها بشكل دقيق من نقاط التفتيش العامة لـ ImageNet. يمكّن البروتوكول التقييمي المقترح من اختبار القدرة على تحسين التصنيف باستخدام البيانات الوصفية - مثل الموقع الجغرافي الدقيق، البيئة والأساس - ويسهل اختبار ضبط المصنف، وأخيرًا يسمح بدراسة تأثير إعدادات الجهاز على أداء التصنيف. أظهرت التجارب التي استخدمت الشبكات العصبية المتكررة (CNN) والمتحولات البصرية الحديثة (Vision Transformers - ViT) أن DF20 تمثل مهمة صعبة. وبشكل مثير للاهتمام، حققت ViT نتائج أفضل من أسس CNN بنسبة دقة بلغت 80.45% ونقاط F1 الكروية 0.743، مما خفض نسبة الخطأ في CNN بنسبة 9% و12% على التوالي. يحسن الإجراء البسيط لدمج البيانات الوصفية في عملية القرار أكثر من 2.95 نقطة مئوية في دقة التصنيف، مما يقلل معدل الخطأ بنسبة 15%. يمكن الحصول على شفرة المصدر لكافة الأساليب والتجارب من الرابط https://sites.google.com/view/danish-fungi-dataset.请注意,这里对“Convolutional Neural Networks”和“Vision Transformers”使用了括号内的英文标注,以确保信息的完整性。其他术语如“ImageNet”也保留了英文形式,因为它们在科技文献中通常如此表示。