تدريب فعال من حيث البيانات على الشبكات العصبية التلافيفية والمحولات باستخدام مجموعات النواة: من منظور الاستقرار

يُعد اختيار الكورسيت من أكثر الطرق فعالية لتقليل وقت التدريب للشبكات العصبية التلافيفية (CNNs)، ومع ذلك، لا يزال معرفتنا محدودة فيما يتعلق بسلوك النماذج الناتجة عند تغير حجم الكورسيت، أو اختيار مجموعات البيانات أو النماذج. علاوة على ذلك، وبما أن هناك تحولاً مفاهيمياً حديثاً نحو النماذج القائمة على الترانسفورمرات (Transformers)، لا يزال يُعد سؤالاً مفتوحاً كيف سيؤثر اختيار الكورسيت على أدائها. هناك عدة أسئلة مماثلة مثيرة للاهتمام تحتاج إلى إجابات لضمان قبول واسع لطرق اختيار الكورسيت، ويسعى هذا البحث إلى الإجابة على بعض هذه الأسئلة. نقدم إعداداً معيارياً لاختبارات المقارنة، ونقوم بمقارنة صارمة لطرق مختلفة لاختيار الكورسيت على الشبكات العصبية التلافيفية والترانسفورمرات. تكشف دراستنا أن هناك حالات معينة يكون فيها اختيار العينات بشكل عشوائي أكثر مقاومة واستقراراً مقارنة بطرق اختيار الحالة المتطورة (SOTA). ونُظهر أن المفهوم التقليدي للعينة المتجانسة عبر الفئات المختلفة للبيانات ليس الخيار الأنسب، بل ينبغي اختيار العينات بشكل تكيفي بناءً على تعقيد توزيع البيانات لكل فئة. غالبًا ما تُدرّب الترانسفورمرات مسبقاً على مجموعات بيانات كبيرة، ونُظهر أنه بالنسبة لمجموعات بيانات مستهدفة معينة، يُسهم الحفاظ على أداء الترانسفورمرات مستقرًا حتى عند أحجام كورسيت صغيرة جدًا. كما نُظهر أنه عندما لا تُجرى عملية التدريب المسبق، أو عندما تُستخدم نماذج الترانسفورمر المُدرّبة مسبقاً مع صور غير طبيعية (مثل البيانات الطبية)، فإن الشبكات العصبية التلافيفية تُظهر قدرة أفضل على التعميم حتى عند أحجام كورسيت صغيرة جدًا. وأخيراً، نُظهر أنه في غياب التدريب المسبق المناسب، تكون الشبكات العصبية التلافيفية أكثر كفاءة في تعلّم الاتساق الدلالي بين الكائنات المتباعدة مكانيًا داخل الصورة، مما يجعلها تتفوق على الترانسفورمرات في معظم أحجام الكورسيت المختارة.