Astroformer: قد لا تكون البيانات الإضافية كل ما تحتاجه للتصنيف

تعتمد التطورات الحديثة في مجالات مثل معالجة اللغة الطبيعية والرؤية الحاسوبية على نماذج معقدة وضخمة تم تدريبها باستخدام كميات هائلة من البيانات غير المُصنفة أو جزئيًا مصنفة، وتمثّل عملية تدريب أو نشر هذه الأساليب الرائدة في بيئات محدودة الموارد تحديًا كبيرًا. تُعدّ صور المجرات عنصرًا حاسمًا لفهم العمليات التي تُشكّل وتتطور من خلالها المجرات. ولهذا، هناك حاجة إلى أساليب فعّالة لتصنيف صور المجرات، بهدف استخلاص المعلومات الفيزيائية من المسوحات الفلكية الحديثة. في هذه الورقة، نقدّم "أستروفورمر" (Astroformer)، وهو أسلوب يتعلم من كميات أقل من البيانات. ونقترح استخدام بنية هجينة تُجمع بين المحولات (Transformers) والشبكات العصبية التلافيفية (Convolutional)، مستلهمين بقوة من نجاح نموذج CoAtNet وMaxViT. بشكل محدد، نستخدم بنية هجينة تجمع بين المحولات والتفصيل، مع تصميم جديد للطبقات المتكررة، وطريقة مختلفة لبناء طبقة الانتباه النسبي (relative self-attention)، ونُدمج ذلك مع اختيار دقيق لتقنيات تكبير البيانات (data augmentation) والتنظيم (regularization). يُحقّق هذا النهج حالة جديدة من الأداء القياسي (state-of-the-art) في توقع صور المجرات من الصور على مجموعة بيانات Galaxy10 DECals، وهي مهمة علمية تضم 17,736 صورة مصنفة، حيث بلغت دقة التصنيف الأولى (top-$1$ accuracy) 94.86%، متفوّقًا على الأداء الحالي للحالة القياسية في هذه المهمة بنسبة 4.62%. علاوةً على ذلك، يُسجّل هذا الأسلوب أيضًا حالة جديدة من الأداء القياسي على مجموعتي بيانات CIFAR-100 وTiny ImageNet. كما لاحظنا أن النماذج وطرق التدريب المستخدمة في المجموعات الكبيرة من البيانات لا تعمل غالبًا بشكل جيد في البيئات ذات البيانات المحدودة.