HyperAIHyperAI
منذ 17 أيام

Conviformers: Vision Transformer موجهة بالتحويلات التلافيفية

Mohit Vaishnav, Thomas Fel, Ivań Felipe Rodríguez, Thomas Serre
Conviformers: Vision Transformer موجهة بالتحويلات التلافيفية
الملخص

المحولات البصرية (Vision Transformers) أصبحت اليوم الخيار الافتراضي لمهام تصنيف الصور. تُقسَّم مهام التصنيف إلى نوعين رئيسيين: التصنيف الدقيق (fine-grained) والتصنيف العام (coarse-grained). في التصنيف الدقيق، يُعدّ اكتشاف الفروق الدقيقة أمرًا ضروريًا نظرًا لمستوى التشابه العالي بين الفئات الفرعية. ومع ذلك، تُفقد هذه الفروق غالبًا عند تقليل حجم الصورة لتقليل استهلاك الذاكرة والتكلفة الحسابية المرتبطة بالمحولات البصرية (ViT). في هذا العمل، نقدّم تحليلًا معمّقًا ونُحدّد المكونات الحاسمة لتطوير نظام لتصنيف نباتي دقيق من ورقات المختبر النباتي (herbarium sheets). أظهر تحليلنا التجريبي الواسع الحاجة إلى تقنية تحسين (augmentation) أفضل، فضلًا عن قدرة الشبكات العصبية الحديثة على التعامل مع صور ذات أبعاد أعلى. كما نُقدّم معمارية مُحكمة تُسمّى Conviformer، التي تختلف عن المحول البصري الشهير (ConViT) في قدرتها على التعامل مع صور ذات دقة عالية دون تضخم في استهلاك الذاكرة أو التكلفة الحسابية. بالإضافة إلى ذلك، نُقدّم تقنية معالجة مسبقة مبتكرة ومحسّنة تُسمّى PreSizer، والتي تُحسّن عملية تغيير حجم الصور مع الحفاظ على النسب الأصلية لها، وهو ما أثبت كونه أمرًا جوهريًا لتصنيف النباتات الطبيعية. وباستخدام نهجنا البسيط ولكن الفعّال، تفوّقنا على أحدث النتائج (SoTA) على مجموعتي بيانات Herbarium 202x وiNaturalist 2019.