HyperAIHyperAI

Command Palette

Search for a command to run...

Conviformers: Vision Transformer موجهة بالتحويلات التلافيفية

Mohit Vaishnav Thomas Fel Ivań Felipe Rodríguez Thomas Serre

الملخص

المحولات البصرية (Vision Transformers) أصبحت اليوم الخيار الافتراضي لمهام تصنيف الصور. تُقسَّم مهام التصنيف إلى نوعين رئيسيين: التصنيف الدقيق (fine-grained) والتصنيف العام (coarse-grained). في التصنيف الدقيق، يُعدّ اكتشاف الفروق الدقيقة أمرًا ضروريًا نظرًا لمستوى التشابه العالي بين الفئات الفرعية. ومع ذلك، تُفقد هذه الفروق غالبًا عند تقليل حجم الصورة لتقليل استهلاك الذاكرة والتكلفة الحسابية المرتبطة بالمحولات البصرية (ViT). في هذا العمل، نقدّم تحليلًا معمّقًا ونُحدّد المكونات الحاسمة لتطوير نظام لتصنيف نباتي دقيق من ورقات المختبر النباتي (herbarium sheets). أظهر تحليلنا التجريبي الواسع الحاجة إلى تقنية تحسين (augmentation) أفضل، فضلًا عن قدرة الشبكات العصبية الحديثة على التعامل مع صور ذات أبعاد أعلى. كما نُقدّم معمارية مُحكمة تُسمّى Conviformer، التي تختلف عن المحول البصري الشهير (ConViT) في قدرتها على التعامل مع صور ذات دقة عالية دون تضخم في استهلاك الذاكرة أو التكلفة الحسابية. بالإضافة إلى ذلك، نُقدّم تقنية معالجة مسبقة مبتكرة ومحسّنة تُسمّى PreSizer، والتي تُحسّن عملية تغيير حجم الصور مع الحفاظ على النسب الأصلية لها، وهو ما أثبت كونه أمرًا جوهريًا لتصنيف النباتات الطبيعية. وباستخدام نهجنا البسيط ولكن الفعّال، تفوّقنا على أحدث النتائج (SoTA) على مجموعتي بيانات Herbarium 202x وiNaturalist 2019.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
Conviformers: Vision Transformer موجهة بالتحويلات التلافيفية | مستندات | HyperAI