HyperAIHyperAI

Command Palette

Search for a command to run...

TransFG: معمارية تحويلية للتعرف الدقيق

Ju He Jie-Neng Chen Shuai Liu Adam Kortylewski Cheng Yang Yutong Bai Changhu Wang

الملخص

التقسيم البصري الدقيق (FGVC)، الذي يهدف إلى التعرف على الكائنات من فئات فرعية، يُعد مهمة صعبة للغاية نظرًا للفرق الدقيقة المتأصلة بين الفئات. تسعى معظم الدراسات الحالية إلى معالجة هذه المشكلة من خلال إعادة استخدام الشبكة الأساسية (backbone network) لاستخراج ميزات المناطق المميزة التي تم اكتشافها. ومع ذلك، فإن هذه الاستراتيجية تُعقّد بالضرورة عملية التدفق (pipeline) وتدفع المناطق المقترحة إلى احتواء معظم أجزاء الكائنات، مما يؤدي إلى فشلها في تحديد الأجزاء الفعلية المهمة. في الآونة الأخيرة، أظهرت نماذج التحويل البصري (Vision Transformer - ViT) أداءً قويًا في المهام التقليدية للتصنيف. حيث يربط آلية الانتباه الذاتي (self-attention) في التحويل البصري كل رمز قطعة (patch token) بالرمز التصنيفي (classification token). في هذا العمل، نقوم أولاً بتقييم فعالية إطار ViT في سياق التصنيف الدقيق. ثم، مستندين إلى القوة التي تُظهرها روابط الانتباه، والتي يمكن اعتبارها بشكل مُباشر مؤشرًا على أهمية الرموز (tokens)، نقترح وحدة اختيار الأجزاء (Part Selection Module) جديدة يمكن تطبيقها على معظم هياكل التحويل البصري. حيث نُدمج جميع أوزان الانتباه الأصلية للتحويل البصري في خريطة انتباه واحدة، بهدف توجيه الشبكة لاختيار فعّالة ودقيقة للقطَع الصورية المميزة وحساب علاقاتها. كما نُطبّق خسارة تقابلية (contrastive loss) لزيادة الفجوة بين تمثيلات الميزات للفئات المُربكة. ونُسمّي النموذج المُعزّز القائم على التحويل البصري بـ TransFG، ونُظهر قيمته من خلال إجراء تجارب على خمسة معايير شائعة للتصنيف الدقيق، حيث نحقق أداءً متفوقًا على الحد الأقصى (state-of-the-art). كما نقدّم نتائج نوعية لتحسين الفهم العميق لنموذجنا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
TransFG: معمارية تحويلية للتعرف الدقيق | مستندات | HyperAI