HyperAIHyperAI

Command Palette

Search for a command to run...

مُصَمَّم التحويلة البصرية لدمج الميزات لتصنيف بصري دقيق

Jun Wang Xiaohan Yu Yongsheng Gao

الملخص

الجوهر في معالجة التصنيف البصري الدقيق (FGVC) يكمن في تعلُّم ميزات رقيقة ولكن تمييزية. وقد حاولت معظم الدراسات السابقة تحقيق ذلك من خلال اختيار الأجزاء التمييزية بشكل صريح، أو من خلال دمج آلية الانتباه باستخدام النماذج القائمة على الشبكات العصبية التلافيفية (CNN). ومع ذلك، فإن هذه الطرق تزيد من التعقيد الحسابي، وتجعل النموذج يُهيمن عليه المناطق التي تحتوي على أكبر كمية من الكائنات. في الآونة الأخيرة، حققت نماذج التحويل البصري (ViT) أداءً متقدمًا جدًا في مهام التعرف العام على الصور. حيث تُجمع آلية الانتباه الذاتي المعلومات من جميع القطع (patches) وتحوّلها إلى رمز التصنيف، مما يجعلها مثالية تمامًا لمهام FGVC. غير أن رمز التصنيف في الطبقات العميقة يُولي اهتمامًا أكبر للمعلومات الشاملة (العامة)، ويعاني من نقص في المعلومات المحلية والمستويات المنخفضة، التي تُعد ضرورية لمهام FGVC. في هذا العمل، نقترح إطارًا جديدًا يعتمد بالكامل على التحويل البصري يُسمى "التحويل البصري المُدمج للسمات" (FFVT)، حيث نجمع الرموز المهمة من كل طبقة في التحويل البصري لتعويض نقص المعلومات المحلية والمستويات المنخفضة والمتوسطة. كما صممنا وحدة اختيار رموز جديدة تُسمى "اختيار وزن الانتباه المتبادل" (MAWS)، والتي توجه الشبكة بشكل فعّال وكفؤ نحو اختيار الرموز التمييزية دون إدخال معلمات إضافية. وقد تأكدنا من فعالية FFVT على ثلاث معايير معيارية، حيث حقق أداءً متفوقًا على جميع النماذج السابقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp