HyperAIHyperAI

Command Palette

Search for a command to run...

ViT-NeT: تحويلات البصرية القابلة للتفسير مع فك التشفير الشبكي العصبي

Sangwon Kim; Jaeyeal Nam; Byoung Chul Ko

الملخص

أظهرت نماذج التحويلات البصرية (ViTs)، التي أثبتت أداءً متقدمًا في التصنيف الصوتي، قدرتها على تصور تفسيرات عالمية من خلال المساهمات المستندة إلى الانتباه. ومع ذلك، فإن تعقيد النموذج يجعل من الصعب تفسير عملية اتخاذ القرار، كما أن غموض خرائط الانتباه يمكن أن يؤدي إلى ارتباطات خاطئة بين شرائح الصورة. في هذه الدراسة، نقترح نموذجًا جديدًا يُسمى "مُفكّك الشجرة العصبية لـ ViT" (ViT-NeT). حيث يعمل نموذج ViT كهيكل أساسي، وتُستخدم شرائح الصورة السياقية الناتجة من هذا النموذج في نموذج NeT المُقترح لمعالجة قيود ViT. يهدف NeT إلى تصنيف دقيق للأجسام الدقيقة ذات التشابه العالي بين الفئات وتنوع كبير داخل الفئة الواحدة. علاوةً على ذلك، يُصف عملية اتخاذ القرار من خلال هيكل شجري وبروتوتيبات، مما يتيح تفسيرًا بصريًا للنتائج. تم تصميم ViT-NeT ليس فقط لتحسين أداء التصنيف، بل أيضًا لتوفير تفسير يُسهل على البشر فهمه، وهو ما يُعد فعّالًا في حل التناقض بين الأداء والشفافية. وقد قارنا أداء ViT-NeT مع الطرق المتقدمة الأخرى باستخدام مجموعات بيانات شهيرة لتصنيف بصري دقيق، وأثبتنا تجريبيًا أن الطريقة المقترحة تتفوق في كلا الجانبين: الأداء التصنيفي والشفافية. يُمكن الوصول إلى الكود والنماذج بشكل عام عبر الرابط التالي: https://github.com/jumpsnack/ViT-NeT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ViT-NeT: تحويلات البصرية القابلة للتفسير مع فك التشفير الشبكي العصبي | مستندات | HyperAI