ViT-NeT: تحويلات البصرية القابلة للتفسير مع فك التشفير الشبكي العصبي

أظهرت نماذج التحويلات البصرية (ViTs)، التي أثبتت أداءً متقدمًا في التصنيف الصوتي، قدرتها على تصور تفسيرات عالمية من خلال المساهمات المستندة إلى الانتباه. ومع ذلك، فإن تعقيد النموذج يجعل من الصعب تفسير عملية اتخاذ القرار، كما أن غموض خرائط الانتباه يمكن أن يؤدي إلى ارتباطات خاطئة بين شرائح الصورة. في هذه الدراسة، نقترح نموذجًا جديدًا يُسمى "مُفكّك الشجرة العصبية لـ ViT" (ViT-NeT). حيث يعمل نموذج ViT كهيكل أساسي، وتُستخدم شرائح الصورة السياقية الناتجة من هذا النموذج في نموذج NeT المُقترح لمعالجة قيود ViT. يهدف NeT إلى تصنيف دقيق للأجسام الدقيقة ذات التشابه العالي بين الفئات وتنوع كبير داخل الفئة الواحدة. علاوةً على ذلك، يُصف عملية اتخاذ القرار من خلال هيكل شجري وبروتوتيبات، مما يتيح تفسيرًا بصريًا للنتائج. تم تصميم ViT-NeT ليس فقط لتحسين أداء التصنيف، بل أيضًا لتوفير تفسير يُسهل على البشر فهمه، وهو ما يُعد فعّالًا في حل التناقض بين الأداء والشفافية. وقد قارنا أداء ViT-NeT مع الطرق المتقدمة الأخرى باستخدام مجموعات بيانات شهيرة لتصنيف بصري دقيق، وأثبتنا تجريبيًا أن الطريقة المقترحة تتفوق في كلا الجانبين: الأداء التصنيفي والشفافية. يُمكن الوصول إلى الكود والنماذج بشكل عام عبر الرابط التالي: https://github.com/jumpsnack/ViT-NeT.