شجرة بصرية دقيقة بالذكاء الاصطناعي التبادلي لتصنيف بصري دقيق باستخدام الشبكات العصبية الثنائية التباينية

التصنيف البصري الدقيق (FGVC) هو مهمة مهمة ولكنها صعبة بسبب التباين العالي داخل الفئة والتمايز المنخفض بين الفئات الناتج عن التشوهات، والانسداد، والإضاءة، وغيرها. تم تقديم بنية شجرة عصبية ثنائية متعددة التوصيلات ذات انتباه لمعالجة هذه المشكلات في التصنيف البصري الدقيق المُراقب بشكل ضعيف. بشكل خاص، ندمج العمليات التلافيفية على طول حواف هيكل الشجرة، ونستخدم وظائف التوجيه في كل عقدة لتحديد مسارات الحساب من الجذع إلى الأوراق داخل الشجرة. ويتم حساب القرار النهائي كمجموع التنبؤات الناتجة عن العقد الطرفية. تتعلم العمليات التلافيفية العميقة التقاط تمثيلات الكائنات، بينما يُمثل الهيكل الشجري عملية التعلم الهرمي من العام إلى الخاص. بالإضافة إلى ذلك، نستخدم وحدة المحولات ذات الانتباه (attention transformer module) لفرض على الشبكة التقاط ميزات تمييزية. وتم تدريب الشبكة بأكملها بطريقة متكاملة من الطرف إلى الطرف باستخدام خوارزمية التدرج المنحدر (SGD) مع التغذية العكسية (back-propagation)، باستخدام دالة الخسارة اللوغاريتمية السالبة. أظهرت عدة تجارب على مجموعات بيانات CUB-200-2011 وStanford Cars وAircraft أن الطريقة المقترحة تتفوق على أحدث الطرق المطورة في المجال.