HyperAIHyperAI
منذ 18 أيام

تعلم شبكة عصبية متعددة الانتباه التلافيفية للتصنيف الدقيق للصور

{Jiebo Luo, Jianlong Fu, Heliang Zheng, Tao Mei}
تعلم شبكة عصبية متعددة الانتباه التلافيفية للتصنيف الدقيق للصور
الملخص

يعتمد التعرف على الفئات الدقيقة (مثل أنواع الطيور) بشكل كبير على تحديد الأجزاء التمييزية وتعلم الميزات القائمة على الأجزاء. تحلّ معظم الطرق الحالية هذه التحديات بشكل منفصل، مع تجاهل حقيقة أن تحديد الأجزاء (مثل رأس الطائر) وتعلم الميزات الدقيقة (مثل شكل الرأس) مترابطان ترابطًا متبادلًا. في هذا البحث، نقترح منهجية جديدة لتعلم الأجزاء باستخدام شبكة عصبية تلافيفية متعددة الانتباه (MA-CNN)، حيث يمكن لتحديد الأجزاء وتعلم الميزات أن يعززا بعضهما البعض. تتكوّن MA-CNN من شبكات فرعية للاستيفاء، والتقسيم القنوي، وتصنيف الأجزاء. تأخذ الشبكة الخاصة بالتقسيم القنوي كمدخل قنوات ميزات من الطبقات التلافيفية، وتصنّع عدة أجزاء من خلال تجميع (Clustering) وتقدير الأوزان (Weighting) وتقدير متوسط (Pooling) للقنوات المرتبطة مكانيًا. ثم تقوم الشبكة الفرعية لتصنيف الأجزاء بتصنيف الصورة من خلال كل جزء على حدة، مما يسمح بتعلم ميزات دقيقة أكثر تمييزًا. تم اقتراح خلين من الخسائر لقيادة التعلم متعدد المهام في التقسيم القنوي وتصنيف الأجزاء، مما يشجع MA-CNN على إنتاج أجزاء أكثر تمييزًا من قنوات الميزات، وتعلم ميزات دقيقة أفضل من الأجزاء بطريقة متبادلة ومتآزرة. تُعدّ MA-CNN غير محتاجة إلى تسميات مربعات حدودية (Bounding Box) أو تسميات أجزاء، ويمكن تدريبها بشكل كامل من البداية إلى النهاية. كما قمنا بدمج الأجزاء المُتعلّمة من MA-CNN مع شبكة part-CNN لغرض التعرف، ونُظهر الأداء الأفضل على ثلاث مجموعات بيانات صعبة نُشرت سابقًا في مجال التعرف على الفئات الدقيقة، مثل CUB-Birds وFGVC-Aircraft وStanford-Cars.