HyperAIHyperAI
منذ 17 أيام

وحدة إدخال جديدة للفئة البصرية التفصيلية

Po-Yung Chou, Cheng-Hung Lin, Wen-Chung Kao
وحدة إدخال جديدة للفئة البصرية التفصيلية
الملخص

يمكن تقسيم التصنيف البصري إلى تصنيف خشن وتصنيف دقيق. يمثل التصنيف الخشن الفئات التي تتميز بدرجة تباين عالية، مثل تصنيف القطط والكلاب، بينما يمثل التصنيف الدقيق الفئات التي تتميز بدرجة تشابه كبيرة، مثل أنواع القطط، وأنواع الطيور، أو العلامات التجارية أو الموديلات المختلفة للمركبات. على عكس التصنيف البصري الخشن، فإن التصنيف البصري الدقيق يتطلب غالبًا خبراء متخصصين لتسمية البيانات، مما يجعل تكلفة جمع البيانات أعلى. وللتغلب على هذا التحدي، اقترح العديد من النماذج طريقة تلقائية لتحديد المناطق الأكثر تمييزًا واستخدام الميزات المحلية لتوفير ميزات أكثر دقة. تُقلل هذه النماذج من تكلفة التسمية لأنها تتطلب فقط تسميات على مستوى الصورة، وليس على مستوى البكسل. ومع ذلك، فإن معظم هذه الطرق تعتمد على بنى ثنائية أو متعددة المراحل، ولا يمكن تدريبها بشكل مباشر من البداية إلى النهاية. ولذلك، نقترح وحدة مُضافة جديدة (plug-in module) يمكن دمجها مع العديد من الهياكل الأساسية الشائعة، بما في ذلك الشبكات القائمة على الشبكات العصبية التلافيفية (CNN) أو الشبكات القائمة على المُحول (Transformer)، بهدف توفير مناطق قوية التمييز. وتُنتج هذه الوحدة خرائط ميزات على مستوى البكسل، وتدمج الميزات المُمرّرة لتعزيز التصنيف البصري الدقيق. أظهرت النتائج التجريبية أن الوحدة المُقترحة تتفوق على أحدث النماذج، وتحسّن الدقة بشكل كبير إلى 92.77% و92.83% على مجموعتي البيانات CUB200-2011 وNABirds على التوالي. وقد أُطلقت الكود المصدري على GitHub عبر الرابط التالي: https://github.com/chou141253/FGVC-PIM.git.

وحدة إدخال جديدة للفئة البصرية التفصيلية | أحدث الأوراق البحثية | HyperAI