HyperAIHyperAI

Command Palette

Search for a command to run...

وحدة إدخال جديدة للفئة البصرية التفصيلية

Po-Yung Chou Cheng-Hung Lin Wen-Chung Kao

الملخص

يمكن تقسيم التصنيف البصري إلى تصنيف خشن وتصنيف دقيق. يمثل التصنيف الخشن الفئات التي تتميز بدرجة تباين عالية، مثل تصنيف القطط والكلاب، بينما يمثل التصنيف الدقيق الفئات التي تتميز بدرجة تشابه كبيرة، مثل أنواع القطط، وأنواع الطيور، أو العلامات التجارية أو الموديلات المختلفة للمركبات. على عكس التصنيف البصري الخشن، فإن التصنيف البصري الدقيق يتطلب غالبًا خبراء متخصصين لتسمية البيانات، مما يجعل تكلفة جمع البيانات أعلى. وللتغلب على هذا التحدي، اقترح العديد من النماذج طريقة تلقائية لتحديد المناطق الأكثر تمييزًا واستخدام الميزات المحلية لتوفير ميزات أكثر دقة. تُقلل هذه النماذج من تكلفة التسمية لأنها تتطلب فقط تسميات على مستوى الصورة، وليس على مستوى البكسل. ومع ذلك، فإن معظم هذه الطرق تعتمد على بنى ثنائية أو متعددة المراحل، ولا يمكن تدريبها بشكل مباشر من البداية إلى النهاية. ولذلك، نقترح وحدة مُضافة جديدة (plug-in module) يمكن دمجها مع العديد من الهياكل الأساسية الشائعة، بما في ذلك الشبكات القائمة على الشبكات العصبية التلافيفية (CNN) أو الشبكات القائمة على المُحول (Transformer)، بهدف توفير مناطق قوية التمييز. وتُنتج هذه الوحدة خرائط ميزات على مستوى البكسل، وتدمج الميزات المُمرّرة لتعزيز التصنيف البصري الدقيق. أظهرت النتائج التجريبية أن الوحدة المُقترحة تتفوق على أحدث النماذج، وتحسّن الدقة بشكل كبير إلى 92.77% و92.83% على مجموعتي البيانات CUB200-2011 وNABirds على التوالي. وقد أُطلقت الكود المصدري على GitHub عبر الرابط التالي: https://github.com/chou141253/FGVC-PIM.git.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp