HyperAIHyperAI

Command Palette

Search for a command to run...

التعلم الانتباهي متعدد الفروع ومتعدد المقياس للتصنيف البصري الدقيق

Fan Zhang Meng Li Guisheng Zhai Yizhao Liu

الملخص

تحدي إيماجنت للتمييز البصري على نطاق واسع (ILSVRC) هو أحد أكثر المسابقات الأكاديمية شهرةً في مجال الرؤية الحاسوبية (CV) في السنوات الأخيرة. ومع ذلك، فإن تطبيق البطل السنوي لـ ILSVRC مباشرةً على مهام التصنيف البصري الدقيق (FGVC) لا يحقق أداءً جيدًا. ففي مهام FGVC، تُعد التغيرات الصغيرة بين الفئات والاختلافات الكبيرة داخل الفئة تحديًا كبيرًا. يُمكن لوحدة تحديد موقع الكائن بالانتباه (AOLM) التنبؤ بموقع الكائن، بينما تُقترح وحدة اقتراح مناطق الأجزاء المهمة (APPM) مناطق أجزاء مفيدة دون الحاجة إلى تسميات مربعات حدودية (bounding-box) أو تسميات أجزاء. تتميز الصور المُستخرجة بالكائنات بوجود الهيكل الكامل تقريبًا للكائن، بالإضافة إلى تفاصيل إضافية، بينما تتميز صور الأجزاء بمقاييس متعددة وسمات أكثر دقة، كما أن الصور الأصلية تحتوي على الكائن الكامل. تُدرَّب هذه الأنواع الثلاثة من الصور باستخدام شبكة متعددة الفروع التي نقترحها. وبالتالي، تمتلك شبكة التعلم متعددة الفروع والمقاييس (MMAL-Net) قدرة تصنيفية قوية ومتانة عالية على صور ذات مقاييس مختلفة. يمكن تدريب منهجنا بشكل متكامل (end-to-end)، مع توفير وقت استنتاج قصير. أظهرت التجارب الشاملة أن منهجنا يحقق نتائج من الطراز الرائد (state-of-the-art) على مجموعات بيانات CUB-200-2011 وFGVC-Aircraft وStanford Cars. سيتم إتاحة الشفرة المصدرية على الرابط: https://github.com/ZF1044404254/MMAL-Net


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp