HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّل رؤية الهرم المُجمَّع: استراتيجية التقسيم-التحويل-الدمج للتعرف على الصور دون استخدام التحويلات التلافيفية

Rui-Yang Ju Ting-Yu Lin Jen-Shiun Chiang Jia-Hao Jian Yu-Shian Lin Liu-Rui-Yi Huang

الملخص

بفضل الإنجازات التي حققها نموذج Transformer في مجال معالجة اللغة الطبيعية، تم تطبيق مكونات التشفير-فك التشفير والآلية الانتباه في مجال الرؤية الحاسوبية. في الآونة الأخيرة، تم دمج بعض المفاهيم الخاصة بـ Transformer في الشبكات العصبية التلافيفية المتطورة في العديد من المهام الحاسوبية (مثل تصنيف الصور، الكشف عن الكائنات، التجزئة الدلالية)، مما يدل على أن لـ Transformer مستقبل واعد في مجال التعرف على الصور. وبعد ظهور نموذج Vision Transformer، بدأ عدد متزايد من الدراسات في استخدام الانتباه الذاتي لاستبدال طبقة التلافيف بشكل كامل. وتُعد هذه الدراسة مبنية على نموذج Vision Transformer، مع دمج هيكل هرمي، واستخدام آلية التقسيم-التحويل-الدمج لتقديم مُشفر مجموعاتي، وتم تسمية البنية المعمارية للشبكة بـ "المحول البصري الهرمي المجمّع" (APVT). قمنا بإجراء مهام تصنيف الصور على مجموعة بيانات CIFAR-10، ومهام الكشف عن الكائنات على مجموعة بيانات COCO 2017. ومقارنةً ببنية شبكات أخرى تعتمد على Transformer كعمود فقري، أظهر APVT أداءً متميزًا مع تقليل التكلفة الحسابية. ونأمل أن تُعد هذه الاستراتيجية المحسّنة مرجعًا مفيدًا لأبحاث المستقبل المتعلقة بـ Transformer في مجال الرؤية الحاسوبية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp