HyperAIHyperAI

Command Palette

Search for a command to run...

مُرَتِّب: LSTM العميقة للتصنيف الصوري

Yuki Tatsunami Masato Taki

الملخص

في البحوث الحديثة في مجال الرؤية الحاسوبية، أحدث ظهور نموذج التحويل البصري (Vision Transformer - ViT) ثورة سريعة في جهود إعادة تصميم الهياكل المعمارية: حيث حقق ViT أداءً متقدمًا في تصنيف الصور باستخدام آلية الانتباه الذاتي التي ظهرت في معالجة اللغة الطبيعية، في حين حقق نموذج MLP-Mixer أداءً تنافسيًا باستخدام شبكة عصبية متعددة الطبقات بسيطة. على النقيض من ذلك، أشارت عدة دراسات إلى أن إعادة تصميم دقيق لشبكات التعلم التلافيفي (CNNs) يمكن أن تحقق أداءً متقدمًا مقارنًا بـ ViT دون الاعتماد على هذه الأفكار الجديدة. وفي هذا السياق، تزداد الاهتمامات بتحديد ما هو التحيز الاستنتاجي المناسب لرؤية الحاسوب. ولهذا نقترح "Sequencer"، وهي بنية مبتكرة وتنافسية بديلة لـ ViT، تقدم منظورًا جديدًا لمعالجة هذه القضايا. على عكس ViT، يستخدم Sequencer خوارزميات LSTM لتمثيل الاعتماديات الطويلة المدى بدلًا من استخدام طبقات الانتباه الذاتي. كما نقترح نسخة ثنائية الأبعاد من وحدة Sequencer، حيث يتم تحليل LSTM إلى LSTM عمودية وLSTM أفقية لتعزيز الأداء. وعلى الرغم من بساطة هيكلها، تُظهر عدة تجارب أن Sequencer يؤدي بأداء مبهر: حيث حقق نموذج Sequencer2D-L، الذي يحتوي على 54 مليون معلمة، دقة تبلغ 84.6% في التصنيف الأولي على مجموعة بيانات ImageNet-1K فقط. ولا يقتصر الأمر على ذلك، بل نُظهر أيضًا أن النموذج يتمتع بقدرة نقل جيدة، وبقدرة عالية على التكيف مع التغيرات في الدقة، حتى عند التضاعف في الدقة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp