HyperAIHyperAI

Command Palette

Search for a command to run...

مُحَوِّلات التبديل التلافيفية للرؤية

Pranav Jeevan Amit sethi

الملخص

لقد وجدت النماذج القائمة على التحويل البصري (ViTs) استخدامًا عمليًا محدودًا في معالجة الصور، رغم دقتها القياسية على بعض المعايير. ويعود السبب في هذا الاستخدام المحدود إلى حاجتها لقواعد بيانات تدريب أكبر، وموارد حوسبة أكثر مقارنةً بالشبكات العصبية التلافيفية (CNNs)، وذلك بسبب التعقيد التربيعي لآلية الانتباه الذاتي. نقترح معمارية هجينة مبنية على الانتباه الخطي والتفصيل التلافيفي – تُسمى "المحولات التلافيفية للرؤية" (Convolutional X-formers for Vision (CXV)) – للتغلب على هذه القيود. نستبدل الانتباه التربيعي بآليات انتباه خطية، مثل Performer وNyströmformer وLinear Transformer، بهدف تقليل استهلاك وحدات معالجة الرسومات (GPU). كما نوفر معلومات استنتاجية (inductive prior) للبيانات البصرية من خلال وحدات تلافيفية فرعية، مما يُلغِي الحاجة إلى استخدام رمز الفئة (class token) والتمثيلات المكانية (positional embeddings) التي تُستخدم في نماذج ViTs. بالإضافة إلى ذلك، نقترح طريقة تدريب جديدة نستخدم فيها مُحسِّنَين مختلفين خلال مراحل مختلفة من التدريب، ونُظهر أن هذه الطريقة تُحسِّن دقة التصنيف الصوتي (top-1) في تصنيف الصور عبر معماريّات مختلفة. وتتفوّق CXV على غيرها من المعماريّات، بما في ذلك مُختَلِطات الرموز (مثل ConvMixer وFNet وMLP Mixer)، والنماذج القائمة على التحويل (مثل ViT وCCT وCvT والمحولات الهجينة)، والشبكات العصبية المُعادَة (ResNets) في مهام تصنيف الصور في السياقات التي تفتقر إلى البيانات والموارد الحاسوبية المحدودة (عدد النوى، الذاكرة العشوائية، الطاقة).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp