HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه متعدد الأسطح للنماذج البصرية من نوع التحويلة

Dimitrios Konstantinidis Ilias Papastratis Kosmas Dimitropoulos Petros Daras

الملخص

أصبحت نماذج التحويل البصري (Vision Transformers) شائعة جدًا في الوقت الراهن بفضل أدائها المتميز في العديد من مهام الرؤية الحاسوبية، مثل تصنيف الصور وتمييز الحركات. وعلى الرغم من تحسين أدائها بشكل كبير من خلال تضمين تمثيلات وحدات مفصلة للغاية (patch embeddings) وهيكل هرمي، إلا أن هناك بحوثًا محدودة جدًا حول استغلال تمثيلات بيانات إضافية بهدف تحسين خريطة الانتباه الذاتي (self-attention map) في نموذج التحويل. ولحل هذه المشكلة، تم اقتراح آلية انتباه جديدة تُعرف بـ "الانتباه المتعدد العوامل متعدد الرؤوس" (multi-manifold multihead attention) في هذا العمل، وذلك كبديل للآلية الافتراضية للانتباه الذاتي في نموذج التحويل. تعتمد الآلية المقترحة على نمذجة فضاء المدخلات في ثلاث مناطق هندسية متميزة، هي: الفضاء الإقليدي (Euclidean)، والفضاء الموجب المتماثل (Symmetric Positive Definite)، وفضاء جراسمن (Grassmann)، مما يتيح الاستفادة من الخصائص الإحصائية والهندسية المختلفة للمدخلات لحساب خريطة انتباه دقيقة وغنية بالتفاصيل. وبهذه الطريقة، يمكن للآلية المقترحة توجيه نموذج التحويل البصري ليكون أكثر تركيزًا على السمات المهمة في الصورة، مثل المظهر واللون والملمس، مما يؤدي إلى تحسين نتائج التصنيف والتقسيم، كما أظهرت النتائج التجريبية على مجموعات بيانات معروفة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp