HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين نماذج التحويل البصري من خلال إعادة النظر في المكونات ذات التردد العالي

Jiawang Bai Li Yuan Shu-Tao Xia Shuicheng Yan Zhifeng Li Wei Liu

الملخص

أظهرت نماذج المحول (Transformer) كفاءة واعدة في التعامل مع مهام الرؤية المختلفة. ومع ذلك، مقارنةً بتدريب نماذج الشبكات العصبية التلافيفية (CNN)، فإن تدريب نماذج المحول البصري (ViT) يكون أكثر صعوبة، ويعتمد بشكل أكبر على مجموعات تدريب ضخمة. ولتفسير هذه الملاحظة، نطرح فرضية مفادها أن نماذج ViT أقل فعالية في التقاط المكونات عالية التردد في الصور مقارنة بنماذج CNN، ونتحقق من صحتها من خلال تحليل ترددي. مستوحين من هذا الاكتشاف، نقوم أولًا بدراسة تأثير التقنيات الحالية المُستخدمة لتحسين نماذج ViT من منظور ترددي جديد، ونكتشف أن نجاح بعض هذه التقنيات (مثل RandAugment) يمكن تفسيره من خلال استخدام أكثر فعالية للمكونات عالية التردد. ثم، لتعويض هذه القدرة المحدودة في نماذج ViT، نقترح HAT، وهي طريقة تقوم بتعزيز مكونات التردد العالي في الصور مباشرةً من خلال التدريب العدواني. نُظهر أن HAT يمكنها تحسين أداء مختلف نماذج ViT بشكل متسق (مثل +1.2% لنموذج ViT-B، و+0.5% لنموذج Swin-B)، وخصوصًا تحسين النموذج المتقدم VOLO-D5 إلى 87.3%، والذي يستخدم فقط بيانات ImageNet-1K، كما تُبقي هذه الميزة على تفوقها في البيانات خارج التوزيع، وتمتد فعاليتها إلى المهام التالية. يمكن الاطلاع على الكود على الرابط التالي: https://github.com/jiawangbai/HAT.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين نماذج التحويل البصري من خلال إعادة النظر في المكونات ذات التردد العالي | مستندات | HyperAI