HyperAIHyperAI
منذ 17 أيام

تحسين نماذج التحويل البصري من خلال إعادة النظر في المكونات ذات التردد العالي

Jiawang Bai, Li Yuan, Shu-Tao Xia, Shuicheng Yan, Zhifeng Li, Wei Liu
تحسين نماذج التحويل البصري من خلال إعادة النظر في المكونات ذات التردد العالي
الملخص

أظهرت نماذج المحول (Transformer) كفاءة واعدة في التعامل مع مهام الرؤية المختلفة. ومع ذلك، مقارنةً بتدريب نماذج الشبكات العصبية التلافيفية (CNN)، فإن تدريب نماذج المحول البصري (ViT) يكون أكثر صعوبة، ويعتمد بشكل أكبر على مجموعات تدريب ضخمة. ولتفسير هذه الملاحظة، نطرح فرضية مفادها أن نماذج ViT أقل فعالية في التقاط المكونات عالية التردد في الصور مقارنة بنماذج CNN، ونتحقق من صحتها من خلال تحليل ترددي. مستوحين من هذا الاكتشاف، نقوم أولًا بدراسة تأثير التقنيات الحالية المُستخدمة لتحسين نماذج ViT من منظور ترددي جديد، ونكتشف أن نجاح بعض هذه التقنيات (مثل RandAugment) يمكن تفسيره من خلال استخدام أكثر فعالية للمكونات عالية التردد. ثم، لتعويض هذه القدرة المحدودة في نماذج ViT، نقترح HAT، وهي طريقة تقوم بتعزيز مكونات التردد العالي في الصور مباشرةً من خلال التدريب العدواني. نُظهر أن HAT يمكنها تحسين أداء مختلف نماذج ViT بشكل متسق (مثل +1.2% لنموذج ViT-B، و+0.5% لنموذج Swin-B)، وخصوصًا تحسين النموذج المتقدم VOLO-D5 إلى 87.3%، والذي يستخدم فقط بيانات ImageNet-1K، كما تُبقي هذه الميزة على تفوقها في البيانات خارج التوزيع، وتمتد فعاليتها إلى المهام التالية. يمكن الاطلاع على الكود على الرابط التالي: https://github.com/jiawangbai/HAT.

تحسين نماذج التحويل البصري من خلال إعادة النظر في المكونات ذات التردد العالي | أحدث الأوراق البحثية | HyperAI