HyperAIHyperAI
منذ 2 أشهر

MixPro: زيادة البيانات باستخدام MaskMix و التسمية التدريجية للاهتمام لـ Vision Transformer

Zhao, Qihao ; Huang, Yangyu ; Hu, Wei ; Zhang, Fan ; Liu, Jun
MixPro: زيادة البيانات باستخدام MaskMix و التسمية التدريجية للاهتمام لـ Vision Transformer
الملخص

التوسيع المقترح حديثًا للبيانات TransMix يستخدم ملصقات الانتباه لمساعدة المتحولات البصرية (ViT) في تحقيق متانة أفضل وأداء أعلى. ومع ذلك، يعاني TransMix من نقصين: 1) طريقة قص الصور في TransMix قد لا تكون مناسبة للمتحولات البصرية. 2) في بداية التدريب، تنتج النموذج خرائط انتباه غير موثوقة. يستخدم TransMix هذه الخرائط غير الموثوقة لحساب ملصقات الانتباه المختلطة التي يمكن أن تؤثر على النموذج. لحل المشكلات المذكورة أعلاه، نقترح MaskMix وتقنيات التسمية التدريجية للانتباه (Progressive Attention Labeling - PAL) في فضاء الصور وفضاء الملصقات، على التوالي.بالتفصيل، من وجهة نظر فضاء الصور، صممنا MaskMix، الذي يجمع بين صورتين بناءً على قناع شبكي شبيه بالشظايا. بصفة خاصة، يمكن ضبط حجم كل شظية من القناع وهو مضاعف لحجم الشظية في الصورة، مما يضمن أن كل شظية صورة تأتي من صورة واحدة فقط وتتضمن المزيد من المحتويات العالمية. ومن وجهة نظر فضاء الملصقات، صممنا PAL، الذي يستخدم عاملًا تدريجيًا لإعادة وزن اوزان الانتباه في ملصق الانتباه المختلط بشكل ديناميكي.في النهاية، ندمج بين MaskMix وتقنيات التسمية التدريجية للانتباه كطريقة جديدة لتوسيع البيانات باسم MixPro. تظهر النتائج التجريبية أن طريقتنا يمكن أن تحسن مجموعة متنوعة من النماذج المستندة إلى ViT بمختلف الأحجام في تصنيف ImageNet (دقة 73.8٪ في المركز الأول بناءً على DeiT-T لمدة 300 عقد). بعد التدريب السابق باستخدام MixPro على ImageNet، أظهرت أيضًا النماذج المستندة إلى ViT قابلية انتقال أفضل إلى تقسيم المعنى والكشف عن الكائنات والتقسيم الإنشائي. بالإضافة إلى ذلك، مقارنة بـ TransMix، أظهر MixPro متانة أقوى في عدة مقاييس.يتوفر الرمز البرمجي عبر الرابط التالي: https://github.com/fistyee/MixPro.

MixPro: زيادة البيانات باستخدام MaskMix و التسمية التدريجية للاهتمام لـ Vision Transformer | أحدث الأوراق البحثية | HyperAI