HyperAIHyperAI
منذ 9 أيام

تعلم البيانات غير المتوازنة باستخدام نماذج الرؤية التحويلية

Zhengzhuo Xu, Ruikang Liu, Shuo Yang, Zenghao Chai, Chun Yuan
تعلم البيانات غير المتوازنة باستخدام نماذج الرؤية التحويلية
الملخص

تُعد البيانات الواقعية غالبًا غير متوازنة بشدة، مما يؤدي إلى تشويه كبير للشبكات العصبية العميقة القائمة على البيانات، ما يجعل التعرف على التوزيع الطويل الذيل (Long-Tailed Recognition - LTR) مهمة بالغة الصعوبة. تُركّز الطرق الحالية لـ LTR نادرًا على تدريب نماذج الرؤية المُتعددة (Vision Transformers - ViTs) باستخدام بيانات ذات توزيع طويل الذيل (LT)، في حين أن استخدام أوزان التدريب المسبق الجاهزة (off-the-shelf pretrain weights) لـ ViTs يؤدي غالبًا إلى مقارنات غير عادلة. في هذا البحث، نُجري دراسة منهجية لأداء ViTs في سياق LTR، ونُقدّم نموذج LiVT الذي يُدرّب ViTs من الصفر باستخدام بيانات LT فقط. وبملاحظة أن ViTs تعاني من مشكلات LTR بشكل أكثر حدة، نُطبّق تدريبًا توليديًا مُقنّعًا (Masked Generative Pretraining - MGP) لتعلم سمات عامة وشاملة. وبإثباتات وافرة وقوية، نُظهر أن MGP أكثر مقاومة من الطرق المُراقبة. علاوة على ذلك، يواجه خسارة التقسيم الثنائي (Binary Cross Entropy - BCE)، التي تُظهر أداءً مميزًا مع ViTs، صعوبات كبيرة في سياق LTR. ولحل هذه المشكلة، نُقدّم خسارة BCE المتوازنة (Bal-BCE) بأسس نظرية قوية. وبشكل خاص، نُشتق امتدادًا غير متحيز لدالة السيفويد (Sigmoid)، ونُضيف هامشًا إضافيًا للإدخال (logit margin) لتطبيقها. تُسهم Bal-BCE في تحقيق تقارب سريع لـ ViTs خلال بضع دورات تدريب فقط. تُظهر التجارب الواسعة أن استخدام MGP وBal-BCE يُمكّن LiVT من تدريب ViTs بشكل فعّال دون الحاجة إلى بيانات إضافية، ويُفوق بوضوح الطرق المُماثلة من الدرجة الأولى، مثل تحقيق نموذج ViT-B دقة Top-1 تبلغ 81.0% في مجموعة بيانات iNaturalist 2018 دون أي إضافات تقنية. يُتاح الكود عبر الرابط: https://github.com/XuZhengzhuo/LiVT.

تعلم البيانات غير المتوازنة باستخدام نماذج الرؤية التحويلية | أحدث الأوراق البحثية | HyperAI