HyperAIHyperAI
منذ 7 أيام

DiverGen: تحسين التجزئة الواقعة من خلال تعلّم توزيع بيانات أوسع باستخدام بيانات توليدية أكثر تنوعًا

Chengxiang Fan, Muzhi Zhu, Hao Chen, Yang Liu, Weijia Wu, Huaqi Zhang, Chunhua Shen
DiverGen: تحسين التجزئة الواقعة من خلال تعلّم توزيع بيانات أوسع باستخدام بيانات توليدية أكثر تنوعًا
الملخص

التفصيل الحاد يعتمد على كميات كبيرة من البيانات، ومع زيادة قدرة النموذج، تصبح مقياس البيانات حاسمًا لتحسين الدقة. تتطلب معظم مجموعات بيانات التفصيل الحاد اليوم تسمية يدوية مكلفة، مما يحد من حجم البيانات. ويكون النماذج المدربة على مثل هذه البيانات عرضة للانسجام الزائد (overfitting) على مجموعة التدريب، خصوصًا بالنسبة للفئات النادرة. وعلى الرغم من أن الأعمال الحديثة استكشفت استخدام النماذج التوليدية لإنشاء مجموعات بيانات اصطناعية لتعزيز البيانات، إلا أن هذه الأساليب لا تستغل بكفاءة الإمكانات الكاملة للنماذج التوليدية.لحل هذه المشكلات، نقدّم استراتيجية أكثر كفاءة لبناء مجموعات بيانات توليدية لتعزيز البيانات، تُسمى DiverGen. أولاً، نقدّم تفسيرًا لدور البيانات التوليدية من منظور الفجوة في التوزيع. ونستكشف تأثير أنواع مختلفة من البيانات على التوزيع الذي يتعلمه النموذج. ونُجادل بأن البيانات التوليدية يمكن أن توسع نطاق التوزيع الذي يمكن للنموذج تعلّمه، وبالتالي تقليل الانسجام الزائد. علاوة على ذلك، نلاحظ أن تنوع البيانات التوليدية يُعدّ أمرًا حاسمًا لتحسين أداء النموذج، ونعزز هذا التنوع من خلال استراتيجيات مختلفة، منها تنوع الفئة، وتنوع النص التوجيهي (prompt diversity)، وتنوع النماذج التوليدية. وباستخدام هذه الاستراتيجيات، يمكننا توسيع حجم البيانات إلى ملايين العناصر مع الحفاظ على الاتجاه الإيجابي في تحسين أداء النموذج. على مجموعة بيانات LVIS، تتفوّق DiverGen بشكل ملحوظ على النموذج القوي X-Paste، حيث تحقق +1.1 نقطة في AP للصناديق و+1.1 نقطة في AP للأقنعة على جميع الفئات، و+1.9 نقطة في AP للصناديق و+2.5 نقطة في AP للأقنعة بالنسبة للفئات النادرة.

DiverGen: تحسين التجزئة الواقعة من خلال تعلّم توزيع بيانات أوسع باستخدام بيانات توليدية أكثر تنوعًا | أحدث الأوراق البحثية | HyperAI