HyperAIHyperAI
منذ 17 أيام

التكثيف السلبي للبيانات

Abhishek Sinha, Kumar Ayush, Jiaming Song, Burak Uzkent, Hongxia Jin, Stefano Ermon
التكثيف السلبي للبيانات
الملخص

تُستخدم عملية تضخيم البيانات غالبًا لتوسيع المجموعات البيانات من خلال عينات صناعية يتم إنشاؤها وفقًا لتوزيع البيانات الكامن وراءها. ولتمكين مجموعة أوسع من استراتيجيات التضخيم، نستكشف استراتيجيات تضخيم بيانات سالبة (NDA) التي تهدف بشكل متعمد إلى إنشاء عينات خارج التوزيع. نُظهر أن هذه العينات الخارجة عن التوزيع تُقدّم معلومات حول نطاق توزيع البيانات، ويمكن استغلالها في النمذجة التوليدية والتعلم التمثيلي. نقدّم هدفًا جديدًا لتدريب الشبكات العصبية التوليدية (GAN) حيث نستخدم NDA كمصدر إضافي للبيانات الاصطناعية للمُميّز. ونُثبت أنه تحت ظروف مناسبة، فإن تحسين هذا الهدف لا يزال يُعيد استرجاع توزيع البيانات الحقيقي، ولكنه يمكن أن يُوجّه مباشرة المُولّد إلى تجنب العينات التي تفتقر إلى البنية المرغوبة. من الناحية التجريبية، تُظهر النماذج المدربة باستخدام طريقتنا تحسنًا في توليد الصور المشروطة/غير المشروطة، فضلًا عن تحسين قدرات كشف الشذوذ. علاوةً على ذلك، نُدمج نفس استراتيجية تضخيم البيانات السالبة في إطار تعلم تناضري لتعلم التمثيل التلقائي للصور والفيديوهات، مما يؤدي إلى تحسين الأداء في مهام تصنيف الصور، وكشف الكائنات، وتحديد الأفعال في المهام اللاحقة. تشير هذه النتائج إلى أن المعرفة السابقة حول ما لا يُعد بيانات صالحة تمثل شكلًا فعّالًا من أشكال التدريب الضعيف عبر مجموعة متنوعة من مهام التعلم غير المراقب.

التكثيف السلبي للبيانات | أحدث الأوراق البحثية | HyperAI