HyperAIHyperAI
منذ 15 أيام

توليد البيانات الجدولية باستخدام الت(diffusion) الثنائي

Vitaliy Kinakh, Slava Voloshynovskiy
توليد البيانات الجدولية باستخدام الت(diffusion) الثنائي
الملخص

يُعد إنشاء بيانات جدولية اصطناعية أمرًا بالغ الأهمية في التعلم الآلي، خصوصًا عندما تكون البيانات الحقيقية محدودة أو حساسة. غالبًا ما تواجه النماذج التوليدية التقليدية صعوبات نظرًا للخصائص الفريدة للبيانات الجدولية، مثل التنوع في أنواع البيانات والتوزيعات المختلفة، وتتطلب معالجة مسبقة معقدة أو نماذج مُدرّبة مسبقًا كبيرة الحجم. في هذه الورقة البحثية، نقدّم طريقة جديدة وبدون فقدان (Lossless) لتحويل أي بيانات جدولية إلى تمثيلات ثنائية بحجم ثابت، إلى جانب نموذج توليد جديد يُسمى "Binary Diffusion"، مصمم خصيصًا للبيانات الثنائية. يعتمد Binary Diffusion على بساطة عمليات XOR لإضافات الضوضاء وإزالتها، ويستخدم خسارة التقاطع الثنائي (Binary Cross-Entropy Loss) أثناء التدريب. تُلغِي هذه الطريقة الحاجة إلى معالجة مسبقة واسعة النطاق، أو ضبط معاملات الضوضاء المعقدة، أو التدريب المسبق على مجموعات بيانات كبيرة. وقد قمنا بتقييم نموذجنا على عدة مجموعات بيانات معيارية شهيرة للبيانات الجدولية، حيث أظهر Binary Diffusion أداءً أفضل من النماذج الحالية الرائدة في مجموعات بيانات Travel وAdult Income وDiabetes، مع الحفاظ على حجم نموذج أصغر بشكل ملحوظ.

توليد البيانات الجدولية باستخدام الت(diffusion) الثنائي | أحدث الأوراق البحثية | HyperAI