HyperAIHyperAI
منذ 15 أيام

نموذجات اللغة هي مُولِّدات واقعية للبيانات الجدولية

Vadim Borisov, Kathrin Seßler, Tobias Leemann, Martin Pawelczyk, Gjergji Kasneci
نموذجات اللغة هي مُولِّدات واقعية للبيانات الجدولية
الملخص

تُعد البيانات الجدولية واحدة من أقدم وأكثر أشكال البيانات انتشارًا. ومع ذلك، لا يزال إنشاء عينات اصطناعية تمتلك خصائص البيانات الأصلية تحديًا كبيرًا في مجال البيانات الجدولية. وعلى الرغم من أن العديد من النماذج التوليدية المستمدة من مجال الرؤية الحاسوبية، مثل التشفيرات التلقائية التباينية (VAEs) أو الشبكات التوليدية التنافسية (GANs)، قد تم تكييفها لغرض إنشاء بيانات جدولية، إلا أن الاهتمام الأقل قد تم توجيهه نحو النماذج الكبيرة القائمة على المحولات (LLMs) المستندة إلى المحولات، والتي تتميز أيضًا بطبيعتها التوليدية. وللإجابة على هذا التحدي، نقترح نموذج GReaT (إنشاء بيانات جدولية واقعية)، الذي يستفيد من نموذج لغة كبير توليدية ذاتية التسلسل (auto-regressive) لإنشاء عينات جدولية اصطناعية وواقعية للغاية. علاوة على ذلك، يمكن لـ GReaT نمذجة توزيعات البيانات الجدولية من خلال التكييف على أي مجموعة جزئية من الميزات؛ حيث يتم عينة الميزات المتبقية دون أي تكلفة إضافية. ونُظهر فعالية النهج المقترح من خلال سلسلة من التجارب التي تقيس صحة ونوعية العينات الناتجة من جوانب متعددة. ونجد أن GReaT يحافظ على أداء متقدم على مستوى الحد الأقصى في العديد من مجموعات البيانات الحقيقية والاصطناعية ذات أنواع ميزات متنوعة وحجم مختلف.

نموذجات اللغة هي مُولِّدات واقعية للبيانات الجدولية | أحدث الأوراق البحثية | HyperAI