HyperAIHyperAI

Command Palette

Search for a command to run...

نموذجات اللغة هي مُولِّدات واقعية للبيانات الجدولية

Vadim Borisov Kathrin Seßler Tobias Leemann Martin Pawelczyk Gjergji Kasneci

الملخص

تُعد البيانات الجدولية واحدة من أقدم وأكثر أشكال البيانات انتشارًا. ومع ذلك، لا يزال إنشاء عينات اصطناعية تمتلك خصائص البيانات الأصلية تحديًا كبيرًا في مجال البيانات الجدولية. وعلى الرغم من أن العديد من النماذج التوليدية المستمدة من مجال الرؤية الحاسوبية، مثل التشفيرات التلقائية التباينية (VAEs) أو الشبكات التوليدية التنافسية (GANs)، قد تم تكييفها لغرض إنشاء بيانات جدولية، إلا أن الاهتمام الأقل قد تم توجيهه نحو النماذج الكبيرة القائمة على المحولات (LLMs) المستندة إلى المحولات، والتي تتميز أيضًا بطبيعتها التوليدية. وللإجابة على هذا التحدي، نقترح نموذج GReaT (إنشاء بيانات جدولية واقعية)، الذي يستفيد من نموذج لغة كبير توليدية ذاتية التسلسل (auto-regressive) لإنشاء عينات جدولية اصطناعية وواقعية للغاية. علاوة على ذلك، يمكن لـ GReaT نمذجة توزيعات البيانات الجدولية من خلال التكييف على أي مجموعة جزئية من الميزات؛ حيث يتم عينة الميزات المتبقية دون أي تكلفة إضافية. ونُظهر فعالية النهج المقترح من خلال سلسلة من التجارب التي تقيس صحة ونوعية العينات الناتجة من جوانب متعددة. ونجد أن GReaT يحافظ على أداء متقدم على مستوى الحد الأقصى في العديد من مجموعات البيانات الحقيقية والاصطناعية ذات أنواع ميزات متنوعة وحجم مختلف.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp