هل يمكن للنماذج الأساسية تنظيم بياناتك؟

النماذج الأساسية (FMs) هي نماذج تُدرَّب على مجموعات بيانات كبيرة، ويمكنها في المقياس الكبير التعميم على مهام جديدة دون الحاجة إلى التدرُّب الدقيق المخصص لكل مهمة. ومع استمرار نمو هذه النماذج، تستمر الابتكارات في دفع حدود ما يمكن لهذه النماذج إنجازه في المهام اللغوية والصورية. يهدف هذا البحث إلى فهم مجال غير مُستكشف بالكفاية ضمن النماذج الأساسية: المهام التقليدية المتعلقة بالبيانات مثل التنظيف والدمج. كدليل تجريبي، قمنا بتحويل خمسة مهام للتنظيف والدمج البيانات إلى مهام توجيه (prompting) وتقييم أداء النماذج الأساسية عليها. ووجدنا أن النماذج الأساسية الكبيرة تتمتع بقدرة تعميم عالية وتُحقق أداءً يُعدّ الأفضل في مجالها (SoTA) في مهام تنظيف ودمج البيانات، حتى وإن لم تُدرَّب خصيصًا على هذه المهام. كما حددنا تحديات بحثية محددة وفرصًا مُتاحة من خلال هذه النماذج، بما في ذلك التحديات المرتبطة بالبيانات الخاصة والبيانات الخاصة بمجالات محددة، فضلاً عن الفرص المتوفرة لجعل أنظمة إدارة البيانات أكثر سهولة في الاستخدام بالنسبة للمستخدمين غير المتخصصين. نُعلن عن توفر الكود والتجارب الخاصة بنا بشكل عام عبر الرابط التالي: https://github.com/HazyResearch/fm_data_tasks.