RAFT: معيار تصنيف نصي قليل التدريب في العالم الحقيقي

أظهرت النماذج اللغوية الكبيرة المُدرَّبة مسبقًا إمكانات واعدة في التعلم القليل (few-shot learning)، حيث تُكمل المهام القائمة على النصوص باستخدام عدد قليل جدًا من الأمثلة المخصصة للمهمة. هل ستصبح النماذج قريبًا قادرة على حل مهام التصنيف التي بقيت حتى الآن مخصصة للمساعدين البشريين في البحث؟ لا تُصمم المعايير الحالية لقياس التقدم في البيئات التطبيقية، وبالتالي لا تجيب مباشرة على هذا السؤال. يركّز معيار RAFT (المهام القليلة المُعلَّقة في العالم الحقيقي) على المهام التي تحدث بشكل طبيعي، ويستخدم بيئة تقييم تعكس الواقع الميداني للنشر. أظهرت التقييمات الأساسية على RAFT مناطق يواجه فيها الأسلوب الحالي صعوبات: الاستدلال على النصوص الطويلة، والمهام التي تحتوي على عدد كبير من الفئات. تُظهر النماذج البشرية أن بعض مهام التصنيف صعبة حتى على البشر غير المتخصصين، مما يعكس أن القيمة الحقيقية في بعض الأحيان تعتمد على الخبرة المتخصصة. ومع ذلك، تفوقت نماذج البشر غير المتخصصين في متوسط نقاط F1 على GPT-3 بنسبة 0.11. يمكن تتبع تقدم النماذج وتأثيرها على الفوائد الواقعية من خلال مجموعات بيانات RAFT والجدول التصنيفي على الرابط: https://raft.elicit.org.