HyperAIHyperAI
منذ 17 أيام

GPT-4o كمعيار ذهبي: نهج قابل للتوسع وشامل لتصفية بيانات التدريب النموذج اللغوي

Jifan Zhang, Ziyue Luo, Jia Liu, Ness Shroff, Robert Nowak
GPT-4o كمعيار ذهبي: نهج قابل للتوسع وشامل لتصفية بيانات التدريب النموذج اللغوي
الملخص

تتطلب النماذج اللغوية الكبيرة كميات هائلة من بيانات التدريب عالية الجودة، لكن التصفية الفعّالة لمجموعات البيانات على نطاق الويب تظل تحديًا كبيرًا. يُظهر هذا البحث أن نموذج GPT-4o فعّال بشكل ملحوظ في التعرف على بيانات التدريب عالية الجودة، لكن تكلفته الباهظة تجعله غير عملي على نطاق واسع. نقترح SIEVE، بديل خفيف الوزن يُحقق دقة مماثلة لـ GPT-4o بتكلفة أقل من 1% من تكلفة GPT-4o. يمكن 통 SIEVE إجراء ما يصل إلى 500 عملية تصفية بتكلفة استدعاء واحد لـ GPT-4o. ويتمثل السر وراء SIEVE في دمج سلس بين GPT-4o والنماذج الخفيفة لتصنيف النصوص، باستخدام التعلم النشط لضبط هذه النماذج بدقة في الخلفية بفضل عدد قليل من الاستدعاءات إلى GPT-4o. وبعد التدريب، تعمل SIEVE بجودة مماثلة لـ GPT-4o بتكلفة ضئيلة جدًا. وباستخدام أكواد تصفية مختلفة، يمكن لـ SIEVE تجميع بيانات عالية الجودة للنطاقات العامة أو المتخصصة من مجموعات بيانات واسعة النطاق — وهي ميزة قيمة بالنظر إلى الندرة الحالية لبيانات متخصصة عالية الجودة. أظهرت تجارب واسعة باستخدام مقاييس تقييم تلقائية وبشرية أن SIEVE وGPT-4o يحققان أداءً مماثلًا في خمسة أكواد تصفية متخصصة للغاية. بالإضافة إلى ذلك، عند إجراء التصفية النوعية على مجموعات بيانات استخلاص الويب، نُظهر أن SIEVE يمكنها تحسين الأداء مقارنة بأفضل الطرق الحالية في تصفية الجودة ضمن مسابقة DataComp-LM لاختيار بيانات التدريب المسبقة للنماذج اللغوية الكبيرة.