HyperAIHyperAI

Command Palette

Search for a command to run...

GPT-4o كمعيار ذهبي: نهج قابل للتوسع وشامل لتصفية بيانات التدريب النموذج اللغوي

Jifan Zhang Ziyue Luo Jia Liu Ness Shroff Robert Nowak

الملخص

تتطلب النماذج اللغوية الكبيرة كميات هائلة من بيانات التدريب عالية الجودة، لكن التصفية الفعّالة لمجموعات البيانات على نطاق الويب تظل تحديًا كبيرًا. يُظهر هذا البحث أن نموذج GPT-4o فعّال بشكل ملحوظ في التعرف على بيانات التدريب عالية الجودة، لكن تكلفته الباهظة تجعله غير عملي على نطاق واسع. نقترح SIEVE، بديل خفيف الوزن يُحقق دقة مماثلة لـ GPT-4o بتكلفة أقل من 1% من تكلفة GPT-4o. يمكن 통 SIEVE إجراء ما يصل إلى 500 عملية تصفية بتكلفة استدعاء واحد لـ GPT-4o. ويتمثل السر وراء SIEVE في دمج سلس بين GPT-4o والنماذج الخفيفة لتصنيف النصوص، باستخدام التعلم النشط لضبط هذه النماذج بدقة في الخلفية بفضل عدد قليل من الاستدعاءات إلى GPT-4o. وبعد التدريب، تعمل SIEVE بجودة مماثلة لـ GPT-4o بتكلفة ضئيلة جدًا. وباستخدام أكواد تصفية مختلفة، يمكن لـ SIEVE تجميع بيانات عالية الجودة للنطاقات العامة أو المتخصصة من مجموعات بيانات واسعة النطاق — وهي ميزة قيمة بالنظر إلى الندرة الحالية لبيانات متخصصة عالية الجودة. أظهرت تجارب واسعة باستخدام مقاييس تقييم تلقائية وبشرية أن SIEVE وGPT-4o يحققان أداءً مماثلًا في خمسة أكواد تصفية متخصصة للغاية. بالإضافة إلى ذلك، عند إجراء التصفية النوعية على مجموعات بيانات استخلاص الويب، نُظهر أن SIEVE يمكنها تحسين الأداء مقارنة بأفضل الطرق الحالية في تصفية الجودة ضمن مسابقة DataComp-LM لاختيار بيانات التدريب المسبقة للنماذج اللغوية الكبيرة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp