منذ 11 أيام

تحسين نماذج اللغة الكبيرة لتصبح منشئات بيانات أفضل

Dong-Ho Lee, Jay Pujara, Mohit Sewak, Ryen W. White, Sujay Kumar Jauhar

الملخص

على الرغم من التقدم الكبير الذي أحرزته النماذج اللغوية الكبيرة (LLMs) في تحسين الحالة الراهنة لمعالجة اللغة الطبيعية (NLP)، إلا أن تطبيقها في التطبيقات النهائية ما زال يواجه تحديات كبيرة ناتجة عن التكاليف، والاستجابة، والتحكم، بالإضافة إلى المخاوف المتعلقة بالخصوصية والأمن. ولهذا السبب، لا يزال النماذج القابلة للتدريب الخيار المفضل في بعض الحالات. ومع ذلك، فإن هذه النماذج تتطلب ما زال بيانات مُعلَّمة يدويًا لتحقيق الأداء المثالي، وهي عملية مكلفة وطويلة الأمد. ولحل هذه المشكلة، تم اقتراح عدة تقنيات تهدف إلى تقليل الجهد البشري المطلوب في تسمية البيانات أو إنشائها باستخدام النماذج اللغوية الكبيرة. وعلى الرغم من فعالية هذه الأساليب في تطبيقات معينة، إلا أنها تواجه صعوبات عملية في السياقات الواقعية. فتسمية البيانات تتطلب اختيارًا دقيقًا للبيانات، بينما يتطلب إنشاء البيانات هندسة محددة للمسارات (prompt engineering) حسب المهمة. في هذه الورقة، نقترح نموذجًا موحدًا لإنشاء البيانات يتطلب فقط مثالًا واحدًا لتنسيق البيانات، وهو نموذج يمكن تطبيقه على طيف واسع من المهام، بما في ذلك المهام التقليدية التي تواجه صعوبات بسبب مساحات التسميات الخالية من المعنى. ونُظهر في تجاربنا أن النماذج اللغوية الكبيرة التي تتبع التعليمات تكون فعالة جدًا من حيث التكلفة في إنشاء البيانات، وأن النماذج المدربة باستخدام هذه البيانات تُظهر أداءً أفضل من تلك المدربة على بيانات مُعلَّمة يدويًا (بما يصل إلى 17.5٪) في تقييمات البيانات غير الموزعة، مع الحفاظ على أداء مماثل في المهام الموزعة داخليًا. تُبرز هذه النتائج أهمية كبيرة فيما يتعلق بمتانة أنظمة معالجة اللغة الطبيعية عند تطبيقها في البيئات الواقعية.