تصنيف التحفيز الهرمي: إطار تقييم عالمي للنماذج اللغوية الكبيرة

تقييم فعالية النماذج اللغوية الكبيرة (LLMs) في التعامل مع مهام متنوعة يُعد أمرًا ضروريًا لفهم نقاط قوتها وضعفها. تُطبّق الأساليب التقليدية لتقييم الأداء استراتيجية توجيه واحدة بشكل موحد عبر جميع المجموعات البيانات، دون أخذ التباين في درجة تعقيد المهام بعين الاعتبار. نُقدّم هنا "التصنيف الهرمي لتوجيه النماذج" (HPT)، وهو تصنيف يعتمد على "إطار توجيه هرمي" (HPF) يتكون من خمس استراتيجيات توجيه فريدة، مرتبة من الأسهل إلى الأعقد، بهدف تقييم النماذج اللغوية الكبيرة بدقة أكبر، وتقديم رؤية أوضح في هذا الصدد. يُخصّص هذا التصنيف درجةً تُسمى "درجة التوجيه الهرمي" (HP-Score) لكل من المجموعات البيانات والنماذج اللغوية الكبيرة، بناءً على قواعد التصنيف، مما يوفر فهمًا دقيقًا لقدرتها على حل مهام متنوعة، ويقدّم مقياسًا عالميًا لتعقيد المهام. علاوةً على ذلك، نُقدّم إطار "التوجيه الهرمي التكيفي" (Adaptive Hierarchical Prompt)، الذي يُمكّن من تلقائيًا اختيار الاستراتيجية المناسبة للتوجيه لكل مهمة. وقد قارنت هذه الدراسة بين الإطار الهرمي اليدوي والهيكل التكيفي باستخدام أربع نماذج لغوية كبرى مُدرّبة على التعليمات، هي: Llama 3 8B، وPhi 3 3.8B، وMistral 7B، وGemma 7B، عبر أربع مجموعات بيانات: BoolQ، وCommonSenseQA (CSQA)، وIWSLT-2017 en-fr (IWSLT)، وSamSum. أظهرت التجارب فعالية HPT، وقدمت طريقة موثوقة لمقارنة المهام المختلفة وقدرات النماذج اللغوية الكبيرة. تؤدي هذه الدراسة إلى تطوير مقياس تقييم عالمي يمكن استخدامه لتقييم كل من تعقيد المجموعات البيانات ومهارات النماذج اللغوية الكبيرة. وتم إتاحة التنفيذ اليدوي والإطار التكيفي للإطار الهرمي بشكل علني.