HyperAIHyperAI
منذ 11 أيام

تقييم LLM كمُحكِم باستخدام MT-Bench وChatbot Arena

Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica
تقييم LLM كمُحكِم باستخدام MT-Bench وChatbot Arena
الملخص

تقييم مساعدات المحادثة القائمة على النماذج اللغوية الكبيرة (LLM) يُعد تحديًا بسبب قدراتها الواسعة والافتقار إلى المعايير الحالية في قياس تفضيلات البشر. وللتغلب على هذه المشكلة، نستكشف استخدام النماذج اللغوية القوية كمحكمين لتقييم هذه النماذج على أسئلة أكثر مرونة وانفتاحًا. ونقوم بتحليل استخدام النماذج اللغوية كمحكمين، مع تسليط الضوء على قيودها، بما في ذلك التحيزات المرتبطة بالموقع والطول الزائد في الردود، والتحيزات الناتجة عن التحسين الذاتي، بالإضافة إلى القيود في قدرة الاستدلال. ونُقدّم حلولًا لمعالجة بعض هذه القيود. ثم نتحقق من مدى التوافق بين محكمي النماذج اللغوية والترغيبات البشرية من خلال تقديم معيارين جديدين: MT-bench، وهو مجموعة أسئلة متعددة الدورات؛ وChatbot Arena، وهو منصة معركة مبنية على مشاركة جماعية من المستخدمين. تُظهر نتائجنا أن محكمي النماذج اللغوية القوية مثل GPT-4 يمكنهم مطابقة تفضيلات البشر سواء في البيئات المُحكَمة أو تلك المستمدة من جموعة المستخدمين، بتحقيق اتفاق يتجاوز 80٪، أي على نفس مستوى التوافق بين البشر أنفسهم. وبالتالي، يُعد نموذج "النموذج اللغوي كمحكم" طريقة قابلة للتوسيع وقابلة للتفسير لتقريب تفضيلات البشر، والتي تُعد في المقابل باهظة التكلفة من حيث التجميع. علاوةً على ذلك، نُظهر أن معيارنا الجديد يتكامل مع المعايير التقليدية من خلال تقييم عدة نسخ مُختلفة من نماذج LLaMA وVicuna. وتم الإفصاح عن أسئلة MT-bench، و3000 تصويت من خبراء، و30000 محادثة تحتوي على تفضيلات بشرية، عبر الرابط التالي: https://github.com/lm-sys/FastChat/tree/main/fastchat/llm_judge.