HyperAIHyperAI
منذ 3 أيام

من الدرجات إلى المهارات: إطار تشخيصيًا ذهنيًا لتقييم النماذج اللغوية الكبيرة المالية

Ziyan Kuang, Feiyu Zhu, Maowei Jiang, Yanzhao Lai, Zelin Wang, Zhitong Wang, Meikang Qiu, Jiajia Huang, Min Peng, Qianqian Xie, Sophia Ananiadou
من الدرجات إلى المهارات: إطار تشخيصيًا ذهنيًا لتقييم النماذج اللغوية الكبيرة المالية
الملخص

أظهرت نماذج اللغة الكبيرة (LLMs) إمكانات واعدة في التطبيقات المالية، إلا أن ملاءمتها لهذه المجالات الحساسة ما زالت غير مثبتة بشكل كافٍ بسبب ضعف المعايير الحالية. تعتمد المعايير الحالية حاليًا فقط على تقييمات على مستوى الدرجات، حيث تُلخّص الأداء بدرجة واحدة فقط، مما يُخفّي الفهم الدقيق لما تعرفه النماذج حقًا، وحدودها الدقيقة. كما تعتمد هذه المعايير على مجموعات بيانات تغطي فقط مجموعة ضيقة من المفاهيم المالية، وتتجاهل جوانب أساسية أخرى ضرورية للتطبيقات الواقعية. ولسد هذه الفجوات، نقدّم "FinCDM"، أول إطار تقييم تشخيصي ذهني مخصص لنموذج لغة مالي، يُمكّن من تقييم النماذج على مستوى المهارات والمعرفة، ويُحدد ما تمتلكه النماذج من مهارات ومعرفة مالية، وما تفتقر إليه، بناءً على أنماط استجاباتها عبر مهام مُعلّمة بمهارات محددة، بدلًا من الاعتماد على رقم مجمّع واحد. وقد قمنا ببناء "CPA-QKA"، أول مجموعة بيانات تقييم مبنية على التفكير المعرفي، مستمدة من امتحان المحاسب القانوني المعتمد (CPA)، وتغطي بشكل شامل المهارات الواقعية في المحاسبة والمالية. وقد تم تسمية هذه المجموعة بدقة عالية من قبل خبراء في المجال، حيث قاموا بتأليف الأسئلة، وتحققوا من صحتها، وتسميتها بعلامات معرفية دقيقة، مع تحقيق اتفاق عالٍ بين المُقيّمين. أظهرت تجاربنا الواسعة على 30 نموذجًا لغويًا خاصًا، مفتوح المصدر، ومتخصصًا في مجال مالي، أن "FinCDM" يكشف عن فجوات معرفية مخفية، ويحدد مناطق غير كافية في الاختبار مثل التفكير الضريبي والتنظيمي التي تُهملها المعايير التقليدية، كما يكشف عن مجموعات سلوكية بين النماذج. ويُعدّ "FinCDM" نموذجًا جديدًا لتقييم النماذج اللغوية المالية، من خلال تمكين تشخيص قابل للتفسير واعٍ بالمهارات، ما يدعم تطوير نماذج أكثر موثوقية وتوجيهًا، وستُتاح جميع مجموعات البيانات ونصوص التقييم بشكل علني لدعم الأبحاث المستقبلية.