HyperAIHyperAI
منذ 2 أشهر

FinanceBench: معيار جديد للإجابة على الأسئلة المالية

Pranab Islam; Anand Kannappan; Douwe Kiela; Rebecca Qian; Nino Scherrer; Bertie Vidgen
FinanceBench: معيار جديد للإجابة على الأسئلة المالية
الملخص

FinanceBench هو أول مجموعة اختبار من نوعها لتقدير أداء النماذج اللغوية الكبيرة (LLMs) في الإجابة على الأسئلة المالية المفتوحة. تتكون هذه المجموعة من 10,231 سؤالًا حول الشركات المدرجة علنًا، مع الإجابات والدلائل المرتبطة بها. الأسئلة في FinanceBench صحيحة بيئيًا وتغطي مجموعة متنوعة من السيناريوهات. تم تصميمها لتكون واضحة ومباشرة للإجابة عليها كمعيار أدنى للأداء. نقوم باختبار 16 تكوينًا حديثًا للنماذج (بما في ذلك GPT-4-Turbo، Llama2 وClaude2، مع مستودعات المتجهات ودلالات السياق الطويلة) على عينة من 150 حالة من FinanceBench، ونراجع إجاباتهم يدويًا (n=2,400). الحالات متاحة بموجب رخصة مفتوحة المصدر. نظهر أن النماذج اللغوية الكبيرة الحالية لديها قيود واضحة فيما يتعلق بالإجابة على الأسئلة المالية. بشكل خاص، أجاب GPT-4-Turbo عند استخدامه مع نظام استرجاع بشكل غير صحيح أو رفض الإجابة على 81٪ من الأسئلة. بينما تحسن تقنيات التعزيز مثل استخدام نوافذ سياق أطول لإدخال الدلائل ذات الصلة الأداء، فهي غير واقعية في البيئات المؤسسية بسبب زيادة التأخير ولا يمكنها دعم الوثائق المالية الأكبر. نجد أن جميع النماذج التي تم فحصها تعاني من نقاط ضعف، مثل الهلوسة، مما يحد من ملاءمتها للاستخدام في المؤسسات.

FinanceBench: معيار جديد للإجابة على الأسئلة المالية | أحدث الأوراق البحثية | HyperAI