HyperAIHyperAI

Command Palette

Search for a command to run...

FinanceBench: معيار جديد للإجابة على الأسئلة المالية

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

الملخص

FinanceBench هو أول مجموعة اختبار من نوعها لتقدير أداء النماذج اللغوية الكبيرة (LLMs) في الإجابة على الأسئلة المالية المفتوحة. تتكون هذه المجموعة من 10,231 سؤالًا حول الشركات المدرجة علنًا، مع الإجابات والدلائل المرتبطة بها. الأسئلة في FinanceBench صحيحة بيئيًا وتغطي مجموعة متنوعة من السيناريوهات. تم تصميمها لتكون واضحة ومباشرة للإجابة عليها كمعيار أدنى للأداء. نقوم باختبار 16 تكوينًا حديثًا للنماذج (بما في ذلك GPT-4-Turbo، Llama2 وClaude2، مع مستودعات المتجهات ودلالات السياق الطويلة) على عينة من 150 حالة من FinanceBench، ونراجع إجاباتهم يدويًا (n=2,400). الحالات متاحة بموجب رخصة مفتوحة المصدر. نظهر أن النماذج اللغوية الكبيرة الحالية لديها قيود واضحة فيما يتعلق بالإجابة على الأسئلة المالية. بشكل خاص، أجاب GPT-4-Turbo عند استخدامه مع نظام استرجاع بشكل غير صحيح أو رفض الإجابة على 81٪ من الأسئلة. بينما تحسن تقنيات التعزيز مثل استخدام نوافذ سياق أطول لإدخال الدلائل ذات الصلة الأداء، فهي غير واقعية في البيئات المؤسسية بسبب زيادة التأخير ولا يمكنها دعم الوثائق المالية الأكبر. نجد أن جميع النماذج التي تم فحصها تعاني من نقاط ضعف، مثل الهلوسة، مما يحد من ملاءمتها للاستخدام في المؤسسات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp