منذ 8 أشهر

الملخص

FinanceBench هو أول مجموعة اختبار من نوعها لتقدير أداء النماذج اللغوية الكبيرة (LLMs) في الإجابة على الأسئلة المالية المفتوحة. تتكون هذه المجموعة من 10,231 سؤالًا حول الشركات المدرجة علنًا، مع الإجابات والدلائل المرتبطة بها. الأسئلة في FinanceBench صحيحة بيئيًا وتغطي مجموعة متنوعة من السيناريوهات. تم تصميمها لتكون واضحة ومباشرة للإجابة عليها كمعيار أدنى للأداء. نقوم باختبار 16 تكوينًا حديثًا للنماذج (بما في ذلك GPT-4-Turbo، Llama2 وClaude2، مع مستودعات المتجهات ودلالات السياق الطويلة) على عينة من 150 حالة من FinanceBench، ونراجع إجاباتهم يدويًا (n=2,400). الحالات متاحة بموجب رخصة مفتوحة المصدر. نظهر أن النماذج اللغوية الكبيرة الحالية لديها قيود واضحة فيما يتعلق بالإجابة على الأسئلة المالية. بشكل خاص، أجاب GPT-4-Turbo عند استخدامه مع نظام استرجاع بشكل غير صحيح أو رفض الإجابة على 81٪ من الأسئلة. بينما تحسن تقنيات التعزيز مثل استخدام نوافذ سياق أطول لإدخال الدلائل ذات الصلة الأداء، فهي غير واقعية في البيئات المؤسسية بسبب زيادة التأخير ولا يمكنها دعم الوثائق المالية الأكبر. نجد أن جميع النماذج التي تم فحصها تعاني من نقاط ضعف، مثل الهلوسة، مما يحد من ملاءمتها للاستخدام في المؤسسات.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

FinanceBench: معيار جديد للإجابة على الأسئلة المالية

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

FinanceBench: معيار جديد للإجابة على الأسئلة المالية

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

FinanceBench: معيار جديد للإجابة على الأسئلة المالية

Pranab Islam Anand Kannappan Douwe Kiela Rebecca Qian Nino Scherrer Bertie Vidgen

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters