HyperAIHyperAI

Command Palette

Search for a command to run...

منذ 2 أشهر

T2R-bench: معيار لتوليد تقارير على مستوى المقال من الجداول الصناعية الواقعية

T2R-bench: معيار لتوليد تقارير على مستوى المقال من الجداول الصناعية الواقعية

الملخص

أُجريت أبحاث واسعة لاستكشاف قدرات النماذج اللغوية الكبيرة (LLMs) في التفكير الجدلي المتعلق بالجداول. ومع ذلك، يظل المهمة الأساسية المتمثلة في تحويل معلومات الجداول إلى تقارير تحديًا كبيرًا في التطبيقات الصناعية. وتواجه هذه المهمة مشكلتين جوهريتين: أولًا، تعقيد وتنوع الجداول يؤدي إلى نتائج تفكير غير مثالية؛ ثانيًا، تفتقر المعايير الحالية للجداول إلى القدرة على تقييم فعالية هذه المهمة في السياقات العملية. ولسد هذه الفجوة، نقترح مهمة تحويل الجداول إلى تقارير (table-to-report)، ونُنشئ معيارًا ثنائي اللغة يُسمى T2R-bench، حيث يُمثّل تدفق المعلومات الأساسية من الجداول إلى التقارير في هذه المهمة. يتكون المعيار من 457 جدولًا صناعيًا، جميعها مستمدة من سياقات واقعية، وتشمل 19 مجالًا صناعيًا وأنواعًا أربعة من الجداول الصناعية. علاوةً على ذلك، نقترح معيار تقييم يضمن قياسًا عادلًا لجودة إنشاء التقارير. وأظهرت التجارب على 25 نموذجًا لغويًا كبيرًا شائع الاستخدام أن حتى النماذج الرائدة مثل Deepseek-R1 لم تحقق سوى درجة إجمالية قدرها 62.71، ما يدل على أن النماذج اللغوية الكبيرة ما زالت بحاجة إلى تحسين في أداءها على معيار T2R-bench. وسيتم إتاحة الشفرة المصدرية والبيانات بعد قبول البحث.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
T2R-bench: معيار لتوليد تقارير على مستوى المقال من الجداول الصناعية الواقعية | الأوراق البحثية | HyperAI