Command Palette
Search for a command to run...
T2R-bench: معيار لتوليد تقارير على مستوى المقال من الجداول الصناعية الواقعية

الملخص
أُجريت أبحاث واسعة لاستكشاف قدرات النماذج اللغوية الكبيرة (LLMs) في التفكير الجدلي المتعلق بالجداول. ومع ذلك، يظل المهمة الأساسية المتمثلة في تحويل معلومات الجداول إلى تقارير تحديًا كبيرًا في التطبيقات الصناعية. وتواجه هذه المهمة مشكلتين جوهريتين: أولًا، تعقيد وتنوع الجداول يؤدي إلى نتائج تفكير غير مثالية؛ ثانيًا، تفتقر المعايير الحالية للجداول إلى القدرة على تقييم فعالية هذه المهمة في السياقات العملية. ولسد هذه الفجوة، نقترح مهمة تحويل الجداول إلى تقارير (table-to-report)، ونُنشئ معيارًا ثنائي اللغة يُسمى T2R-bench، حيث يُمثّل تدفق المعلومات الأساسية من الجداول إلى التقارير في هذه المهمة. يتكون المعيار من 457 جدولًا صناعيًا، جميعها مستمدة من سياقات واقعية، وتشمل 19 مجالًا صناعيًا وأنواعًا أربعة من الجداول الصناعية. علاوةً على ذلك، نقترح معيار تقييم يضمن قياسًا عادلًا لجودة إنشاء التقارير. وأظهرت التجارب على 25 نموذجًا لغويًا كبيرًا شائع الاستخدام أن حتى النماذج الرائدة مثل Deepseek-R1 لم تحقق سوى درجة إجمالية قدرها 62.71، ما يدل على أن النماذج اللغوية الكبيرة ما زالت بحاجة إلى تحسين في أداءها على معيار T2R-bench. وسيتم إتاحة الشفرة المصدرية والبيانات بعد قبول البحث.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.