استخدم مجموعة البيانات هذه ناقش على Discord

التاريخ

منذ 10 أشهر

المؤسسة

رابط الورقة البحثية

2508.07999

الترخيص

Other

الوسوم

الإجابة على الأسئلة الذكية

توليد مدعوم بالاسترجاع

LLM

التعلم متعدد المهام

المعايير

*تدعم مجموعة البيانات هذه الاستخدام عبر الإنترنت.انقر هنا للقفز.

WideSearch هي أول مجموعة بيانات مرجعية لتقييم الوكيل مصممة "للبحث عن معلومات واسعة النطاق" أصدرها فريق Seed التابع لشركة ByteDance في عام 2025. نتائج الورقة البحثية ذات الصلة هي "WideSearch: وكلاء قياس الأداء للبحث عن المعلومات على نطاق واسع"، والذي يهدف إلى تقييم وتعزيز موثوقية وسلامة نماذج اللغة الكبيرة بشكل منهجي في جمع الحقائق على نطاق واسع والتوليف والإخراج المنظم القابل للتحقق. يتكون المعيار من 200 سؤال عالي الجودة (100 سؤال باللغة الإنجليزية و100 سؤال باللغة الصينية) تم اختيارها بعناية وتنقيحها يدويًا بواسطة فريق البحث من استعلامات المستخدمين الفعلية. تأتي هذه الأسئلة من أكثر من 15 مجالًا مختلفًا.

حقول البيانات:

instance_id: معرف فريد للمهمة (يتوافق مع اسم ملف CSV الذهبي).
الاستعلام: تعليمة باللغة الطبيعية، تحدد عادةً أسماء الأعمدة المطلوبة ومتطلبات إخراج جدول Markdown.
التقييم: كائن متسلسل (سلسلة) يستخدم للتقييم التلقائي، ويحتوي على:

unique_columns: أعمدة المفتاح الأساسي (لمحاذاة الصفوف)؛
مطلوب: اسم العمود الذي يجب أن يظهر؛
eval_pipeline: تكوين التقييم على مستوى العمود (مثل المعالجة المسبقة والمقياس والمعيار).

اللغة: لغة المهمة، يمكن أن تكون القيمة en أو zh.
مخطط تدفق بناء البيانات والتقييم التلقائي

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

استخدم مجموعة البيانات هذه ناقش على Discord

التاريخ

منذ 10 أشهر

المؤسسة

رابط الورقة البحثية

2508.07999

الترخيص

Other

الوسوم

الإجابة على الأسئلة الذكية

توليد مدعوم بالاسترجاع

LLM

التعلم متعدد المهام

المعايير

*تدعم مجموعة البيانات هذه الاستخدام عبر الإنترنت.انقر هنا للقفز.

حقول البيانات:

instance_id: معرف فريد للمهمة (يتوافق مع اسم ملف CSV الذهبي).
الاستعلام: تعليمة باللغة الطبيعية، تحدد عادةً أسماء الأعمدة المطلوبة ومتطلبات إخراج جدول Markdown.
التقييم: كائن متسلسل (سلسلة) يستخدم للتقييم التلقائي، ويحتوي على:

unique_columns: أعمدة المفتاح الأساسي (لمحاذاة الصفوف)؛
مطلوب: اسم العمود الذي يجب أن يظهر؛
eval_pipeline: تكوين التقييم على مستوى العمود (مثل المعالجة المسبقة والمقياس والمعيار).

اللغة: لغة المهمة، يمكن أن تكون القيمة en أو zh.
مخطط تدفق بناء البيانات والتقييم التلقائي

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

منذ 3 أشهر

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

منذ 3 أشهر

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

منذ 4 أشهر

مجموعة بيانات إنشاء فيديو RoVid-X Robot

منذ 2 أشهر

مجموعة بيانات تقييم قدرات التخطيط طويل الأجل من DeepPlanning

منذ 5 أشهر

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

منذ 6 أشهر

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

منذ 6 أشهر

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

منذ 6 أشهر

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

منذ 6 أشهر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات معيارية لجمع المعلومات من WideSearch

*تدعم مجموعة البيانات هذه الاستخدام عبر الإنترنت.انقر هنا للقفز.

حقول البيانات:

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات معيارية لجمع المعلومات من WideSearch

*تدعم مجموعة البيانات هذه الاستخدام عبر الإنترنت.انقر هنا للقفز.

حقول البيانات:

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات تقييم قدرات التخطيط طويل الأجل من DeepPlanning

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات معيارية لجمع المعلومات من WideSearch

*تدعم مجموعة البيانات هذه الاستخدام عبر الإنترنت.انقر هنا للقفز.

حقول البيانات:

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات تقييم قدرات التخطيط طويل الأجل من DeepPlanning

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات تقييم قدرات التخطيط طويل الأجل من DeepPlanning

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

مجموعات البيانات ذات الصلة

مجموعة بيانات تعليمات المهام الإبداعية للمهنيين المبدعين

مجموعة بيانات التدريب والتعليم المسبق Sutra 10B

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات إنشاء فيديو RoVid-X Robot

مجموعة بيانات تقييم قدرات التخطيط طويل الأجل من DeepPlanning

مجموعة بيانات تقييم فهم المشاهد المعقدة من GroundingME

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro