التاريخ

منذ 2 أعوام

المؤسسة

رابط الورقة البحثية

الوسوم

GAIA، الذي تم إطلاقه بشكل مشترك من قبل Meta وHuggingFace وAutoGPT في عام 2024، هو المعيار الأكثر شمولاً للوكلاء الأذكياء. نتائج الورقة ذات الصلة هيGAIA: معيار لمساعدي الذكاء الاصطناعي العام". يتكون GAIA من أكثر من 450 سؤالًا معقدًا بإجابات واضحة تتطلب مستويات متفاوتة من الأدوات والاستقلالية لحلها. لذلك، يتم تقسيمه إلى 3 مستويات، حيث يمكن التغلب على المستوى 1 بشهادة LLM جيدة جدًا، بينما يشير المستوى 3 إلى تحسن كبير في قدرة النموذج. يتم تقسيم كل مستوى إلى مجموعة تطوير عامة بالكامل للتحقق من صحتها، ومجموعة اختبار تحتوي على إجابات خاصة وبيانات وصفية. المشكلة موجودة في metadata.jsonl. تأتي بعض الأسئلة مع ملف إضافي يمكن العثور عليه في نفس المجلد والذي يتم إدخال معرفه في حقل file_name. المزيد من التفاصيل متاحة علىورقأعلن في. وهنا مثال لمشكلة صعبة:

أي من الفواكه الموضحة في لوحة "تطريز أوزبكستان" لعام 2008 كانت جزءًا من قائمة الإفطار على متن السفينة السياحية في أكتوبر 1949 والتي تم استخدامها لاحقًا كدعامة عائمة في فيلم "الرحلة الأخيرة"؟ يرجى إعطاء هذه الفواكه على شكل قائمة مفصولة بفاصلة في اتجاه عقارب الساعة وفقًا لترتيبها في اللوحة، بدءًا من موضع الساعة 12. استخدم صيغة الجمع لكل فاكهة. يمكننا أن نرى أن هذه المشكلة تنطوي على العديد من الصعوبات:

الإجابة بصيغة القيد.
قدرات متعددة الوسائط، مطلوبة لقراءة الفواكه من الصور.
هناك العديد من المعلومات التي تحتاج إلى جمعها، وبعضها يعتمد على معلومات أخرى:

الفواكه في الصور
هوية السفينة البحرية المستخدمة كدعامة عائمة في فيلم الرحلة الأخيرة
قائمة إفطار سفينة Ocean Liner أعلاه في أكتوبر 1949

إن ما ورد أعلاه يفرض مسار الحل الصحيح لاستخدام عدة خطوات متسلسلة. ويتطلب حل هذه المشكلة مستوى عاليًا من القدرة على التخطيط والتنفيذ الصارم، وهما بالضبط مجالان يواجه فيهما برنامج LLM صعوبة في التعامل معهما. لذلك، فهي مجموعة اختبار ممتازة لاختبار أنظمة الوكيل الذكي. في التصنيفات العامة لـ GAIA، فإن متوسط درجة GPT-4-Turbo أقل من 7%. كان التقديم الأفضل عبارة عن حل قائم على Autogen والذي استخدم نظامًا معقدًا متعدد الوكلاء واستفاد من قدرات استدعاء الأدوات الخاصة بـ OpenAI، محققًا 40%.

تم المساهمة بهذه المجموعة من البيانات من قبل مستخدمي المجتمع وهي مخصصة للأغراض التعليمية والإعلامية فقط. إذا كان أي محتوى ينطوي على انتهاك لحقوق النشر، يرجى الاتصال بنا على [email protected] للمراجعة والإزالة الفورية.

مجموعات البيانات ذات الصلة

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

HyperAI

ناقش على Discord

التاريخ

منذ 2 أعوام

المؤسسة

رابط الورقة البحثية

arxiv.org

الوسوم

المعايير

أي من الفواكه الموضحة في لوحة "تطريز أوزبكستان" لعام 2008 كانت جزءًا من قائمة الإفطار على متن السفينة السياحية في أكتوبر 1949 والتي تم استخدامها لاحقًا كدعامة عائمة في فيلم "الرحلة الأخيرة"؟ يرجى إعطاء هذه الفواكه على شكل قائمة مفصولة بفاصلة في اتجاه عقارب الساعة وفقًا لترتيبها في اللوحة، بدءًا من موضع الساعة 12. استخدم صيغة الجمع لكل فاكهة. يمكننا أن نرى أن هذه المشكلة تنطوي على العديد من الصعوبات:

الإجابة بصيغة القيد.
قدرات متعددة الوسائط، مطلوبة لقراءة الفواكه من الصور.
هناك العديد من المعلومات التي تحتاج إلى جمعها، وبعضها يعتمد على معلومات أخرى:

الفواكه في الصور
هوية السفينة البحرية المستخدمة كدعامة عائمة في فيلم الرحلة الأخيرة
قائمة إفطار سفينة Ocean Liner أعلاه في أكتوبر 1949

إن ما ورد أعلاه يفرض مسار الحل الصحيح لاستخدام عدة خطوات متسلسلة. ويتطلب حل هذه المشكلة مستوى عاليًا من القدرة على التخطيط والتنفيذ الصارم، وهما بالضبط مجالان يواجه فيهما برنامج LLM صعوبة في التعامل معهما. لذلك، فهي مجموعة اختبار ممتازة لاختبار أنظمة الوكيل الذكي. في التصنيفات العامة لـ GAIA، فإن متوسط درجة GPT-4-Turbo أقل من 7%. كان التقديم الأفضل عبارة عن حل قائم على Autogen والذي استخدم نظامًا معقدًا متعدد الوكلاء واستفاد من قدرات استدعاء الأدوات الخاصة بـ OpenAI، محققًا 40%.

مجموعات البيانات ذات الصلة

مجموعة بيانات DRACO المعيارية للبحوث المعمقة متعددة المجالات

منذ 2 أشهر

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

منذ 3 أشهر

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

منذ 8 أيام

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

منذ 4 أشهر

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

منذ 8 أيام

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

منذ 6 أشهر

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

منذ 8 أيام

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

منذ 8 أيام

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

Command Palette

مجموعة بيانات معيارية لمساعد الذكاء الاصطناعي العام من GAIA

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات معيارية لمساعد الذكاء الاصطناعي العام من GAIA

مجموعات البيانات ذات الصلة

مجموعة بيانات DRACO المعيارية للبحوث المعمقة متعددة المجالات

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

مجموعة بيانات معيارية لمساعد الذكاء الاصطناعي العام من GAIA

مجموعات البيانات ذات الصلة

مجموعة بيانات DRACO المعيارية للبحوث المعمقة متعددة المجالات

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

مجموعات البيانات ذات الصلة

مجموعة بيانات DRACO المعيارية للبحوث المعمقة متعددة المجالات

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro

مجموعات البيانات ذات الصلة

مجموعة بيانات DRACO المعيارية للبحوث المعمقة متعددة المجالات

مجموعة بيانات حوار التعلم لأدوات ToolACE المعقدة

مجموعة بيانات اصطناعية للاستدلال العام من CHIMERA

مجموعة بيانات معيارية لتقييم التعلم السياقي CL-bench

مجموعة بيانات الاستدلال الرياضي Nemotron-Math-v2

مجموعة بيانات MCIF متعددة الوسائط لتتبع التعليمات عبر اللغات

مجموعة بيانات الاستدلال متعدد المهام TxT360-3efforts

مجموعة بيانات التقييم الشامل للسياق الطويل لبرنامج LongBench-Pro