HyperAI

مجموعة بيانات معيارية لمساعد الذكاء الاصطناعي العام من GAIA

التاريخ

منذ 10 أشهر

المؤسسة

وجه العناق
ميتا

رابط النشر

huggingface.co

مساعدة التنزيل

GAIA، الذي تم إطلاقه بشكل مشترك من قبل Meta وHuggingFace وAutoGPT في عام 2024، هو المعيار الأكثر شمولاً للوكلاء الأذكياء. نتائج الورقة ذات الصلة هيGAIA: معيار لمساعدي الذكاء الاصطناعي العام".

يتكون GAIA من أكثر من 450 سؤالًا معقدًا بإجابات واضحة تتطلب مستويات متفاوتة من الأدوات والاستقلالية لحلها. لذلك، يتم تقسيمه إلى 3 مستويات، حيث يمكن التغلب على المستوى 1 بشهادة LLM جيدة جدًا، بينما يشير المستوى 3 إلى تحسن كبير في قدرة النموذج. يتم تقسيم كل مستوى إلى مجموعة تطوير عامة بالكامل للتحقق من صحتها، ومجموعة اختبار تحتوي على إجابات خاصة وبيانات وصفية.

المشكلة موجودة في metadata.jsonl. تأتي بعض الأسئلة مع ملف إضافي يمكن العثور عليه في نفس المجلد والذي يتم إدخال معرفه في حقل file_name. المزيد من التفاصيل متاحة علىورقأعلن في.

وهنا مثال لمشكلة صعبة:

أي من الفواكه الموضحة في لوحة "تطريز أوزبكستان" لعام 2008 كانت جزءًا من قائمة الإفطار على متن السفينة السياحية في أكتوبر 1949 والتي تم استخدامها لاحقًا كدعامة عائمة في فيلم "الرحلة الأخيرة"؟ يرجى إعطاء هذه الفواكه على شكل قائمة مفصولة بفاصلة في اتجاه عقارب الساعة وفقًا لترتيبها في اللوحة، بدءًا من موضع الساعة 12. استخدم صيغة الجمع لكل فاكهة.

يمكننا أن نرى أن هذه المشكلة تنطوي على العديد من الصعوبات:

  • الإجابة بصيغة القيد.
  • قدرات متعددة الوسائط، مطلوبة لقراءة الفواكه من الصور.
  • هناك العديد من المعلومات التي تحتاج إلى جمعها، وبعضها يعتمد على معلومات أخرى:
    • الفواكه في الصور
    • هوية السفينة البحرية المستخدمة كدعامة عائمة في فيلم الرحلة الأخيرة
    • قائمة إفطار سفينة Ocean Liner أعلاه في أكتوبر 1949
  • إن ما ورد أعلاه يفرض مسار الحل الصحيح لاستخدام عدة خطوات متسلسلة.

ويتطلب حل هذه المشكلة مستوى عاليًا من القدرة على التخطيط والتنفيذ الصارم، وهما بالضبط مجالان يواجه فيهما برنامج LLM صعوبة في التعامل معهما.

لذلك، فهي مجموعة اختبار ممتازة لاختبار أنظمة الوكيل الذكي. في التصنيفات العامة لـ GAIA، فإن متوسط درجة GPT-4-Turbo أقل من 7%. كان التقديم الأفضل عبارة عن حل قائم على Autogen والذي استخدم نظامًا معقدًا متعدد الوكلاء واستفاد من قدرات استدعاء الأدوات الخاصة بـ OpenAI، محققًا 40%.