HyperAI

مجموعة بيانات الإجابة على أسئلة الأوراق العلمية متعددة الوسائط SPIQA

التاريخ

منذ 9 أشهر

الحجم

1.28 GB

المؤسسة

بحث جوجل
جامعة جونز هوبكنز

رابط النشر

huggingface.co

تم إطلاق مجموعة البيانات هذه بواسطة فريق بحثي من Google Research وجامعة جونز هوبكنز في عام 2024. نتائج الورقة ذات الصلة هي "SPIQA: مجموعة بيانات للإجابة على الأسئلة متعددة الوسائط في الأوراق العلمية".

خلفية

يعد العثور على إجابات للأسئلة في المقالات البحثية العلمية الطويلة مجالًا مهمًا من مجالات البحث التي تساعد القراء على حل استفساراتهم بسرعة. ومع ذلك، فإن مجموعات البيانات الحالية للإجابة على الأسئلة (QA) المستندة إلى الأوراق العلمية محدودة الحجم وتركز فقط على المحتوى النصي. ولمعالجة هذا القيد، أطلق فريق البحث برنامج SPIQA (الإجابة على أسئلة الصور في الأوراق العلمية).

نظرة عامة على مجموعة البيانات

هذه هي أول مجموعة بيانات ضمان الجودة واسعة النطاق مصممة خصيصًا لتفسير الأشكال والجداول المعقدة في المقالات البحثية العلمية في مختلف مجالات علوم الكمبيوتر. استفد من الخبرة وقدرات فهم الرسوم البيانية لنماذج اللغة الكبيرة متعددة الوسائط (MLLMs). قام فريق البحث بتصميم مهمة بحث عن المعلومات تتضمن صورًا متعددة تغطي مجموعة متنوعة من المخططات والجداول والرسوم البيانية وتصورات النتائج، باستخدام كل من التنظيم التلقائي واليدوي لإنشاء مجموعة البيانات. يحتوي SPIQA على 270 ألف سؤال مقسمة إلى أجزاء التدريب والتحقق وثلاثة أجزاء تقييم مختلفة. ومن خلال إجراء تجارب موسعة على 12 نموذجًا أساسيًا معروفًا، قام الفريق بتقييم قدرة الأنظمة المتعددة الوسائط الحالية على فهم الجوانب الدقيقة للمقالات البحثية.

SPIQA.torrent
البذر 1التنزيل 1مكتمل 72إجمالي التنزيلات 75
  • SPIQA/
    • README.md
      1.95 KB
    • README.txt
      3.89 KB
      • data/
        • spiqa.zip
          1.28 GB