HyperAI超神经

تم إطلاق ArXiv متعدد الوسائط من قبل جامعة هونغ كونغ وجامعة بكين في عام 2024. الورقة ذات الصلة هي "ArXiv متعدد الوسائط: مجموعة بيانات لتحسين الفهم العلمي لنماذج الرؤية واللغة الكبيرة"، والتي تم قبولها بموجب ACL 2024.

تتكون مجموعة البيانات هذه من ArXivCap وArXivQA لتعزيز الفهم العلمي لـ LVLM.

ArXivCap هي مجموعة بيانات لتعليقات الرسوم البيانية تحتوي على 6.4 مليون صورة و3.9 مليون تعليق من 572 ألف ورقة بحثية من ArXiv تغطي مجالات علمية مختلفة.

بالاستعانة بـ ArXivCap، قدم فريق البحث ArXivQA، وهي مجموعة بيانات للإجابة على الأسئلة تم إنشاؤها بواسطة GPT-4V استنادًا إلى الرسوم البيانية العلمية من خلال المطالبات. يعمل ArXivQA على تعزيز قدرات التفكير الرياضي لـ LVLM مفتوح المصدر بشكل كبير، مما يحقق تحسنًا مطلقًا في الدقة يبلغ 10.4% على معيار التفكير الرياضي متعدد الوسائط.

مجموعة بيانات الفهم العلمي متعددة الوسائط من ArXiv