HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات الفهم العلمي متعددة الوسائط من ArXiv

ناقش على Discord

التاريخ

منذ عام واحد

المؤسسة

جامعة بكين
جامعة هونغ كونغ

عنوان URL للنشر

mm-arxiv.github.io

رابط الورقة البحثية

arxiv.org

تم إطلاق ArXiv متعدد الوسائط من قبل جامعة هونغ كونغ وجامعة بكين في عام 2024. الورقة ذات الصلة هي "ArXiv متعدد الوسائط: مجموعة بيانات لتحسين الفهم العلمي لنماذج الرؤية واللغة الكبيرة"، والتي تم قبولها بموجب ACL 2024.

تتكون مجموعة البيانات هذه من ArXivCap وArXivQA لتعزيز الفهم العلمي لـ LVLM.

ArXivCap هي مجموعة بيانات لتعليقات الرسوم البيانية تحتوي على 6.4 مليون صورة و3.9 مليون تعليق من 572 ألف ورقة بحثية من ArXiv تغطي مجالات علمية مختلفة.

بالاستعانة بـ ArXivCap، قدم فريق البحث ArXivQA، وهي مجموعة بيانات للإجابة على الأسئلة تم إنشاؤها بواسطة GPT-4V استنادًا إلى الرسوم البيانية العلمية من خلال المطالبات. يعمل ArXivQA على تعزيز قدرات التفكير الرياضي لـ LVLM مفتوح المصدر بشكل كبير، مما يحقق تحسنًا مطلقًا في الدقة يبلغ 10.4% على معيار التفكير الرياضي متعدد الوسائط.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp