HyperAIHyperAI

Command Palette

Search for a command to run...

مجموعة بيانات الفهم العلمي متعددة الوسائط من ArXiv

التاريخ

منذ عام واحد

المؤسسة

جامعة هونغ كونغ

رابط النشر

mm-arxiv.github.io

رابط الورقة البحثية

arxiv.org

انضم إلى مجتمع Discord

تم إطلاق ArXiv متعدد الوسائط من قبل جامعة هونغ كونغ وجامعة بكين في عام 2024. الورقة ذات الصلة هي "ArXiv متعدد الوسائط: مجموعة بيانات لتحسين الفهم العلمي لنماذج الرؤية واللغة الكبيرة"، والتي تم قبولها بموجب ACL 2024.

تتكون مجموعة البيانات هذه من ArXivCap وArXivQA لتعزيز الفهم العلمي لـ LVLM.

ArXivCap هي مجموعة بيانات لتعليقات الرسوم البيانية تحتوي على 6.4 مليون صورة و3.9 مليون تعليق من 572 ألف ورقة بحثية من ArXiv تغطي مجالات علمية مختلفة.

بالاستعانة بـ ArXivCap، قدم فريق البحث ArXivQA، وهي مجموعة بيانات للإجابة على الأسئلة تم إنشاؤها بواسطة GPT-4V استنادًا إلى الرسوم البيانية العلمية من خلال المطالبات. يعمل ArXivQA على تعزيز قدرات التفكير الرياضي لـ LVLM مفتوح المصدر بشكل كبير، مما يحقق تحسنًا مطلقًا في الدقة يبلغ 10.4% على معيار التفكير الرياضي متعدد الوسائط.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp