HyperAIHyperAI

Command Palette

Search for a command to run...

MatCha: تحسين التدريب المسبق للغة البصرية باستخدام المنطق الرياضي وإعادة رسم الرسوم البيانية

Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos

الملخص

البيانات اللغوية البصرية مثل الرسوم البيانية والجداول والمعلومات المرئية شائعة الانتشار في العالم البشري. ومع ذلك، فإن نماذج الرؤية-اللغة المتقدمة لا تؤدي بشكل جيد عند التعامل مع هذه البيانات. نقترح استخدام MatCha (تدريب الاستدلال الرياضي وإعادة تحليل الرسوم البيانية) لتعزيز قدرات نماذج اللغة البصرية في النمذجة المشتركة للرسوم البيانية/الرسوم والبيانات اللغوية. بصفة خاصة، نقترح عدة مهام تدريب أولي تغطي إعادة بناء الرسم وعمليات الاستدلال العددية، وهي القدرات الأساسية في نمذجة اللغة البصرية.نقوم بتدريب MatCha بدءًا من Pix2Struct، وهو نموذج لغة بصري مقترح حديثًا يحول الصور إلى النصوص. على مقاييس الأداء القياسية مثل PlotQA و ChartQA، يتفوق نموذج MatCha على الأساليب المتقدمة الأخرى بنسبة تصل إلى حوالي 20%. كما نفحص مدى فعالية التدريب الأولي لـ MatCha عند انتقاله إلى مجالات أخرى مثل صور الشاشة والرسوم التوضيحية في الكتب المدرسية والأرقام الوثائقية، ونلاحظ تحسنًا عامًا، مما يؤكد فائدة التدريب الأولي لـ MatCha في مهام اللغة البصرية الأوسع نطاقًا.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp