HyperAIHyperAI
منذ 2 أشهر

MatCha: تحسين التدريب المسبق للغة البصرية باستخدام المنطق الرياضي وإعادة رسم الرسوم البيانية

Liu, Fangyu ; Piccinno, Francesco ; Krichene, Syrine ; Pang, Chenxi ; Lee, Kenton ; Joshi, Mandar ; Altun, Yasemin ; Collier, Nigel ; Eisenschlos, Julian Martin
MatCha: تحسين التدريب المسبق للغة البصرية باستخدام المنطق الرياضي وإعادة رسم الرسوم البيانية
الملخص

البيانات اللغوية البصرية مثل الرسوم البيانية والجداول والمعلومات المرئية شائعة الانتشار في العالم البشري. ومع ذلك، فإن نماذج الرؤية-اللغة المتقدمة لا تؤدي بشكل جيد عند التعامل مع هذه البيانات. نقترح استخدام MatCha (تدريب الاستدلال الرياضي وإعادة تحليل الرسوم البيانية) لتعزيز قدرات نماذج اللغة البصرية في النمذجة المشتركة للرسوم البيانية/الرسوم والبيانات اللغوية. بصفة خاصة، نقترح عدة مهام تدريب أولي تغطي إعادة بناء الرسم وعمليات الاستدلال العددية، وهي القدرات الأساسية في نمذجة اللغة البصرية.نقوم بتدريب MatCha بدءًا من Pix2Struct، وهو نموذج لغة بصري مقترح حديثًا يحول الصور إلى النصوص. على مقاييس الأداء القياسية مثل PlotQA و ChartQA، يتفوق نموذج MatCha على الأساليب المتقدمة الأخرى بنسبة تصل إلى حوالي 20%. كما نفحص مدى فعالية التدريب الأولي لـ MatCha عند انتقاله إلى مجالات أخرى مثل صور الشاشة والرسوم التوضيحية في الكتب المدرسية والأرقام الوثائقية، ونلاحظ تحسنًا عامًا، مما يؤكد فائدة التدريب الأولي لـ MatCha في مهام اللغة البصرية الأوسع نطاقًا.

MatCha: تحسين التدريب المسبق للغة البصرية باستخدام المنطق الرياضي وإعادة رسم الرسوم البيانية | أحدث الأوراق البحثية | HyperAI