Command Palette
Search for a command to run...
MatCha: تحسين التدريب المسبق للغة البصرية باستخدام المنطق الرياضي وإعادة رسم الرسوم البيانية
MatCha: تحسين التدريب المسبق للغة البصرية باستخدام المنطق الرياضي وإعادة رسم الرسوم البيانية
Fangyu Liu Francesco Piccinno Syrine Krichene Chenxi Pang Kenton Lee Mandar Joshi Yasemin Altun Nigel Collier Julian Martin Eisenschlos
الملخص
البيانات اللغوية البصرية مثل الرسوم البيانية والجداول والمعلومات المرئية شائعة الانتشار في العالم البشري. ومع ذلك، فإن نماذج الرؤية-اللغة المتقدمة لا تؤدي بشكل جيد عند التعامل مع هذه البيانات. نقترح استخدام MatCha (تدريب الاستدلال الرياضي وإعادة تحليل الرسوم البيانية) لتعزيز قدرات نماذج اللغة البصرية في النمذجة المشتركة للرسوم البيانية/الرسوم والبيانات اللغوية. بصفة خاصة، نقترح عدة مهام تدريب أولي تغطي إعادة بناء الرسم وعمليات الاستدلال العددية، وهي القدرات الأساسية في نمذجة اللغة البصرية.نقوم بتدريب MatCha بدءًا من Pix2Struct، وهو نموذج لغة بصري مقترح حديثًا يحول الصور إلى النصوص. على مقاييس الأداء القياسية مثل PlotQA و ChartQA، يتفوق نموذج MatCha على الأساليب المتقدمة الأخرى بنسبة تصل إلى حوالي 20%. كما نفحص مدى فعالية التدريب الأولي لـ MatCha عند انتقاله إلى مجالات أخرى مثل صور الشاشة والرسوم التوضيحية في الكتب المدرسية والأرقام الوثائقية، ونلاحظ تحسنًا عامًا، مما يؤكد فائدة التدريب الأولي لـ MatCha في مهام اللغة البصرية الأوسع نطاقًا.