HyperAIHyperAI
منذ 2 أشهر

UniChart: نموذج مُدرب مسبق عام للرؤية واللغة لفهم وإستدلال الرسوم البيانية

Masry, Ahmed ; Kavehzadeh, Parsa ; Do, Xuan Long ; Hoque, Enamul ; Joty, Shafiq
UniChart: نموذج مُدرب مسبق عام للرؤية واللغة لفهم وإستدلال الرسوم البيانية
الملخص

الرسوم البيانية شائعة جدًا لتحليل البيانات، وتوضيح الأفكار الرئيسية، وتقديم إجابات على أسئلة المنطق المعقدة حول البيانات. لتسهيل تحليل البيانات باستخدام الرسوم البيانية باللغة الطبيعية، تم تقديم عدة مهام ثانوية مؤخرًا مثل الإجابة على أسئلة الرسوم البيانية وملخص الرسوم البيانية. ومع ذلك، فإن معظم الطرق التي تحل هذه المهام تعتمد على التدريب المسبق في مهام اللغة أو رؤية-لغة (رؤية-لغة) دون محاولة نمذجة بنية الرسوم البيانية بشكل صريح (مثل كيفية ترميز البيانات بصريًا وكيفية علاقة عناصر الرسم البياني ببعضها البعض). للتعامل مع هذا، قمنا أولاً ببناء مجموعة كبيرة من الرسوم البيانية تغطي مجموعة واسعة من المواضيع والأساليب البصرية. ثم قدم us UniChart، وهو نموذج مدرب مسبقًا لفهم وإجراء استدلالات على الرسوم البيانية. يشفر UniChart النصوص والبيانات والعناصر البصرية ذات الصلة بالرسوم البيانية، ثم يستخدم محول نصي مبني على أساس الرسم البياني لتوليد الإخراج المتوقع باللغة الطبيعية. نقترح عدة مهام تدريب مسبقة خاصة بالرسوم البيانية تتضمن: (i) المهام منخفضة المستوى لاستخراج العناصر البصرية (مثل الأعمدة والخطوط) والبيانات من الرسوم البيانية، و(ii) المهام عالية المستوى للحصول على مهارات فهم واستدلال الرسوم البيانية. نجد أن تدريب النموذج بشكل مسبق على مجموعة كبيرة من البيانات تحتوي على مهام خاصة بالرسم البياني منخفضة وعالية المستوى، يتبعها التحسين الدقيق (finetuning) على ثلاث مهم ثانوية، يؤدي إلى أداء رائد في الثلاث مهم الثانوية.