الاستدلال القائم على الرسوم البيانية: نقل القدرات من النماذج اللغوية الكبيرة إلى النماذج البصرية-اللغوية

تُحقِّق نماذج الرؤية واللغة (VLMs) أداءً متزايدًا في المهام المتعددة الأوضاع. ومع ذلك، تظل قدرات الاستدلال محدودة خاصة بالنسبة للنماذج الأصغر حجمًا من VLMs، بينما شهدت النماذج اللغوية الكبيرة (LLMs) العديد من التحسينات. نقترح تقنية لنقل القدرات من LLMs إلى VLMs. على مجموعة بيانات ChartQA التي تم تقديمها مؤخرًا، يحصل طريقة عملنا على أفضل الأداء الحالي عند تطبيقه على نموذج PaLI3-5B VLM الذي اقترحه \citet{chen2023pali3}، مع تمكين أداء أفضل بكثير في PlotQA وFigureQA.أولاً، نحسن تمثيل الرسوم البيانية عن طريق استمرار مرحلة التدريب الأولي باستخدام إصدار مُحسَّن من مهمة ترجمة الرسم البياني إلى الجدول التي اقترحها \citet{liu2023deplot}. ثم نقترح بناء مجموعة بيانات أكبر بـ 20 مرة من مجموعة البيانات الأصلية المستخدمة في التدريب. لتحسين قدرات الاستدلال العامة وتحسين العمليات الحسابية، نقوم بتركيب آثار الاستدلال باستخدام تمثيل الجدول للرسوم البيانية. أخيرًا، يتم تعديل نموذجنا باستخدام دالة الخسارة المتعددة المهام التي قدمها \citet{hsieh2023distilling}.يتخطى نموذجنا المُعدَّل ChartPaLI-5B حتى النماذج الأكبر حجمًا بمقدار 10 مرات مثل PaLIX-55B دون استخدام نظام OCR العلوي، مع الحفاظ على وقت الاستدلال ثابتًا مقارنة بالنموذج الأساسي PaLI3-5B. عندما يتم تحسين العقلانيات بشكل إضافي باستخدام دعوة بسيطة لبرنامج الفكر \cite{chen2023program}، يتخطى نموذجنا النماذج الحديثة مثل Gemini Ultra وGPT-4V.