HyperAIHyperAI

Command Palette

Search for a command to run...

الاستدلال القائم على الرسوم البيانية: نقل القدرات من النماذج اللغوية الكبيرة إلى النماذج البصرية-اللغوية

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

الملخص

تُحقِّق نماذج الرؤية واللغة (VLMs) أداءً متزايدًا في المهام المتعددة الأوضاع. ومع ذلك، تظل قدرات الاستدلال محدودة خاصة بالنسبة للنماذج الأصغر حجمًا من VLMs، بينما شهدت النماذج اللغوية الكبيرة (LLMs) العديد من التحسينات. نقترح تقنية لنقل القدرات من LLMs إلى VLMs. على مجموعة بيانات ChartQA التي تم تقديمها مؤخرًا، يحصل طريقة عملنا على أفضل الأداء الحالي عند تطبيقه على نموذج PaLI3-5B VLM الذي اقترحه \citet{chen2023pali3}، مع تمكين أداء أفضل بكثير في PlotQA وFigureQA.أولاً، نحسن تمثيل الرسوم البيانية عن طريق استمرار مرحلة التدريب الأولي باستخدام إصدار مُحسَّن من مهمة ترجمة الرسم البياني إلى الجدول التي اقترحها \citet{liu2023deplot}. ثم نقترح بناء مجموعة بيانات أكبر بـ 20 مرة من مجموعة البيانات الأصلية المستخدمة في التدريب. لتحسين قدرات الاستدلال العامة وتحسين العمليات الحسابية، نقوم بتركيب آثار الاستدلال باستخدام تمثيل الجدول للرسوم البيانية. أخيرًا، يتم تعديل نموذجنا باستخدام دالة الخسارة المتعددة المهام التي قدمها \citet{hsieh2023distilling}.يتخطى نموذجنا المُعدَّل ChartPaLI-5B حتى النماذج الأكبر حجمًا بمقدار 10 مرات مثل PaLIX-55B دون استخدام نظام OCR العلوي، مع الحفاظ على وقت الاستدلال ثابتًا مقارنة بالنموذج الأساسي PaLI3-5B. عندما يتم تحسين العقلانيات بشكل إضافي باستخدام دعوة بسيطة لبرنامج الفكر \cite{chen2023program}، يتخطى نموذجنا النماذج الحديثة مثل Gemini Ultra وGPT-4V.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp