الملخص

تُحقِّق نماذج الرؤية واللغة (VLMs) أداءً متزايدًا في المهام المتعددة الأوضاع. ومع ذلك، تظل قدرات الاستدلال محدودة خاصة بالنسبة للنماذج الأصغر حجمًا من VLMs، بينما شهدت النماذج اللغوية الكبيرة (LLMs) العديد من التحسينات. نقترح تقنية لنقل القدرات من LLMs إلى VLMs. على مجموعة بيانات ChartQA التي تم تقديمها مؤخرًا، يحصل طريقة عملنا على أفضل الأداء الحالي عند تطبيقه على نموذج PaLI3-5B VLM الذي اقترحه \citet{chen2023pali3}، مع تمكين أداء أفضل بكثير في PlotQA وFigureQA.أولاً، نحسن تمثيل الرسوم البيانية عن طريق استمرار مرحلة التدريب الأولي باستخدام إصدار مُحسَّن من مهمة ترجمة الرسم البياني إلى الجدول التي اقترحها \citet{liu2023deplot}. ثم نقترح بناء مجموعة بيانات أكبر بـ 20 مرة من مجموعة البيانات الأصلية المستخدمة في التدريب. لتحسين قدرات الاستدلال العامة وتحسين العمليات الحسابية، نقوم بتركيب آثار الاستدلال باستخدام تمثيل الجدول للرسوم البيانية. أخيرًا، يتم تعديل نموذجنا باستخدام دالة الخسارة المتعددة المهام التي قدمها \citet{hsieh2023distilling}.يتخطى نموذجنا المُعدَّل ChartPaLI-5B حتى النماذج الأكبر حجمًا بمقدار 10 مرات مثل PaLIX-55B دون استخدام نظام OCR العلوي، مع الحفاظ على وقت الاستدلال ثابتًا مقارنة بالنموذج الأساسي PaLI3-5B. عندما يتم تحسين العقلانيات بشكل إضافي باستخدام دعوة بسيطة لبرنامج الفكر \cite{chen2023program}، يتخطى نموذجنا النماذج الحديثة مثل Gemini Ultra وGPT-4V.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

الاستدلال القائم على الرسوم البيانية: نقل القدرات من النماذج اللغوية الكبيرة إلى النماذج البصرية-اللغوية

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الاستدلال القائم على الرسوم البيانية: نقل القدرات من النماذج اللغوية الكبيرة إلى النماذج البصرية-اللغوية

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

الاستدلال القائم على الرسوم البيانية: نقل القدرات من النماذج اللغوية الكبيرة إلى النماذج البصرية-اللغوية

Carbune Victor ; Mansoor Hassan ; Liu Fangyu ; Aralikatte Rahul ; Baechler Gilles ; Chen Jindong ; Sharma Abhanshu

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters