الملخص

اللغة البصرية مثل الرسوم البيانية والمخططات شائعة في العالم البشري.فهم المخططات والرسوم البيانية يتطلب مهارات استدلال قوية. النماذج السابقة ذات المستوى الرفيع (SOTA) تحتاج إلى ما لا يقل عن عشرات الآلاف من أمثلة التدريب، وقدراتها الاستدلاليّة لا تزال محدودة للغاية، خاصة عند التعامل مع الاستفسارات المعقدة التي كتبها البشر. يقدم هذا البحث أول حل للاستدلال على اللغة البصرية باستخدام تقنية واحدة فقط (one-shot). نقوم بتفكيك تحدي الاستدلال على اللغة البصرية إلى خطوتين: (1) ترجمة المخطط إلى النص، و(2) الاستدلال على النص المترجم. المفتاح في هذه الطريقة هو وحدة تحويل الوسائط، والتي أطلقنا عليها اسم DePlot، وهي تقوم بترجمة صورة المخطط أو الرسم البياني إلى جدول خطي. يمكن استخدام مخرجات DePlot مباشرة لتحفيز نموذج لغوي كبير مسبقاً (LLM)، والاستفادة من قدرات الاستدلال القليل-المران للـ LLMs. لاستخراج DePlot، نقوم بتقييس مهمة ترجمة المخطط إلى الجدول من خلال إنشاء تنسيقات ومقياس مهمّة موحّدة، وتدريب DePlot بشكل شامل على هذه المهمة. يمكن استخدام DePlot بعد ذلك بشكل مباشر مع الـ LLMs بطريقة "أدخل واستخدم" (plug-and-play). بالمقارنة مع نموذج SOTA تم تعديله باستخدام أكثر من 28,000 نقطة بيانات، فإن DePlot+LLM باستخدام تحفيز واحد فقط يحقق تحسيناً بنسبة 24.0% على النموذج المعديل من المستوى الرفيع في استفسارات البشر من مهمة أسئلة وأجوبة حول الرسوم البيانية (chart QA).

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

ديبلوت: استدلال لغوي بصري من خلال الترجمة من الرسم البياني إلى الجدول

Fangyu Liu‡‡∗§ Julian Martin Eisenschlos∗∗ Francesco Piccinno∗ Syrine Krichene∗ Chenxi Pang∗ Kenton Lee∗ Mandar Joshi∗ Wenhu Chen∗ Nigel Collier∗ Yasemin Altun∗

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ديبلوت: استدلال لغوي بصري من خلال الترجمة من الرسم البياني إلى الجدول

Fangyu Liu‡‡∗§ Julian Martin Eisenschlos∗∗ Francesco Piccinno∗ Syrine Krichene∗ Chenxi Pang∗ Kenton Lee∗ Mandar Joshi∗ Wenhu Chen∗ Nigel Collier∗ Yasemin Altun∗

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

ديبلوت: استدلال لغوي بصري من خلال الترجمة من الرسم البياني إلى الجدول

Fangyu Liu‡‡∗§ Julian Martin Eisenschlos∗∗ Francesco Piccinno∗ Syrine Krichene∗ Chenxi Pang∗ Kenton Lee∗ Mandar Joshi∗ Wenhu Chen∗ Nigel Collier∗ Yasemin Altun∗

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters