HyperAIHyperAI
منذ 2 أشهر

ديبلوت: استدلال لغوي بصري من خلال الترجمة من الرسم البياني إلى الجدول

Liu, Fangyu ; Eisenschlos, Julian Martin ; Piccinno, Francesco ; Krichene, Syrine ; Pang, Chenxi ; Lee, Kenton ; Joshi, Mandar ; Chen, Wenhu ; Collier, Nigel ; Altun, Yasemin
ديبلوت: استدلال لغوي بصري من خلال الترجمة من الرسم البياني إلى الجدول
الملخص

اللغة البصرية مثل الرسوم البيانية والمخططات شائعة في العالم البشري.فهم المخططات والرسوم البيانية يتطلب مهارات استدلال قوية. النماذج السابقة ذات المستوى الرفيع (SOTA) تحتاج إلى ما لا يقل عن عشرات الآلاف من أمثلة التدريب، وقدراتها الاستدلاليّة لا تزال محدودة للغاية، خاصة عند التعامل مع الاستفسارات المعقدة التي كتبها البشر. يقدم هذا البحث أول حل للاستدلال على اللغة البصرية باستخدام تقنية واحدة فقط (one-shot). نقوم بتفكيك تحدي الاستدلال على اللغة البصرية إلى خطوتين: (1) ترجمة المخطط إلى النص، و(2) الاستدلال على النص المترجم. المفتاح في هذه الطريقة هو وحدة تحويل الوسائط، والتي أطلقنا عليها اسم DePlot، وهي تقوم بترجمة صورة المخطط أو الرسم البياني إلى جدول خطي. يمكن استخدام مخرجات DePlot مباشرة لتحفيز نموذج لغوي كبير مسبقاً (LLM)، والاستفادة من قدرات الاستدلال القليل-المران للـ LLMs. لاستخراج DePlot، نقوم بتقييس مهمة ترجمة المخطط إلى الجدول من خلال إنشاء تنسيقات ومقياس مهمّة موحّدة، وتدريب DePlot بشكل شامل على هذه المهمة. يمكن استخدام DePlot بعد ذلك بشكل مباشر مع الـ LLMs بطريقة "أدخل واستخدم" (plug-and-play). بالمقارنة مع نموذج SOTA تم تعديله باستخدام أكثر من 28,000 نقطة بيانات، فإن DePlot+LLM باستخدام تحفيز واحد فقط يحقق تحسيناً بنسبة 24.0% على النموذج المعديل من المستوى الرفيع في استفسارات البشر من مهمة أسئلة وأجوبة حول الرسوم البيانية (chart QA).

ديبلوت: استدلال لغوي بصري من خلال الترجمة من الرسم البياني إلى الجدول | أحدث الأوراق البحثية | HyperAI