توجيه التعليمات المُراعي للتصميم والمهام للإجابة على الأسئلة في صور المستندات بدون تدريب مسبق

لقد حققت النماذج المُدرَّبة مسبقًا مع إدراك للتصميم (Layout-aware pre-trained models) تقدمًا كبيرًا في مجال الإجابة على الأسئلة المتعلقة بصور المستندات. حيث تم إدخال وحدات قابلة للتعلم إضافية إلى النماذج اللغوية الحالية لاستخلاص معلومات التصميم من داخل صور المستندات، وذلك من خلال إحداثيات مربعات النص التي تُستخرج باستخدام أدوات OCR. ومع ذلك، تتطلب هذه الوحدات الإضافية تدريبًا مسبقًا على كميات كبيرة من صور المستندات، ما يمنع هذه الأساليب من الاستفادة مباشرة من النماذج اللغوية الأساسية المُدرَّبة بالتعليم التوجيهي (instruction-tuning language foundation models) الجاهزة، والتي أظهرت مؤخرًا إمكانات واعدة في التعلم صفر-الامتداد (zero-shot learning). بدلًا من ذلك، في هذه الورقة، نلاحظ أن نماذج التعليم التوجيهي مثل Claude وChatGPT قادرة على فهم التصميم من خلال المسافات والفواصل والانقطاعات بين السطور. استنادًا إلى هذه الملاحظة، نقترح نموذجًا جديدًا يُسمى LATIN-Prompt (المنبه التعليمي المُدرك للتصميم والمهام)، والذي يتكون من محتوى مستند مُدرك للتصميم وتعليمات مُدرَّبة مسبقًا ومُخصصة للمهام. بشكل خاص، يستخدم الجزء الأول مسافات مناسبة وانقطاعات بين السطور لإعادة بناء معلومات التصميم بين القطع النصية المستخرجة بواسطة أدوات OCR، بينما يضمن الجزء الثاني أن تكون الإجابات الناتجة متوافقة مع متطلبات التنسيق. علاوة على ذلك، نقترح طريقة تُسمى LATIN-Tuning (التحسين التعليمي المُدرك للتصميم والمهام) لتحسين أداء النماذج التعليمية الصغيرة مثل Alpaca. تُظهر النتائج التجريبية أن LATIN-Prompt تمكن نماذج Claude وChatGPT من تحقيق أداءً في التعلم صفر-الامتداد يُقاس بالمقارنة مع أداء النماذج المُدرَّبة حسب التخصيص (fine-tuning) للنماذج الرائدة (SOTAs) في مجال الإجابة على الأسئلة المتعلقة بصور المستندات، كما أن LATIN-Tuning يُحسّن بشكل كبير من أداء Alpaca في التعلم صفر-الامتداد. على سبيل المثال، يُحسن LATIN-Prompt أداء Claude وChatGPT على مجموعة بيانات DocVQA بنسبة 263% و20% على التوالي. كما يُحسّن LATIN-Tuning أداء Alpaca على DocVQA بنسبة 87.7%. تُظهر التحليلات الكمية والنوعية فعالية LATIN-Prompt وLATIN-Tuning. وسنقوم بنشر الشفرة البرمجية في الملاحق، ونُخطط لإطلاقها لتسهيل الأبحاث المستقبلية.