LAPDoc: توجيه يراعي التخطيط للوثائق

أدى التقدم الأخير في تدريب النماذج اللغوية الكبيرة (LLMs) باستخدام كميات هائلة من البيانات النصية فقط إلى تحسين كبير في التعميم عبر العديد من المجالات والمهمات، بما في ذلك المهام الخاصة بالمستندات. وعلى النقيض من ذلك، تتجه الاتجاهات نحو تدريب هياكل تحويلية متعددة الوسائط مصممة خصيصًا لفهم المستندات، والتي تم تصميمها لدمج المدخلات النصية مع التخطيط المرتبط بالمستند. ويُعد هذا التدريب يتطلب خطوة منفصلة للتحسين الدقيق، مما يستدعي وجود بيانات تدريب إضافية. في الوقت الحالي، لا توجد نماذج تحويلية للمستندات تمتلك تعميمًا مماثلًا للنماذج اللغوية الكبيرة. وهذا يثير سؤالًا مهمًا حول أي نوع من النماذج ينبغي تفضيله في مهام فهم المستندات. في هذه الورقة، نستكشف إمكانية استخدام النماذج اللغوية الكبيرة القائمة على النص فقط في المهام الخاصة بالمستندات من خلال تحسين التخطيط (layout enrichment). ونستعرض تعديلات قابلة للإدخال مباشرةً وطرقًا قواعدية لتعزيز مدخلات النماذج اللغوية الكبيرة النصية ببيانات التخطيط. في تجاربنا، ندرس التأثيرات على نموذج ChatGPT التجاري ونموذج LLM المفتوح المصدر Solar. ونُظهر أن استخدام منهجيتنا يؤدي إلى تحسين أداء كلا النموذجين على عدة معايير قياسية للمستندات. بالإضافة إلى ذلك، ندرس تأثير الأخطاء في تقنية OCR الضوضائية وأخطاء التخطيط، فضلًا عن القيود التي تواجه النماذج اللغوية الكبيرة عند استخدام تخطيط المستندات. تشير نتائجنا إلى أن تعزيز التخطيط يمكن أن يحسن أداء النماذج اللغوية الكبيرة القائمة على النص فقط في فهم المستندات بنسبة تصل إلى 15% مقارنةً باستخدام النص البسيط للمستندات فقط. في الختام، ينبغي اعتبار هذا النهج كخيار مُفضَّل عند اختيار أفضل نموذج بين النماذج القائمة على النص أو النماذج المتعددة الوسائط المخصصة لفهم المستندات.