HyperAIHyperAI
منذ 2 أشهر

كشف عيوب نماذج النص والتخطيط المدربة مسبقًا في استخراج المعلومات من الوثائق المرئية الغنية في العالم الحقيقي

Chong Zhang; Yixi Zhao; Yulu Xie; Chenshu Yuan; Yi Tu; Ya Guo; Mingxu Chai; Ziyu Shen; Yue Zhang; Qi Zhang
كشف عيوب نماذج النص والتخطيط المدربة مسبقًا في استخراج المعلومات من الوثائق المرئية الغنية في العالم الحقيقي
الملخص

النماذج النصية والتصنيعية المُدربة مسبقًا (PTLMs) التي تم تطويرها مؤخرًا أظهرت نجاحًا ملحوظًا في العديد من مهام استخراج المعلومات من الوثائق الغنية بصريًا (VrDs). ومع ذلك، على الرغم من تحقيقها لأداء عالي جدًا في المقاييس القياسية، فإن أدائها في العالم الحقيقي يقل عن التوقعات. نتيجة لهذه المشكلة، نقوم بفحص خط الأنابيب التقييمي السائد للكشف عن أن: (1) التسميات غير الكافية داخل مقاييس القياسية تؤدي إلى وجود ارتباطات وهمية بين مدخلات المهمة والعناوين، مما يؤدي إلى تقدير زائد ومفرط لأداء النموذج. (2) يتم الاعتماد بشكل كامل على الأداء في المقاييس القياسية للتقييم، وهو أمر غير كافٍ للتحقق الشامل من قدرات الأساليب في السيناريوهات الحقيقية. هذه المشاكل تحول دون قدرة خط الأنابيب التقييمي السائد على تعكس الأداء الحقيقي للأساليب، مما يُضلل الخيارات التصميمية لتحسين الأساليب. في هذا العمل، نقدم EC-FUNSD، وهي مجموعة بيانات مركزية حول الكيانات تم تصميمها لتقييم استخراج المعلومات من الوثائق الغنية بصريًا. تحتوي هذه المجموعة على تنسيقات متنوعة وتسميات عالية الجودة. بالإضافة إلى ذلك، تقوم هذه المجموعة بتقسيم التسميات الزائفة المرتبطة بالقطع والتي تنشأ من التسمية على مستوى القطعة في FUNSD. باستخدام المجموعة البيانات المقترحة، نقيم قدرات PTLMs على استخراج المعلومات الحقيقية من عدة جوانب، بما في ذلك أداؤها المطلق وكذلك قابلية تعميمها ومتانتها وعدالتها. تشير النتائج إلى أن PTLMs السائدة لا تعمل بكفاءة كما كان متوقعًا في سيناريوهات استخراج المعلومات الحقيقية. نأمل أن يُلهم دراستنا إعادة النظر في اتجاهات تطوير PTLMs.

كشف عيوب نماذج النص والتخطيط المدربة مسبقًا في استخراج المعلومات من الوثائق المرئية الغنية في العالم الحقيقي | أحدث الأوراق البحثية | HyperAI