HyperAIHyperAI
منذ 2 أشهر

جسر الفجوة في الأداء بين DETR و R-CNN للكشف عن الكائنات الرسومية في صور الوثائق

Shehzadi, Tahira ; Hashmi, Khurram Azeem ; Stricker, Didier ; Liwicki, Marcus ; Afzal, Muhammad Zeshan
جسر الفجوة في الأداء بين DETR و R-CNN للكشف عن الكائنات الرسومية في صور الوثائق
الملخص

يُعد هذا البحث خطوة مهمة في تقليص الفجوة الأداء بين DETR و R-CNN في مجال كشف الأشياء الرسومية. لقد استفادت الأساليب الحالية لكشف الأشياء الرسومية من التحسينات الحديثة في طرق كشف الأشياء المستندة إلى CNN، مما أدى إلى تحقيق تقدم ملحوظ. مؤخرًا، ساهم الكاشفون المستندون إلى الـ Transformer بشكل كبير في تعزيز أداء كشف الأشياء العامة، مما ألغى الحاجة إلى الميزات المصممة يدويًا أو خطوات المعالجة اللاحقة مثل Non-Maximum Suppression (NMS) باستخدام استعلامات الأشياء. ومع ذلك، لم يتم التحقق بعد من فعالية هذه الخوارزميات المحسنة للكشف عن الأشياء المستندة إلى الـ Transformer فيما يتعلق بمشكلة كشف الأشياء الرسومية.بشكل أساسي، مستوحاة من التطورات الأخيرة في DETR، نستخدم الكاشف(transformer) الموجود مع بعض التعديلات البسيطة للكشف عن الأشياء الرسومية. نقوم بتعديل استعلامات الأشياء بطرق مختلفة، باستخدام النقاط والصناديق المرجعية وإضافة الضوضاء الإيجابية والسالبة إلى الصناديق المرجعية لتعزيز الأداء. تسمح هذه التعديلات بمعالجة أفضل للأجسام ذات الأحجام والنسب المختلفة، وزيادة المتانة تجاه التغيرات الصغيرة في مواقع وأحجام الأجسام، وتحسين تمييز الصور بين الأجسام وغير الأجسام. نقيم نهجنا على أربعة مجموعات بيانات رسومية: PubTables، TableBank، NTable و PubLaynet. بعد دمج تعديلات الاستعلامات في DETR، نتفوق على الأعمال السابقة ونحقق نتائج جديدة رائدة بأداء mAP بنسبة 96.9٪ على TableBank، 95.7٪ على PubLaynet و 99.3٪ على PubTables.نتائج الاختبارات الواسعة تظهر أن الأساليب المستندة إلى الـ Transformer أكثر فعالية لتحليل الوثائق مشابهة للتطبيقات الأخرى. نأمل أن يثير هذا البحث المزيد من الاهتمام بالدراسات المتعلقة باستخدام الكاشفات(transformers) في تحليل صور الوثائق.

جسر الفجوة في الأداء بين DETR و R-CNN للكشف عن الكائنات الرسومية في صور الوثائق | أحدث الأوراق البحثية | HyperAI