نهج مبني على Transformer لفهم المستندات
نقدم إطارًا متكاملًا قائماً على المحولات (Transformer) يُسمى TRDLU لمهام فهم تخطيط المستند (Document Layout Understanding - DLU). تُعد DLU المهمة الأساسية لفهم هيكل المستند تلقائيًا. لا يزال من الصعب تحديد مربعات المحتوى بدقة وتصنيفها إلى فئات ذات معنى معنوي، من أشكال متعددة للمستندات، وهو ما يظل تحديًا مفتوحًا. في الآونة الأخيرة، أظهرت شبكات التعلم العميق القائمة على المحولات قدرتها على التفوق على الأساليب التقليدية القائمة على التحويلات التلافيفية (Convolutional) في مجال كشف الكائنات. في هذه الورقة، ننظر إلى DLU كمهمة كشف، ونُقدِّم TRDLU الذي يُدمج بين نواة بصرية قائمة على المحولات ومحول التشفير-التفكيك (Encoder-Decoder) كمسار كشف. على الرغم من أن TRDLU هو إطار يعتمد فقط على السمات البصرية، إلا أن أداؤه يفوق نماذج تعتمد على سمات متعددة الوسائط. إلى حد معرفتنا، هذه أول دراسة تُستخدم فيها إطار عمل كاملًا قائماً على المحولات في مهام DLU. تم تقييم TRDLU على ثلاث مجموعات معيارية مختلفة لمهام DLU، كل منها تمتلك قواعد مقارنة قوية. وقد تفوق TRDLU على أحدث الطرق المتطورة في جميع هذه المجموعات.