HyperAIHyperAI
منذ 7 أيام

مجموعة بيانات لتحليل التخطيطات المعقدة للوثائق في العلوم الإنسانية الرقمية وتقييمها باستخدام معامل كريبندورف ألفا

{Volker Rodehorst, Benno Stein, Franziska Klemstein, David Tschirschwitz}
مجموعة بيانات لتحليل التخطيطات المعقدة للوثائق في العلوم الإنسانية الرقمية وتقييمها باستخدام معامل كريبندورف ألفا
الملخص

نقدّم موارد بحثية جديدة على شكل مجموعة بيانات عالية الجودة ومخصصة لمجال معين، تُستخدم لتحليل تخطيط المستندات التاريخية. توفر هذه المجموعة بيانات حقيقية لتقسيم المُثَلّ (instance segmentation) عبر 19 فئة، مستمدة من هيكل التخطيط التاريخي الناتج عن (أ) عملية إنتاج النشر والأنواع المرتبطة بها (كالعلوم الحياتية، والهندسة المعمارية، والفن، والفنون الزخرفية، إلخ)، و(ب) من سجلات نصية مختارة (مثل الكتب الأكاديمية، والدوريات التجارية، والمجلات المصورة). تضم المجموعة مجتمعة أكثر من 52,000 مثَلًا تم تسميتها بواسطة خبراء. وقد تم اختبار نموذج أساس (baseline) باستخدام نموذج Mask R-CNN الشهير، ومقارنته بنموذج حديث متقدم (VSR). مستوحين من ممارسات التقييم في مجال معالجة اللغة الطبيعية (NLP)، طوّرنا طريقة جديدة لتقييم اتساق التسميات. تعتمد هذه الطريقة على معامل كريبندورف ألفا (K-α)، وهو مؤشر إحصائي لقياس ما يُعرف بـ "اتفاقية المُقيّمين" (inter-annotator-agreement). ونُقترح تحويلًا مُعدّلًا لـ K-α، يُعامل التسميات كرسم بياني متعدد الأجزاء (multipartite graph) لتقييم اتفاق عدد متغير من المُقيّمين. وتُعد هذه الطريقة قابلة للتعديل حسب درجة الصعوبة في التقييم، ويمكن استخدامها في بعدين أو ثلاثة أبعاد، كما تناسب مجموعة متنوعة من المهام مثل التجزئة الدلالية (semantic segmentation)، والتسمية الفردية (instance segmentation)، وتقسيم سحابات النقاط ثلاثية الأبعاد (3D point cloud segmentation).

مجموعة بيانات لتحليل التخطيطات المعقدة للوثائق في العلوم الإنسانية الرقمية وتقييمها باستخدام معامل كريبندورف ألفا | أحدث الأوراق البحثية | HyperAI