HyperAIHyperAI
منذ 7 أيام

استخراج التسميات التوضيحية التلقائي المدمج بخصائص بصرية من الأطروحات والرسائل الإلكترونية الممسوحة ضوئيًا

Muntabir Hasan Choudhury, Himarsha R. Jayanetti, Jian Wu, William A. Ingram, Edward A. Fox
استخراج التسميات التوضيحية التلقائي المدمج بخصائص بصرية من الأطروحات والرسائل الإلكترونية الممسوحة ضوئيًا
الملخص

تحتوي الرسائل والأطروحات الإلكترونية (ETDs) على معرفة متخصصة يمكن استخدامها في العديد من المهام المتعلقة بالمكتبات الرقمية، مثل تحليل الشبكات الاستشهادية وتوقع الاتجاهات البحثية. تُعد استخراج البيانات الوصفية تلقائيًا أمرًا بالغ الأهمية لبناء محركات بحث قابلة للتوسع في المكتبات الرقمية. ومعظم الطرق الحالية مصممة خصيصًا للمستندات الرقمية الأصلية، مما يجعلها غالبًا غير فعالة في استخراج البيانات الوصفية من المستندات الممسوحة ضوئيًا، مثل الرسائل والأطروحات الإلكترونية. تعتمد الطرق التقليدية لتصنيف التسلسل بشكل رئيسي على السمات النصية. في هذا البحث، نقترح نموذجًا يعتمد على الحقل العشوائي الشرطي (CRF) يدمج بين السمات النصية والسمات البصرية. ولإثبات متانة النموذج، قمنا بتوسيع مجموعة بيانات موجودة وإنشاء مجموعة بيانات جديدة موثقة بشكل بشري، تتكون من 500 غلاف لرسائل وأطروحات إلكترونية مع بيانات وصفية مُختَرَّة وتم التحقق منها يدويًا. أظهرت تجاربنا أن النموذج المبني على CRF مع السمات البصرية تفوق على كل من النموذج اليدوي (heuristic) والنموذج المبني على CRF باستخدام فقط السمات النصية. وحقق النموذج المقترح قياسًا لدقة F1 يتراوح بين 81.3% و96% في سبع مجالات للبيانات الوصفية. وتم توفير البيانات والكود المصدري بشكل عام على Google Drive (https://tinyurl.com/y8kxzwrp) وعلى مستودع GitHub (https://github.com/lamps-lab/ETDMiner/tree/master/etd_crf) على التوالي.

استخراج التسميات التوضيحية التلقائي المدمج بخصائص بصرية من الأطروحات والرسائل الإلكترونية الممسوحة ضوئيًا | أحدث الأوراق البحثية | HyperAI