HyperAIHyperAI

Command Palette

Search for a command to run...

استخراج التسميات التوضيحية التلقائي المدمج بخصائص بصرية من الأطروحات والرسائل الإلكترونية الممسوحة ضوئيًا

Muntabir Hasan Choudhury Himarsha R. Jayanetti Jian Wu William A. Ingram Edward A. Fox

الملخص

تحتوي الرسائل والأطروحات الإلكترونية (ETDs) على معرفة متخصصة يمكن استخدامها في العديد من المهام المتعلقة بالمكتبات الرقمية، مثل تحليل الشبكات الاستشهادية وتوقع الاتجاهات البحثية. تُعد استخراج البيانات الوصفية تلقائيًا أمرًا بالغ الأهمية لبناء محركات بحث قابلة للتوسع في المكتبات الرقمية. ومعظم الطرق الحالية مصممة خصيصًا للمستندات الرقمية الأصلية، مما يجعلها غالبًا غير فعالة في استخراج البيانات الوصفية من المستندات الممسوحة ضوئيًا، مثل الرسائل والأطروحات الإلكترونية. تعتمد الطرق التقليدية لتصنيف التسلسل بشكل رئيسي على السمات النصية. في هذا البحث، نقترح نموذجًا يعتمد على الحقل العشوائي الشرطي (CRF) يدمج بين السمات النصية والسمات البصرية. ولإثبات متانة النموذج، قمنا بتوسيع مجموعة بيانات موجودة وإنشاء مجموعة بيانات جديدة موثقة بشكل بشري، تتكون من 500 غلاف لرسائل وأطروحات إلكترونية مع بيانات وصفية مُختَرَّة وتم التحقق منها يدويًا. أظهرت تجاربنا أن النموذج المبني على CRF مع السمات البصرية تفوق على كل من النموذج اليدوي (heuristic) والنموذج المبني على CRF باستخدام فقط السمات النصية. وحقق النموذج المقترح قياسًا لدقة F1 يتراوح بين 81.3% و96% في سبع مجالات للبيانات الوصفية. وتم توفير البيانات والكود المصدري بشكل عام على Google Drive (https://tinyurl.com/y8kxzwrp) وعلى مستودع GitHub (https://github.com/lamps-lab/ETDMiner/tree/master/etd_crf) على التوالي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp