استكشاف استخدام البرمجيات في العلوم الاجتماعية: نهج يعتمد على الرسم المعرفي

المعرفة بالبرمجيات المستخدمة في الأبحاث العلمية ضرورية لأسباب مختلفة، منها تتبع أصل النتائج، وقياس تأثير البرمجيات لتقديم الاعتراف للمطورين، وتحليل الاقتباسات البرمجية من حيث المؤشرات المعرفية بشكل عام. بالإضافة إلى ذلك، يُمكّن تقديم معلومات حول توفر البرمجيات وشفرة المصدر، سواء كان ذلك متوفرًا أم لا، وطريقة التوفر، من تقييم الحالة والدور الذي تلعبه البرمجيات المفتوحة المصدر في العلم بشكل عام. وعلى الرغم من أن هذه التحليلات يمكن إجراؤها يدويًا، إلا أن التحليلات على نطاق واسع تتطلب تطبيق أساليب آلية لاستخراج المعلومات وربطها. في هذه الورقة، نقدم "SoftwareKG" – وهو رسم معرفي يحتوي على معلومات حول الإشارات إلى البرمجيات في أكثر من 51,000 مقالًا علميًا من مجالات العلوم الاجتماعية. تم استخدام مجموعة بيانات "معيار فضي" (Silver Standard Corpus)، التي تم إنشاؤها باستخدام نهج التدريب عن بعد والتدريس الضعيف، ومجموعة بيانات "معيار ذهبي" (Gold Standard Corpus)، التي تم إنشاؤها عبر الترميز اليدوي، لتدريب شبكة عصبية قائمة على LSTM لتحديد الإشارات إلى البرمجيات في المقالات العلمية. حقق النموذج معدل اعتراف بنسبة 0.82 في مقياس F-score عند المطابقة الحرفية. كنتيجة لذلك، تم التعرف على أكثر من 133,000 إشارة إلى برمجيات. ولإتمام عملية التمييز بين الكيانات (Entity Disambiguation)، استخدمنا قاعدة المعرفة العامة DBpedia. علاوة على ذلك، قمنا بربط كيانات الرسم المعرفي مع قواعد معرفية أخرى مثل رسم المعرفة الأكاديمية التابع لشركة مايكروسوفت (Microsoft Academic Knowledge Graph)، ونموذج البرمجيات (Software Ontology)، وويكي بيانات (Wikidata). وأخيرًا، نُظهر كيف يمكن استخدام SoftwareKG لتقييم الدور الذي تلعبه البرمجيات في العلوم الاجتماعية.