تعزيز اكتشاف السرقة الأدبية في الماراثي باستخدام مزيج موزون من تضمينات TF-IDF و BERT لمعالجة اللغات ذات الموارد المحدودة

الانتحال يشمل استخدام أعمال أو أفكار شخص آخر دون الإشارة إليها بشكل صحيح، وتقديمها كإبداعات أصلية. مع زيادة كمية البيانات المتبادلة باللغات المحلية مثل اللغة الماراثية -- وهي إحدى اللغات المحلية في الهند -- من الضروري تصميم أنظمة اكتشاف الانتحال قوية ومخصصة للغات ذات الموارد المحدودة. لقد أثبتت نماذج اللغة مثل تمثيلات الكودك الثنائي الاتجاه من الترانسفورمر (BERT) قدرتها الاستثنائية في تمثيل النص واستخراج الخصائص، مما يجعلها أدوات أساسية للتحليل الدلالي واكتشاف الانتحال. ومع ذلك، فإن تطبيق BERT على اللغات ذات الموارد المحدودة لا يزال غير مستكشف بشكل كافٍ، خاصة في سياق اكتشاف الانتحال. يقدم هذا البحث طريقة لتحسين دقة اكتشاف الانتحال للنصوص المكتوبة باللغة الماراثية باستخدام تمثيلات الجمل الخاصة بـ BERT بالإضافة إلى تمثيل الخصائص Term Frequency-Inverse Document Frequency (TF-IDF). تمكن هذه الطريقة من التقاط جوانب الإحصاء والمعنى والنحو للخصائص النصية بشكل فعال من خلال مجمع التصويت المرتبط بالأوزان لأنماط التعلم الآلي.