HyperAIHyperAI
منذ 8 أيام

كشف العدائية في اللغة الهندية باستخدام نماذج اللغة المُدرّبة مسبقًا

Ojasv Kamal, Adarsh Kumar, Tejas Vaidhya
كشف العدائية في اللغة الهندية باستخدام نماذج اللغة المُدرّبة مسبقًا
الملخص

تتزايد المحتويات العدوانية على منصات التواصل الاجتماعي بشكل مستمر. وقد أدى ذلك إلى الحاجة إلى كشف دقيق للمحتويات العدوانية لاتخاذ إجراءات مناسبة للتعامل معها. وعلى الرغم من الجهود الكبيرة التي بُذلت مؤخرًا في اللغة الإنجليزية لحل مشكلة المحتوى العدوانية على الإنترنت، إلا أن الأعمال المماثلة بلغات الهندية تظل نادرة جدًا. يقدم هذا البحث نهجًا يعتمد على التعلم النقلية لتصنيف منشورات وسائل التواصل الاجتماعي (مثل تويتر وفيسبوك، إلخ) باللغة الهندية باستخدام النص الهندي (ديفاناغاري)، وذلك لتحديد ما إذا كان المنشور عدوانياً أم غير عدواني. كما يتم تحليل المنشورات العدوانية لتحديد ما إذا كانت كراهية، أو مزيفة، أو تشهيرية، أو مهينة. ويستفيد هذا البحث من نماذج مُدرّبة مسبقًا تعتمد على الانتباه، وتم تدريبها بشكل دقيق على بيانات هندية باستخدام مهمة تصنيف "عدوانية-غير عدوانية" كمهمة تكميلية، مع دمج ميزاتها لتصنيف المهام الفرعية اللاحقة. وباستخدام هذا النهج، نُنشئ نموذجًا قويًا وثابتًا دون الحاجة إلى تجميع النماذج (ensembling) أو معالجة مسبقة معقدة. وقد قدمنا نتائج هذا النهج في مشاركة "CONSTRAINT-2021" الخاصة بكشف المنشورات العدوانية، حيث حقق النموذج أداءً ممتازًا، حيث احتل المركز الثالث في التصنيف العام بناءً على مقياس F1 الدقيق الموزون.

كشف العدائية في اللغة الهندية باستخدام نماذج اللغة المُدرّبة مسبقًا | أحدث الأوراق البحثية | HyperAI