HyperAIHyperAI
منذ 16 أيام

تصنيف مصطلحات الاسم المعرف في مجموعة بيانات Tweebank وبناء نماذج معالجة اللغة الطبيعية لتحليل وسائل التواصل الاجتماعي

Hang Jiang, Yining Hua, Doug Beeferman, Deb Roy
تصنيف مصطلحات الاسم المعرف في مجموعة بيانات Tweebank وبناء نماذج معالجة اللغة الطبيعية لتحليل وسائل التواصل الاجتماعي
الملخص

تُشكّل بيانات وسائل التواصل الاجتماعي، مثل رسائل تويتر (المعروفة بـ "التويتس")، تحديًا خاصًا أمام أنظمة معالجة اللغة الطبيعية (NLP) نظرًا لطبيعتها القصيرة، والضوضائية، والعامية. وتتطلب المهام مثل التعرف على الكيانات الاسمية (Named Entity Recognition - NER) وتحليل التركيب النحوي (syntactic parsing) بيانات تدريب مطابقة تمامًا للمجال لتحقيق أداء جيد. حتى الآن، لا توجد أي مجموعة تدريبية شاملة تغطي كلا المهمتين: NER والتحليل النحوي (مثل تحديد أجزاء الكلام وتحليل الاعتماد). وعلى الرغم من وجود بعض المجموعات المُعلّمة مسبقًا والمتاحة للجمهور لتحليل تويتر، إلا أنها مصممة فقط لمهام فردية. في هذه الدراسة، نهدف إلى إنشاء Tweebank-NER، وهي مجموعة بيانات للإحالة الاسمية باللغة الإنجليزية مستندة إلى Tweebank V2 (TB2)، وتدريب نماذج NLP حديثة جدًا (SOTA) على TB2، وإطلاق أداة متكاملة لمعالجة تويتر تُسمى Twitter-Stanza. قمنا بتمييز الكيانات الاسمية في TB2 باستخدام منصة Amazon Mechanical Turk، وقمنا بقياس جودة التصنيفات التي تم إجراؤها. كما قمنا بتدريب أداة Stanza على TB2، وقارنا أدائها مع أطر عمل NLP بديلة (مثل FLAIR و spaCy) والنماذج القائمة على المُحول (transformer). حققت أدوات التجزئة (tokenization) والتأصيل (lemmatization) في Stanza أفضل أداء ممكن (SOTA) على TB2، بينما حققت أداة التصنيف الاسمي (NER)، وتصنيف أجزاء الكلام (POS)، وتحليل الاعتماد (dependency parsing) في Stanza أداءً تنافسيًا مقارنة بالنماذج غير القائمة على المُحول. وتمكّنت النماذج القائمة على المُحول من إرساء قاعدة أداء قوية في Tweebank-NER، وتحقيق أفضل أداء ممكن (SOTA) في تصنيف أجزاء الكلام وتحليل الاعتماد على TB2. ونُطلق المجموعة البيانات، ونُوفر أداة Stanza والنماذج القائمة على BERTweet بشكل جاهز للاستخدام (off-the-shelf) في الأبحاث المستقبلية المتعلقة بمعالجة تويتر باللغة الطبيعية. يمكن الوصول إلى الكود المصدري، والبيانات، والنماذج المُدرّبة مسبقًا من خلال الرابط التالي: \url{https://github.com/social-machines/TweebankNLP}.

تصنيف مصطلحات الاسم المعرف في مجموعة بيانات Tweebank وبناء نماذج معالجة اللغة الطبيعية لتحليل وسائل التواصل الاجتماعي | أحدث الأوراق البحثية | HyperAI