HyperAIHyperAI

Command Palette

Search for a command to run...

تصنيف مصطلحات الاسم المعرف في مجموعة بيانات Tweebank وبناء نماذج معالجة اللغة الطبيعية لتحليل وسائل التواصل الاجتماعي

Hang Jiang Yining Hua Doug Beeferman Deb Roy

الملخص

تُشكّل بيانات وسائل التواصل الاجتماعي، مثل رسائل تويتر (المعروفة بـ "التويتس")، تحديًا خاصًا أمام أنظمة معالجة اللغة الطبيعية (NLP) نظرًا لطبيعتها القصيرة، والضوضائية، والعامية. وتتطلب المهام مثل التعرف على الكيانات الاسمية (Named Entity Recognition - NER) وتحليل التركيب النحوي (syntactic parsing) بيانات تدريب مطابقة تمامًا للمجال لتحقيق أداء جيد. حتى الآن، لا توجد أي مجموعة تدريبية شاملة تغطي كلا المهمتين: NER والتحليل النحوي (مثل تحديد أجزاء الكلام وتحليل الاعتماد). وعلى الرغم من وجود بعض المجموعات المُعلّمة مسبقًا والمتاحة للجمهور لتحليل تويتر، إلا أنها مصممة فقط لمهام فردية. في هذه الدراسة، نهدف إلى إنشاء Tweebank-NER، وهي مجموعة بيانات للإحالة الاسمية باللغة الإنجليزية مستندة إلى Tweebank V2 (TB2)، وتدريب نماذج NLP حديثة جدًا (SOTA) على TB2، وإطلاق أداة متكاملة لمعالجة تويتر تُسمى Twitter-Stanza. قمنا بتمييز الكيانات الاسمية في TB2 باستخدام منصة Amazon Mechanical Turk، وقمنا بقياس جودة التصنيفات التي تم إجراؤها. كما قمنا بتدريب أداة Stanza على TB2، وقارنا أدائها مع أطر عمل NLP بديلة (مثل FLAIR و spaCy) والنماذج القائمة على المُحول (transformer). حققت أدوات التجزئة (tokenization) والتأصيل (lemmatization) في Stanza أفضل أداء ممكن (SOTA) على TB2، بينما حققت أداة التصنيف الاسمي (NER)، وتصنيف أجزاء الكلام (POS)، وتحليل الاعتماد (dependency parsing) في Stanza أداءً تنافسيًا مقارنة بالنماذج غير القائمة على المُحول. وتمكّنت النماذج القائمة على المُحول من إرساء قاعدة أداء قوية في Tweebank-NER، وتحقيق أفضل أداء ممكن (SOTA) في تصنيف أجزاء الكلام وتحليل الاعتماد على TB2. ونُطلق المجموعة البيانات، ونُوفر أداة Stanza والنماذج القائمة على BERTweet بشكل جاهز للاستخدام (off-the-shelf) في الأبحاث المستقبلية المتعلقة بمعالجة تويتر باللغة الطبيعية. يمكن الوصول إلى الكود المصدري، والبيانات، والنماذج المُدرّبة مسبقًا من خلال الرابط التالي: \url{https://github.com/social-machines/TweebankNLP}.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تصنيف مصطلحات الاسم المعرف في مجموعة بيانات Tweebank وبناء نماذج معالجة اللغة الطبيعية لتحليل وسائل التواصل الاجتماعي | مستندات | HyperAI