منذ 6 أشهر

الملخص

تُشكّل بيانات وسائل التواصل الاجتماعي، مثل رسائل تويتر (المعروفة بـ "التويتس")، تحديًا خاصًا أمام أنظمة معالجة اللغة الطبيعية (NLP) نظرًا لطبيعتها القصيرة، والضوضائية، والعامية. وتتطلب المهام مثل التعرف على الكيانات الاسمية (Named Entity Recognition - NER) وتحليل التركيب النحوي (syntactic parsing) بيانات تدريب مطابقة تمامًا للمجال لتحقيق أداء جيد. حتى الآن، لا توجد أي مجموعة تدريبية شاملة تغطي كلا المهمتين: NER والتحليل النحوي (مثل تحديد أجزاء الكلام وتحليل الاعتماد). وعلى الرغم من وجود بعض المجموعات المُعلّمة مسبقًا والمتاحة للجمهور لتحليل تويتر، إلا أنها مصممة فقط لمهام فردية. في هذه الدراسة، نهدف إلى إنشاء Tweebank-NER، وهي مجموعة بيانات للإحالة الاسمية باللغة الإنجليزية مستندة إلى Tweebank V2 (TB2)، وتدريب نماذج NLP حديثة جدًا (SOTA) على TB2، وإطلاق أداة متكاملة لمعالجة تويتر تُسمى Twitter-Stanza. قمنا بتمييز الكيانات الاسمية في TB2 باستخدام منصة Amazon Mechanical Turk، وقمنا بقياس جودة التصنيفات التي تم إجراؤها. كما قمنا بتدريب أداة Stanza على TB2، وقارنا أدائها مع أطر عمل NLP بديلة (مثل FLAIR و spaCy) والنماذج القائمة على المُحول (transformer). حققت أدوات التجزئة (tokenization) والتأصيل (lemmatization) في Stanza أفضل أداء ممكن (SOTA) على TB2، بينما حققت أداة التصنيف الاسمي (NER)، وتصنيف أجزاء الكلام (POS)، وتحليل الاعتماد (dependency parsing) في Stanza أداءً تنافسيًا مقارنة بالنماذج غير القائمة على المُحول. وتمكّنت النماذج القائمة على المُحول من إرساء قاعدة أداء قوية في Tweebank-NER، وتحقيق أفضل أداء ممكن (SOTA) في تصنيف أجزاء الكلام وتحليل الاعتماد على TB2. ونُطلق المجموعة البيانات، ونُوفر أداة Stanza والنماذج القائمة على BERTweet بشكل جاهز للاستخدام (off-the-shelf) في الأبحاث المستقبلية المتعلقة بمعالجة تويتر باللغة الطبيعية. يمكن الوصول إلى الكود المصدري، والبيانات، والنماذج المُدرّبة مسبقًا من خلال الرابط التالي: \url{https://github.com/social-machines/TweebankNLP}.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Hang Jiang Yining Hua Doug Beeferman Deb Roy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Hang Jiang Yining Hua Doug Beeferman Deb Roy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Hang Jiang Yining Hua Doug Beeferman Deb Roy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تصنيف مصطلحات الاسم المعرف في مجموعة بيانات Tweebank وبناء نماذج معالجة اللغة الطبيعية لتحليل وسائل التواصل الاجتماعي

Hang Jiang Yining Hua Doug Beeferman Deb Roy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تصنيف مصطلحات الاسم المعرف في مجموعة بيانات Tweebank وبناء نماذج معالجة اللغة الطبيعية لتحليل وسائل التواصل الاجتماعي

Hang Jiang Yining Hua Doug Beeferman Deb Roy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

تصنيف مصطلحات الاسم المعرف في مجموعة بيانات Tweebank وبناء نماذج معالجة اللغة الطبيعية لتحليل وسائل التواصل الاجتماعي

Hang Jiang Yining Hua Doug Beeferman Deb Roy

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters