HyperAIHyperAI
منذ 2 أشهر

تصنيف النصوص العملية باستخدام نماذج اللغة المدربة مسبقًا على نطاق واسع

Neel Kant; Raul Puri; Nikolai Yakovenko; Bryan Catanzaro
تصنيف النصوص العملية باستخدام نماذج اللغة المدربة مسبقًا على نطاق واسع
الملخص

تصنيف المشاعر متعددة الأبعاد هو مشكلة معالجة اللغة الطبيعية (NLP) ذات حالات استخدام قيمة على البيانات الحقيقية. نوضح أن الجمع بين النمذجة اللغوية بدون إشراف على نطاق واسع والضبط الدقيق يقدم حلاً عمليًا لهذه المهمة في مجموعات بيانات صعبة، بما في ذلك تلك التي تعاني من عدم توازن فئات التسمية والسياق الخاص بالمنطقة. من خلال تدريب شبكة Transformer المستندة إلى الانتباه (Vaswani et al. 2017) على 40 جيجابايت من النصوص (تعليقات أمازون) (McAuley et al. 2015) وضبطها بدقة على مجموعة التدريب، يحقق نموذجنا درجة F1 قدرها 0.69 في مشكلة تصنيف المشاعر متعددة الأبعاد لـ SemEval مهمة 1: E-c (Mohammad et al. 2018)، والتي تستند إلى عجلة المشاعر لـ Plutchik (Plutchik 1979). هذه النتائج تنافس النماذج الرائدة، بما في ذلك درجات F1 قوية في فئات صعبة مثل الخوف (0.73)، الغثيان (0.77) والغضب (0.78)، بالإضافة إلى نتائج تنافسية في الفئات النادرة مثل التوقع (0.42) والمفاجأة (0.37). علاوة على ذلك، نوضح تطبيقنا في مهمة تصنيف النصوص الحقيقية. نقوم بإنشاء مجموعة بيانات ضيقة للنصوص تتضمن تغريدات حقيقية حول عدة مواضيع، ونظهر أن نموذجنا المُضبط بدقة يتفوق بشكل كبير على الواجهات البرمجية المتاحة تجارياً للأغراض العامة في تصنيف المشاعر وتصنيف المشاعر متعددة الأبعاد على هذه المجموعة من البيانات. كما أجرينا مجموعة متنوعة من الدراسات الإضافية، حيث بحثنا خصائص هياكل التعلم العميق ومجموعات البيانات والخوارزميات لتحقيق تصنيف المشاعر متعددة الأبعاد العملي. بشكل عام، نجد أن النمذجة اللغوية بدون إشراف والضبط الدقيق هي إطار بسيط لتحقيق نتائج عالية الجودة في تصنيف المشاعر الحقيقية.请注意,"Anticipation" 和 "Surprise" 在阿拉伯语中分别翻译为 "التوقع" 和 "المفاجأة",而 "Fear", "Disgust", 和 "Anger" 分别翻译为 "الخوف", "الغثيان", 和 "الغضب"。这些术语在情感分类研究中较为常见,因此直接使用了通用译法。

تصنيف النصوص العملية باستخدام نماذج اللغة المدربة مسبقًا على نطاق واسع | أحدث الأوراق البحثية | HyperAI