HyperAIHyperAI
منذ 2 أشهر

UCPhrase: التسمية الجملية ذات الجودة العالية والوعي السياقي بدون إشراف

Xiaotao Gu; Zihan Wang; Zhenyu Bi; Yu Meng; Liyuan Liu; Jiawei Han; Jingbo Shang
UCPhrase: التسمية الجملية ذات الجودة العالية والوعي السياقي بدون إشراف
الملخص

تحديد وفهم العبارات ذات الجودة من السياق هو مهمة أساسية في تعدين النصوص. الجزء الأكثر تحديًا في هذه المهمة يكمن، برأي العديد من الخبراء، في العبارات غير الشائعة والناشئة والمحددة للنطاق. الطبيعة القليلة الحدوث لهذه العبارات تؤثر بشكل كبير على أداء طرق تعدين العبارات التي تعتمد على تكرار كافٍ للعبارات في المكتبة المرجعية المدخلة. نماذج التسمية الواعية بالسياق، رغم أنها غير مقيدة بالتكرار، تعتمد بشكل كبير على الخبراء في المجال لتوفير ملايين التسميات الذهبية على مستوى الجمل أو قوائم معدة يدويًا. في هذا العمل، نقترح UCPhrase، وهو نموذج جديد للتسمية الواعي بالسياق للعبارات ذات الجودة بدون إشراف. بصفة خاصة، نستخرج فواصل عبارات ذات جودة عالية كتسميات فضية من تسلسلات الكلمات التي تتكرر باستمرار داخل كل وثيقة. مقارنةً بالرقابة البعيدة التقليدية المستندة إلى قواعد البيانات المعرفية (KBs) الموجودة، فإن تسمياتنا الفضية تستند بشكل عميق إلى المجال والمحتوى المدخلين، مما يمنحها مزايا فريدة في الحفاظ على اكتمال السياق واكتشاف العبارات الناشئة خارج قواعد البيانات المعرفية. غالبًا ما تواجه عملية تدريب النموذج العصبي التقليدي المستندة إلى التسميات الفضية خطر الانطباع الزائد للأسماء السطحية للعبارات. بدلاً من ذلك، لاحظنا أن خرائط الانتباه السياقية التي يتم إنشاؤها بواسطة نموذج لغوي عصبي يستند إلى المحول (Transformer) تكشف بشكل فعال الروابط بين الكلمات بطريقة لا تعتمد على السطح. لذلك، نربط مثل هذه خرائط الانتباه مع التسميات الفضية لتدريب نموذج تنبؤ خفيف الوزن بالفواصل الزمنية يمكن تطبيقه على الإدخال الجديد لاكتشاف (غير المشاهدة سابقًا) العبارات ذات الجودة بغض النظر عن أسمائها السطحية أو معدل حدوثها. أظهرت التجارب الشاملة على مجموعة متنوعة من المهام والقواعد بيانات، بما في ذلك تصنيف العبارات على مستوى المكتبة المرجعية واستخراج الكلمات الرئيسية على مستوى الوثيقة وتسمية العبارات على مستوى الجملة، الأفضلية الواضحة لمصممنا مقارنةً بالطرق المتقدمة بدون إشراف والرقابة البعيدة.请注意,这里的“UCPhrase”是一个专有名词,因此在阿拉伯语中保留了其原始形式。其他术语如“context-aware tagging models”、“neural tagger”、“transformer-based neural language model”等也采用了通用的阿拉伯语译法。

UCPhrase: التسمية الجملية ذات الجودة العالية والوعي السياقي بدون إشراف | أحدث الأوراق البحثية | HyperAI