تحويل وجهة نظر الرسائل المُوجَّهة إلى المساعدات الافتراضية

يمكن أن تكون المساعدات الافتراضية حرفية في بعض الأحيان. فإذا قال المستخدم: "أخبر بوب أنني أحبه"، فإن معظم المساعدات الافتراضية ستستخرج الرسالة "أحبه" وترسلها إلى جهة الاتصال التي تُدعى بوب، بدلًا من تحوير الرسالة بشكل صحيح إلى "أحبك". وقد صممنا نظامًا يسمح للمساعدات الافتراضية باستقبال رسالة صوتية من مستخدم واحد، وتحويل وجهة نظر الرسالة، ثم تسليم النتيجة إلى المستخدم المستهدف. وقد طوّرنا نموذجًا قائمًا على القواعد، يدمج نموذج تصنيف نصي خطي، وتحديد العلامات النحوية (Part-of-Speech Tagging)، وتحليل التركيب الجملة (Constituency Parsing)، مع أساليب تحويل قائمة على القواعد. كما قمنا بدراسة مناهج الترجمة الآلية العصبية (Neural Machine Translation - NMT)، بما في ذلك نماذج LSTMs وCopyNet وT5. وتم استكشاف خمسة مقاييس لتقييم الطبيعة الطبيعية والولاء للرسالة تلقائيًا، واخترنا استخدام BLEU وMETEOR لتقييم الولاء، واستخدمنا مقياس التباعد النسبي (Relative Perplexity) مع نموذج لغوي تم تدريبه بشكل منفصل (GPT) لتقييم الطبيعة الطبيعية. أظهرت نماذج Transformer-Copynet وT5 أداءً مشابهًا في مقاييس الولاء، حيث حقق T5 ميزة طفيفة، بدرجة BLEU قدرها 63.8 ودرجة METEOR قدرها 83.0. أما CopyNet فقد كان الأكثر طبيعية، بمستوى تباعد نسبي قدره 1.59. كما أن CopyNet يمتلك عددًا من المعلمات يقل عن T5 بنسبة 37 مرة. وقد أُطلِقنا بشكل عام مجموعة البيانات التي نحن بصددها، وتتكون من 46,565 عينة تم جمعها من الجمهور.