AttaCut: مقطع كلمات تايلندي عصبي سريع ودقيق

تقطيع الكلمات هو خطوة أساسية في معالجة اللغة التايلاندية الطبيعية. الحلول الجاهزة الحالية غير مقيسة بشكل متسق، مما يجعل من الصعب مقارنة نقاط القوة والضعف فيها. أجرينا مقارنة بين السرعة والدقة لأنظمة شائعة في ثلاثة مجالات مختلفة واكتشفنا أن نظام التعلم العميق الأكثر تقدماً بطيء للغاية، بالإضافة إلى أنه لا يستخدم هياكل الكلمات الفرعية لتوجيه النموذج. هنا، نقترح نظام تقطيع كلمات تايلاندية عصبي سريع ودقيق يستخدم مرشحات CNN الممتدة لالتقاط بيئة كل حرف ويستخدم تمثيلات الأصوات كخصائص (syllable embeddings). يشتغل نظامنا بسرعة تزيد على 5.6 مرة عن النظام السابق الأكثر تقدماً ويتفوق عليه في بعض المجالات. بالإضافة إلى ذلك، قمنا بتطوير أول نظام تايلاندي للتقسيم الأصوتي المستند إلى التعلم الآلي، والذي ينتج تمثيلات الأصوات لتُستخدم كخصائص من قبل نظام تقطيع الكلمات.