HyperAIHyperAI

Command Palette

Search for a command to run...

AttaCut : Un segmenteur de mots thaï rapide et précis basé sur un réseau neuronal

Pattarawat Chormai Ponrawee Prasertsom Attapol T. Rutherford

Résumé

La segmentation lexicale est une étape de prétraitement fondamentale pour le traitement automatique des langues naturelles en thaïlandais. Les solutions actuellement disponibles ne sont pas évaluées de manière cohérente, ce qui rend difficile la comparaison de leurs compromis. Nous avons mené une comparaison de vitesse et de précision des systèmes populaires sur trois domaines différents et avons constaté que le système d'apprentissage profond de pointe est lent et, de plus, n'utilise pas les structures sous-lexicales pour guider le modèle. Ici, nous proposons un segmenteur lexical neuronal rapide et précis pour le thaïlandais qui utilise des filtres CNN dilatés pour capturer l'environnement de chaque caractère et des plongements syllabiques (syllable embeddings) comme caractéristiques. Notre système fonctionne au moins 5,6 fois plus rapidement et surpasse le précédent système de pointe dans certains domaines. De plus, nous développons le premier segmenteur syllabique orthographique basé sur l'apprentissage machine (ML) en thaïlandais, qui fournit des plongements syllabiques à utiliser comme caractéristiques par le segmenteur lexical.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp