HyperAIHyperAI

Command Palette

Search for a command to run...

Sur le rôle du prétraitement du texte dans les architectures de réseaux neuronaux : une étude d'évaluation sur la catégorisation du texte et l'analyse des sentiments

Jose Camacho-Collados Mohammad Taher Pilehvar

Résumé

Le prétraitement du texte est souvent la première étape dans le pipeline d'un système de Traitement Automatique des Langues Naturelles (TALN), avec un potentiel impact sur ses performances finales. Malgré son importance, le prétraitement du texte n'a pas reçu beaucoup d'attention dans la littérature sur l'apprentissage profond. Dans cet article, nous examinons l'impact de décisions simples de prétraitement du texte (en particulier la tokenisation, la lemmatisation, la mise en minuscules et le regroupement des mots composés) sur les performances d'un classifieur neuronal textuel standard. Nous menons une évaluation approfondie sur des benchmarks standards issus de la catégorisation du texte et de l'analyse de sentiments. Bien que nos expériences montrent qu'une tokenisation simple du texte d'entrée est généralement suffisante, elles mettent également en lumière des variations importantes entre les techniques de prétraitement. Cela révèle l'importance de prêter attention à cette étape souvent négligée du pipeline, en particulier lors de la comparaison de différents modèles. Enfin, notre évaluation fournit des indications sur les meilleures pratiques de prétraitement pour l'entraînement des plongements lexicaux (word embeddings).


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp