HyperAI

Balisage Des Parties Du Discours

Balisage des parties du discours(Le balisage POS) est le processus de classification et d'étiquetage des mots dans une phrase. Il s’agit du processus d’attribution d’une étiquette de partie du discours à chaque mot par le biais d’une classification des parties du discours basée sur les composants qu’il porte dans la structure syntaxique ou la morphologie de la langue.

Autrement dit, le processus consistant à déterminer si chaque mot d'une phrase est un nom, un verbe, un adjectif ou une autre partie du discours est également appelé étiquetage des parties du discours ou simplement étiquetage.

L'étiquetage des parties du discours est une tâche de base dans le traitement du langage naturel et est utilisé dans la reconnaissance vocale, la recherche d'informations et de nombreux autres domaines du traitement du langage naturel.

Classification des mots

Les mots peuvent être divisés en deux catégories principales :

  • Mots de contenu : noms, verbes, adjectifs, mots d'état, mots distinctifs, chiffres, quantificateurs, pronoms
  • Mots fonctionnels : adverbes, prépositions, conjonctions, mots auxiliaires, onomatopées et interjections.

L'étiquetage des parties du discours fait référence au processus de marquage d'une partie du discours correcte pour chaque mot dans le résultat de la segmentation des mots, c'est-à-dire au processus de détermination de la partie du discours de chaque mot.

Méthodes de mise en œuvre du balisage des parties du discours :

On peut principalement les diviser en méthodes basées sur des règles et en méthodes basées sur des statistiques.

(1) Étiquetage des parties du discours basé sur l'entropie maximale

(2) Partie du discours de sortie basée sur la probabilité maximale statistique

(3) Balisage des parties du discours basé sur HMM

Application de l'étiquetage des parties du discours :

(1) Prétraitement de l'analyse syntaxique

(2) Prétraitement de l'acquisition du vocabulaire

(3) Prétraitement de l'extraction d'informations

Balisage des parties du discours et autres

(1) L’étiquetage des parties du discours est essentiellement un problème d’étiquetage de séquence, ou plus précisément, un problème de classification.

(2) L’étiquetage des parties du discours et la segmentation des mots chinois sont étroitement liés et peuvent être combinés de deux manières.

  • Pipeline : segmenter d'abord, puis étiqueter
  • Modèle conjoint : la segmentation et le marquage des mots sont effectués simultanément
Mots apparentés : arbre syntaxique