HyperAI

Wortart-Tagging

Wortart-Tagging(POS-Tagging) ist der Prozess der Klassifizierung und Markierung von Wörtern in einem Satz. Dabei handelt es sich um den Vorgang, jedem Wort durch eine Wortartklassifizierung basierend auf den Komponenten, die es in der syntaktischen Struktur oder Sprachmorphologie trägt, ein Wortartkennzeichen zuzuweisen.

Das heißt, der Vorgang, bei dem festgestellt wird, ob jedes Wort in einem Satz ein Substantiv, ein Verb, ein Adjektiv oder eine andere Wortart ist, wird auch als „Part-of-Speech-Tagging“ oder einfach als „Tagging“ bezeichnet.

Die Kennzeichnung von Wortarten ist eine grundlegende Aufgabe der natürlichen Sprachverarbeitung und wird bei der Spracherkennung, der Informationsbeschaffung und vielen anderen Bereichen der natürlichen Sprachverarbeitung verwendet.

Wortklassifizierung

Wörter können in zwei Hauptkategorien unterteilt werden:

  • Inhaltswörter: Nomen, Verben, Adjektive, Zustandswörter, Unterscheidungswörter, Zahlwörter, Quantifikatoren, Pronomen
  • Funktionswörter: Adverbien, Präpositionen, Konjunktionen, Hilfswörter, Onomatopoesie und Interjektionen.

Unter Wortart-Tagging versteht man den Vorgang, für jedes Wort im Ergebnis der Wortsegmentierung eine korrekte Wortart zu markieren, also den Vorgang, die Wortart jedes Wortes zu bestimmen.

Methoden zur Implementierung der Wortartmarkierung:

Man kann im Wesentlichen in regelbasierte und statistikbasierte Methoden unterteilen.

(1) Wortart-Tagging basierend auf maximaler Entropie

(2) Wortartausgabe auf Basis statistischer Maximalwahrscheinlichkeit

(3) Wortart-Tagging basierend auf HMM

Anwendung der Wortart-Kennzeichnung:

(1) Vorverarbeitung der syntaktischen Analyse

(2) Vorverarbeitung des Wortschatzerwerbs

(3) Vorverarbeitung der Informationsextraktion

Wortart-Tagging und andere

(1) Bei der Wortartmarkierung handelt es sich im Wesentlichen um ein Sequenzmarkierungsproblem oder genauer gesagt um ein Klassifizierungsproblem.

(2) Die Wortartmarkierung und die Segmentierung chinesischer Wörter sind eng miteinander verbunden und können auf zwei Arten kombiniert werden.

  • Pipeline: Erst segmentieren, dann taggen
  • Gemeinsames Modell: Wortsegmentierung und Tagging werden gleichzeitig durchgeführt
Verwandte Wörter / Bedeutung: syntaxbaum