HyperAI

Tokenisierung

Bei der Tokenisierung, auch als lexikalische Analyse bezeichnet, handelt es sich um den Prozess der Umwandlung von Zeichen in Token (Zeichenfolgen mit zugehörigen identifizierenden Bedeutungen). Das Programm, das die lexikalische Analyse durchführt, wird auch als lexikalischer Analysator, Tokenizer oder Scanner bezeichnet, aber Scanner ist nur ein Begriff für die erste Stufe eines lexikalischen Analysators. Ein lexikalischer Analysator wird normalerweise in Kombination mit einem Parser verwendet, wobei der Parser hauptsächlich zur Analyse der Syntax von Programmiersprachen, Webseiten usw. verwendet wird.

Bei der Tokenisierung handelt es sich um den Vorgang, Teile einer Eingabezeichenfolge aufzuteilen und zu klassifizieren und die resultierenden Token dann einer anderen Verarbeitungsform zuzuführen, was als Unteraufgabe der Eingabeanalyse betrachtet werden kann.