HyperAI超神经

标记化 Tokenization

标记化又称词汇分析,它是将字符转换成标记(具有相关标识含义的字符串)的过程。其中执行词法分析的程序也被称为词法分析器、标记器或扫描仪,但扫描仪只是词法分析器第一阶段的术语,词法分析器通常与解析器组合运用,其中解析器主要被用于分析编程语言、网页等语法。

标记化是划分并对输入字符串的部分进行分类,然后将得到的标记传递给某种其他形式的处理的过程,该过程可以被看做是解析输入的子任务。