词元化(Tokenization)
Category:人工智能术语 Category:自然语言处理术语 Template:信息框 一、定义 词元化(Tokenization)是自然语言处理(NLP)与大语言模型的核心前置预处理步骤,指将原始文本、代码、符号等信息,按照一定规则拆分为若干个词元(最小信息处理单元)的过程。词元化的质量,直接影响模型的理解与生成效果。 二、核心目的 适配模型处理:大语言模型无法直接理解完整文本,需通过词元化将文本转换为模型可识别的词元序列; 提取语义基础:将连续的文本拆分为独立的词元,便于模型识别每个词元的语义特征,实现语义理解; 统一计量标准:通过词元化,将不同类型(中文、英文、代码)的内容,统一转换为词元,便于模型统一处理与计费; 优化处理效率:合理的词元化规则,可减少冗余信息,提升模型的处理速度与准确性。 三、常见词元化规则 不同语言、不同模型的词元化规则略有差异,主流规则如下: 中文词元化:通常1个汉字对应1个词元,部分模型会结合词语拆分(如“人工智能”拆分为“人工”“智能”两个词元); 英文词元化:多采用子词拆分规则,常用单词(如“hello”)对应1个词元,长单词(如“unconstitutional”)拆分为子词(“un-”“constitutional”),减少词表规模; 符号与代码词元化:标点、数字、emoji、代码符号(如=、;、{})均独立计为1个词元,空格通常不计入词元; 多模态词元化:图像、音频等非文本内容,通过算法量化为对应词元,实现与文本词元的统一处理。 四、与词元的关联 词元化与词元是“过程与产物”的关系: 词元化是过程:将原始内容拆分为词元的操作; 词元是产物:词元化过程的最终结果,是模型处理的最小单元; 相互影响:词元化规则决定词元的拆分精度,而词元的质量又决定模型的处理效果; 不可分割:所有基于词元的处理(如大模型交互、NLP任务),均需先经过词元化步骤。 五、相关词条