词元化(Tokenization)

来自jwjp-Just Wiki Join Portal
跳转到导航 跳转到搜索

Category:人工智能术语Category:自然语言处理术语Template:信息框​ 一、定义​ 词元化(Tokenization)是自然语言处理(NLP)与大语言模型的核心前置预处理步骤,指将原始文本、代码、符号等信息,按照一定规则拆分为若干个词元(最小信息处理单元)的过程。词元化的质量,直接影响模型的理解与生成效果。​ 二、核心目的​ 适配模型处理大语言模型无法直接理解完整文本,需通过词元化将文本转换为模型可识别的词元序列;​ 提取语义基础:将连续的文本拆分为独立的词元,便于模型识别每个词元的语义特征,实现语义理解;​ 统一计量标准:通过词元化,将不同类型(中文、英文、代码)的内容,统一转换为词元,便于模型统一处理与计费;​ 优化处理效率:合理的词元化规则,可减少冗余信息,提升模型的处理速度与准确性。​ 三、常见词元化规则​ 不同语言、不同模型的词元化规则略有差异,主流规则如下:​ 中文词元化:通常1个汉字对应1个词元,部分模型会结合词语拆分(如“人工智能”拆分为“人工”“智能”两个词元);​ 英文词元化:多采用子词拆分规则,常用单词(如“hello”)对应1个词元,长单词(如“unconstitutional”)拆分为子词(“un-”“constitutional”),减少词表规模;​ 符号与代码词元化:标点、数字、emoji、代码符号(如=、;、{})均独立计为1个词元,空格通常不计入词元;​ 多模态词元化:图像、音频等非文本内容,通过算法量化为对应词元,实现与文本词元的统一处理。​ 四、与词元的关联​ 词元化与词元是“过程与产物”的关系:​ 词元化是过程:将原始内容拆分为词元的操作;​ 词元是产物:词元化过程的最终结果,是模型处理的最小单元;​ 相互影响:词元化规则决定词元的拆分精度,而词元的质量又决定模型的处理效果;​ 不可分割:所有基于词元的处理(如大模型交互、NLP任务),均需先经过词元化步骤。​ 五、相关词条​