词元化（Tokenization）

Category:人工智能术语 Category:自然语言处理术语 Template:信息框一、定义 词元化（Tokenization）是自然语言处理（NLP）与大语言模型的核心前置预处理步骤，指将原始文本、代码、符号等信息，按照一定规则拆分为若干个词元（最小信息处理单元）的过程。词元化的质量，直接影响模型的理解与生成效果。二、核心目的 适配模型处理：大语言模型无法直接理解完整文本，需通过词元化将文本转换为模型可识别的词元序列； 提取语义基础：将连续的文本拆分为独立的词元，便于模型识别每个词元的语义特征，实现语义理解； 统一计量标准：通过词元化，将不同类型（中文、英文、代码）的内容，统一转换为词元，便于模型统一处理与计费； 优化处理效率：合理的词元化规则，可减少冗余信息，提升模型的处理速度与准确性。三、常见词元化规则不同语言、不同模型的词元化规则略有差异，主流规则如下： 中文词元化：通常1个汉字对应1个词元，部分模型会结合词语拆分（如“人工智能”拆分为“人工”“智能”两个词元）； 英文词元化：多采用子词拆分规则，常用单词（如“hello”）对应1个词元，长单词（如“unconstitutional”）拆分为子词（“un-”“constitutional”），减少词表规模； 符号与代码词元化：标点、数字、emoji、代码符号（如=、;、{}）均独立计为1个词元，空格通常不计入词元； 多模态词元化：图像、音频等非文本内容，通过算法量化为对应词元，实现与文本词元的统一处理。四、与词元的关联词元化与词元是“过程与产物”的关系：词元化是过程：将原始内容拆分为词元的操作；词元是产物：词元化过程的最终结果，是模型处理的最小单元；相互影响：词元化规则决定词元的拆分精度，而词元的质量又决定模型的处理效果；不可分割：所有基于词元的处理（如大模型交互、NLP任务），均需先经过词元化步骤。五、相关词条

词元化（Tokenization）

导航菜单

搜索