查看“︁词元化（Tokenization）”︁的源代码

{{分类:人工智能术语}}
{{分类:自然语言处理术语}}
{{信息框|标题=词元化（Tokenization）|内容=
* 英文对应：Tokenization
* 核心定义：将文本拆分为[[词元]]的预处理过程
* 核心关联：[[词元]]是词元化的产物，是大语言模型的前置步骤
* 应用场景：所有自然语言处理、大语言模型交互的前置处理
}}
一、定义
'''词元化（Tokenization）'''是自然语言处理（NLP）与[[大语言模型]]的核心前置预处理步骤，指将原始文本、代码、符号等信息，按照一定规则拆分为若干个[[词元]]（最小信息处理单元）的过程。词元化的质量，直接影响模型的理解与生成效果。
二、核心目的
'''适配模型处理'''：[[大语言模型]]无法直接理解完整文本，需通过词元化将文本转换为模型可识别的[[词元]]序列；
'''提取语义基础'''：将连续的文本拆分为独立的[[词元]]，便于模型识别每个词元的语义特征，实现语义理解；
'''统一计量标准'''：通过词元化，将不同类型（中文、英文、代码）的内容，统一转换为[[词元]]，便于模型统一处理与计费；
'''优化处理效率'''：合理的词元化规则，可减少冗余信息，提升模型的处理速度与准确性。
三、常见词元化规则
不同语言、不同模型的词元化规则略有差异，主流规则如下：
'''中文词元化'''：通常1个汉字对应1个[[词元]]，部分模型会结合词语拆分（如“人工智能”拆分为“人工”“智能”两个词元）；
'''英文词元化'''：多采用子词拆分规则，常用单词（如“hello”）对应1个词元，长单词（如“unconstitutional”）拆分为子词（“un-”“constitutional”），减少词表规模；
'''符号与代码词元化'''：标点、数字、emoji、代码符号（如=、;、{}）均独立计为1个[[词元]]，空格通常不计入词元；
'''多模态词元化'''：图像、音频等非文本内容，通过算法量化为对应[[词元]]，实现与文本词元的统一处理。
四、与词元的关联
词元化与[[词元]]是“过程与产物”的关系：
词元化是过程：将原始内容拆分为[[词元]]的操作；
词元是产物：词元化过程的最终结果，是模型处理的最小单元；
相互影响：词元化规则决定[[词元]]的拆分精度，而[[词元]]的质量又决定模型的处理效果；
不可分割：所有基于[[词元]]的处理（如大模型交互、NLP任务），均需先经过词元化步骤。
五、相关词条
* [[词元（Token）]]
* [[大语言模型（LLM）]]
* [[自然语言处理（NLP）]]
* [[上下文窗口]]