查看“︁词元化(Tokenization)”︁的源代码
←
词元化(Tokenization)
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{分类:人工智能术语}} {{分类:自然语言处理术语}} {{信息框|标题=词元化(Tokenization)|内容= * 英文对应:Tokenization * 核心定义:将文本拆分为[[词元]]的预处理过程 * 核心关联:[[词元]]是词元化的产物,是大语言模型的前置步骤 * 应用场景:所有自然语言处理、大语言模型交互的前置处理 }} 一、定义 '''词元化(Tokenization)'''是自然语言处理(NLP)与[[大语言模型]]的核心前置预处理步骤,指将原始文本、代码、符号等信息,按照一定规则拆分为若干个[[词元]](最小信息处理单元)的过程。词元化的质量,直接影响模型的理解与生成效果。 二、核心目的 '''适配模型处理''':[[大语言模型]]无法直接理解完整文本,需通过词元化将文本转换为模型可识别的[[词元]]序列; '''提取语义基础''':将连续的文本拆分为独立的[[词元]],便于模型识别每个词元的语义特征,实现语义理解; '''统一计量标准''':通过词元化,将不同类型(中文、英文、代码)的内容,统一转换为[[词元]],便于模型统一处理与计费; '''优化处理效率''':合理的词元化规则,可减少冗余信息,提升模型的处理速度与准确性。 三、常见词元化规则 不同语言、不同模型的词元化规则略有差异,主流规则如下: '''中文词元化''':通常1个汉字对应1个[[词元]],部分模型会结合词语拆分(如“人工智能”拆分为“人工”“智能”两个词元); '''英文词元化''':多采用子词拆分规则,常用单词(如“hello”)对应1个词元,长单词(如“unconstitutional”)拆分为子词(“un-”“constitutional”),减少词表规模; '''符号与代码词元化''':标点、数字、emoji、代码符号(如=、;、{})均独立计为1个[[词元]],空格通常不计入词元; '''多模态词元化''':图像、音频等非文本内容,通过算法量化为对应[[词元]],实现与文本词元的统一处理。 四、与词元的关联 词元化与[[词元]]是“过程与产物”的关系: 词元化是过程:将原始内容拆分为[[词元]]的操作; 词元是产物:词元化过程的最终结果,是模型处理的最小单元; 相互影响:词元化规则决定[[词元]]的拆分精度,而[[词元]]的质量又决定模型的处理效果; 不可分割:所有基于[[词元]]的处理(如大模型交互、NLP任务),均需先经过词元化步骤。 五、相关词条 * [[词元(Token)]] * [[大语言模型(LLM)]] * [[自然语言处理(NLP)]] * [[上下文窗口]]
该页面嵌入的页面:
Template:信息框
(
查看源代码
)
Category:人工智能术语
(
查看源代码
)
Category:自然语言处理术语
(
查看源代码
)
返回
词元化(Tokenization)
。
导航菜单
个人工具
中文
登录
命名空间
页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息