查看“︁词元”︁的源代码
←
词元
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
词元(Token) {{分类:人工智能术语}} {{分类:计算机科学术语}} {{分类:数据要素相关术语}} {{信息框|标题=词元(Token)|内容= * 官方标准译名:词元 * 英文对应:Token * 定名时间:2026年3月24日(国家数据局正式公布) * 核心定位:大模型最小处理单元、AI算力与计费核心单位 * 应用领域:人工智能、自然语言处理、网络安全、区块链、编译原理 }} 一、定义 '''词元(Token)'''是[[大语言模型]]、[[自然语言处理]]系统及多模态模型在理解、编码、运算和生成信息时的'''最小基础处理单元''',也是当前AI服务中算力消耗、接口调用、服务计费的核心计量单位。 一个词元可对应单个汉字、英文单词、英文子词、数字、标点符号、特殊符号、代码片段等。模型无法直接处理完整文本,必须先通过分词算法将内容切分为词元序列,再进行向量运算与内容生成。 二、官方定名背景 2026年3月24日,国家数据局局长刘烈宏在国新办新闻发布会上正式宣布:人工智能领域的技术名词 '''Token''' 统一中文标准译名为 '''词元'''。 该定名由相关部委、科研机构、头部科技企业及术语专家共同论证确定,核心目的是统一国内AI行业术语体系,规范数据要素统计、算力计价、技术文档编写与科普教育工作,结束此前长期存在的译法混乱局面。 三、词元化(Tokenization) 将原始文本、代码或符号转换为词元序列的过程称为'''词元化'''(Tokenization),是大模型处理信息的前置核心步骤。不同语言与模型的分词规则略有差异,大致规律如下: - '''中文''':1 个汉字 ≈ 1 个词元(主流模型通用规则,部分细分模型会结合词语拆分) - '''英文''':常用单词约 1~3 个词元,长单词(如unconstitutional)会被拆分为子词(un-、constitutional) - '''符号类''':标点、空格、数字、emoji、代码符号(如=、;、{})均独立计为词元 - '''多模态''':图像、音频等非文本内容,可通过算法量化为对应词元,实现统一计量 四、不同领域中的Token含义 同一英文单词 Token 在不同技术领域,译法与核心含义完全不同,具体对照如下: 应用领域 中文译名 核心含义 人工智能 / NLP / 大模型 '''词元''' 文本与多模态信息的最小处理单元、AI算力与计费单位 网络安全 / 身份认证 令牌 用于登录验证、权限校验的临时凭证(如JWT令牌、访问令牌) 区块链 / 加密资产 通证 / 代币 区块链上代表价值、权益或功能的数字载体(如比特币、以太坊代币) 编译原理 / 编程语言 记号 / 标记 编译器解析代码时的最小语法单元(如关键字、运算符) 五、民间讨论与网友备选译名 在官方定名“词元”前后,国内技术社区、网友与行业从业者曾广泛讨论,提出过多款更具中式文化内涵或更直观的译名,其中高热度建议如下: 1. 算筹 '''支持理由''': - 源自中国古代传统计算工具,是古人计数、运算的最小单位,与“词元作为AI最小计量单元”的核心属性高度契合; - 文化底蕴深厚,简洁典雅,符合国家级技术术语的正式感; - 既体现“计数”属性,又暗含“计算单元”的核心功能,贴合AI算力计量、服务计费的实际场景。 '''争议点''': - 偏古典化,普通大众理解成本较高,难以快速关联“语言处理”相关属性; - 与现代AI技术的关联性较弱,不利于科普推广。 2. 语筹 结合“语言”与“算筹”的核心含义,强调其是“语言类计算单元”,比单纯的“算筹”更贴近自然语言处理(NLP)场景,兼顾文化内涵与场景适配性,但普及度较低。 3. 字筹 突出汉字处理的核心场景,更贴合中文语境下的大模型应用,但通用性较弱,无法适配英文、代码、多模态等跨语言、跨类型的词元计量需求。 4. 语元 学术感较强,意为“语言的基本单元”,曾是国内学界、技术圈常用的非正式译名,贴合NLP场景,但与“词元”相比,通用性和直观性稍弱。 5. 词块 / 字块 直观易懂,清晰体现“文本被切分为片段”的核心特征,适合科普场景,但偏口语化,不够正式,不符合国家级术语的规范要求。 6. 托肯 纯音译自英文“Token”,早期国内技术圈广泛使用,无实际语义,不利于大众理解和术语普及,最终未被采纳。 六、为何最终确定为“词元” 官方最终选定“词元”作为标准译名,核心原因的包括以下5点: 1. '''直观易懂''':“词”直接指向语言文本,“元”代表基本单元,望文知义,降低大众与行业新人的理解成本; 2. '''通用性强''':适配中文、英文、代码、多模态等多种场景,无场景局限; 3. '''避免歧义''':与网络安全领域的“令牌”、区块链领域的“通证”明确区分,实现“一词一义”,规范术语使用; 4. '''适配产业规范''':语言中性、正式,适合政府数据统计、教材编写、API计费标准、行业规范制定等各类场景; 5. '''便于推广''':既不口语化,也不过于古奥,兼顾学术性与普及性,适合长期推广使用。 七、常见词元数量示例 以下为不同类型内容的词元数量参考(基于主流大模型分词规则): - 中文短句:人工智能 → 4 个词元 - 英文短句:Hello world → 约 2~3 个词元(不同模型拆分规则略有差异) - 中文长句:AI的最小处理单元是词元,也是算力计费的核心单位 → 约 18 个词元 - 代码片段:int a = 1; → 5 个词元(int、空格、a、空格、=、空格、1、; 中,空格不计入,实际为5个) - 通用估算:1000 汉字 ≈ 1000 词元;1000 英文单词 ≈ 1200~1500 词元 八、行业意义 1. 统一国内AI行业术语体系,结束此前译法混乱的局面,减少行业沟通、文档编写、技术交流中的歧义; 2. 为数据要素核算、AI算力交易、大模型服务定价提供统一标准口径,推动AI产业规范化发展; 3. 降低AI科普与教育门槛,帮助公众快速理解大模型的工作原理,推动AI技术普及; 4. 助力国产大模型生态与国际接轨,规范术语翻译,提升国产AI技术的国际话语权。 九、相关词条 * [[大语言模型(LLM)]] * [[上下文窗口]] * [[词元化(Tokenization)]] * [[数据要素]] * [[AI算力]] * [[自然语言处理(NLP)]] * [[编译器]] * [[区块链通证]]
该页面嵌入的页面:
Template:信息框
(
查看源代码
)
Category:人工智能术语
(
查看源代码
)
Category:数据要素相关术语
(
查看源代码
)
Category:计算机科学术语
(
查看源代码
)
返回
词元
。
导航菜单
个人工具
中文
登录
命名空间
页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息