词元

来自jwjp-Just Wiki Join Portal
Admin留言 | 贡献2026年3月25日 (三) 10:09的版本 (创建页面,内容为“词元(Token) {{分类:人工智能术语}} {{分类:计算机科学术语}} {{分类:数据要素相关术语}} {{信息框|标题=词元(Token)|内容= * 官方标准译名:词元 * 英文对应:Token * 定名时间:2026年3月24日(国家数据局正式公布) * 核心定位:大模型最小处理单元、AI算力与计费核心单位 * 应用领域:人工智能、自然语言处理、网络安全、区块链、编译原理 }} 一…”)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
跳转到导航 跳转到搜索

词元(Token)

Category:人工智能术语

Category:计算机科学术语

Category:数据要素相关术语

Template:信息框

一、定义

词元(Token)大语言模型自然语言处理系统及多模态模型在理解、编码、运算和生成信息时的最小基础处理单元,也是当前AI服务中算力消耗、接口调用、服务计费的核心计量单位。

一个词元可对应单个汉字、英文单词、英文子词、数字、标点符号、特殊符号、代码片段等。模型无法直接处理完整文本,必须先通过分词算法将内容切分为词元序列,再进行向量运算与内容生成。

二、官方定名背景

2026年3月24日,国家数据局局长刘烈宏在国新办新闻发布会上正式宣布:人工智能领域的技术名词 Token 统一中文标准译名为 词元

该定名由相关部委、科研机构、头部科技企业及术语专家共同论证确定,核心目的是统一国内AI行业术语体系,规范数据要素统计、算力计价、技术文档编写与科普教育工作,结束此前长期存在的译法混乱局面。

三、词元化(Tokenization)

将原始文本、代码或符号转换为词元序列的过程称为词元化(Tokenization),是大模型处理信息的前置核心步骤。不同语言与模型的分词规则略有差异,大致规律如下:

- 中文:1 个汉字 ≈ 1 个词元(主流模型通用规则,部分细分模型会结合词语拆分)

- 英文:常用单词约 1~3 个词元,长单词(如unconstitutional)会被拆分为子词(un-、constitutional)

- 符号类:标点、空格、数字、emoji、代码符号(如=、;、{})均独立计为词元

- 多模态:图像、音频等非文本内容,可通过算法量化为对应词元,实现统一计量

四、不同领域中的Token含义

同一英文单词 Token 在不同技术领域,译法与核心含义完全不同,具体对照如下:

应用领域

中文译名

核心含义

人工智能 / NLP / 大模型

词元

文本与多模态信息的最小处理单元、AI算力与计费单位

网络安全 / 身份认证

令牌

用于登录验证、权限校验的临时凭证(如JWT令牌、访问令牌)

区块链 / 加密资产

通证 / 代币

区块链上代表价值、权益或功能的数字载体(如比特币、以太坊代币)

编译原理 / 编程语言

记号 / 标记

编译器解析代码时的最小语法单元(如关键字、运算符)

五、民间讨论与网友备选译名

在官方定名“词元”前后,国内技术社区、网友与行业从业者曾广泛讨论,提出过多款更具中式文化内涵或更直观的译名,其中高热度建议如下:

1. 算筹

支持理由

- 源自中国古代传统计算工具,是古人计数、运算的最小单位,与“词元作为AI最小计量单元”的核心属性高度契合;

- 文化底蕴深厚,简洁典雅,符合国家级技术术语的正式感;

- 既体现“计数”属性,又暗含“计算单元”的核心功能,贴合AI算力计量、服务计费的实际场景。

争议点

- 偏古典化,普通大众理解成本较高,难以快速关联“语言处理”相关属性;

- 与现代AI技术的关联性较弱,不利于科普推广。

2. 语筹

结合“语言”与“算筹”的核心含义,强调其是“语言类计算单元”,比单纯的“算筹”更贴近自然语言处理(NLP)场景,兼顾文化内涵与场景适配性,但普及度较低。

3. 字筹

突出汉字处理的核心场景,更贴合中文语境下的大模型应用,但通用性较弱,无法适配英文、代码、多模态等跨语言、跨类型的词元计量需求。

4. 语元

学术感较强,意为“语言的基本单元”,曾是国内学界、技术圈常用的非正式译名,贴合NLP场景,但与“词元”相比,通用性和直观性稍弱。

5. 词块 / 字块

直观易懂,清晰体现“文本被切分为片段”的核心特征,适合科普场景,但偏口语化,不够正式,不符合国家级术语的规范要求。

6. 托肯

纯音译自英文“Token”,早期国内技术圈广泛使用,无实际语义,不利于大众理解和术语普及,最终未被采纳。

六、为何最终确定为“词元”

官方最终选定“词元”作为标准译名,核心原因的包括以下5点:

1. 直观易懂:“词”直接指向语言文本,“元”代表基本单元,望文知义,降低大众与行业新人的理解成本;

2. 通用性强:适配中文、英文、代码、多模态等多种场景,无场景局限;

3. 避免歧义:与网络安全领域的“令牌”、区块链领域的“通证”明确区分,实现“一词一义”,规范术语使用;

4. 适配产业规范:语言中性、正式,适合政府数据统计、教材编写、API计费标准、行业规范制定等各类场景;

5. 便于推广:既不口语化,也不过于古奥,兼顾学术性与普及性,适合长期推广使用。

七、常见词元数量示例

以下为不同类型内容的词元数量参考(基于主流大模型分词规则):

- 中文短句:人工智能 → 4 个词元

- 英文短句:Hello world → 约 2~3 个词元(不同模型拆分规则略有差异)

- 中文长句:AI的最小处理单元是词元,也是算力计费的核心单位 → 约 18 个词元

- 代码片段:int a = 1; → 5 个词元(int、空格、a、空格、=、空格、1、; 中,空格不计入,实际为5个)

- 通用估算:1000 汉字 ≈ 1000 词元;1000 英文单词 ≈ 1200~1500 词元

八、行业意义

1. 统一国内AI行业术语体系,结束此前译法混乱的局面,减少行业沟通、文档编写、技术交流中的歧义;

2. 为数据要素核算、AI算力交易、大模型服务定价提供统一标准口径,推动AI产业规范化发展;

3. 降低AI科普与教育门槛,帮助公众快速理解大模型的工作原理,推动AI技术普及;

4. 助力国产大模型生态与国际接轨,规范术语翻译,提升国产AI技术的国际话语权。

九、相关词条