查看“︁词元”︁的源代码

词元（Token）

{{分类:人工智能术语}}

{{分类:计算机科学术语}}

{{分类:数据要素相关术语}}

{{信息框|标题=词元（Token）|内容=
* 官方标准译名：词元
* 英文对应：Token
* 定名时间：2026年3月24日（国家数据局正式公布）
* 核心定位：大模型最小处理单元、AI算力与计费核心单位
* 应用领域：人工智能、自然语言处理、网络安全、区块链、编译原理
}}

一、定义

'''词元（Token）'''是[[大语言模型]]、[[自然语言处理]]系统及多模态模型在理解、编码、运算和生成信息时的'''最小基础处理单元'''，也是当前AI服务中算力消耗、接口调用、服务计费的核心计量单位。

一个词元可对应单个汉字、英文单词、英文子词、数字、标点符号、特殊符号、代码片段等。模型无法直接处理完整文本，必须先通过分词算法将内容切分为词元序列，再进行向量运算与内容生成。

二、官方定名背景

2026年3月24日，国家数据局局长刘烈宏在国新办新闻发布会上正式宣布：人工智能领域的技术名词 '''Token''' 统一中文标准译名为 '''词元'''。

该定名由相关部委、科研机构、头部科技企业及术语专家共同论证确定，核心目的是统一国内AI行业术语体系，规范数据要素统计、算力计价、技术文档编写与科普教育工作，结束此前长期存在的译法混乱局面。

三、词元化（Tokenization）

将原始文本、代码或符号转换为词元序列的过程称为'''词元化'''（Tokenization），是大模型处理信息的前置核心步骤。不同语言与模型的分词规则略有差异，大致规律如下：

- '''中文'''：1 个汉字 ≈ 1 个词元（主流模型通用规则，部分细分模型会结合词语拆分）

- '''英文'''：常用单词约 1～3 个词元，长单词（如unconstitutional）会被拆分为子词（un-、constitutional）

- '''符号类'''：标点、空格、数字、emoji、代码符号（如=、;、{}）均独立计为词元

- '''多模态'''：图像、音频等非文本内容，可通过算法量化为对应词元，实现统一计量

四、不同领域中的Token含义

同一英文单词 Token 在不同技术领域，译法与核心含义完全不同，具体对照如下：

应用领域

中文译名

核心含义

人工智能 / NLP / 大模型

'''词元'''

文本与多模态信息的最小处理单元、AI算力与计费单位

网络安全 / 身份认证

令牌

用于登录验证、权限校验的临时凭证（如JWT令牌、访问令牌）

区块链 / 加密资产

通证 / 代币

区块链上代表价值、权益或功能的数字载体（如比特币、以太坊代币）

编译原理 / 编程语言

记号 / 标记

编译器解析代码时的最小语法单元（如关键字、运算符）

五、民间讨论与网友备选译名

在官方定名“词元”前后，国内技术社区、网友与行业从业者曾广泛讨论，提出过多款更具中式文化内涵或更直观的译名，其中高热度建议如下：

1. 算筹

'''支持理由'''：

- 源自中国古代传统计算工具，是古人计数、运算的最小单位，与“词元作为AI最小计量单元”的核心属性高度契合；

- 文化底蕴深厚，简洁典雅，符合国家级技术术语的正式感；

- 既体现“计数”属性，又暗含“计算单元”的核心功能，贴合AI算力计量、服务计费的实际场景。

'''争议点'''：

- 偏古典化，普通大众理解成本较高，难以快速关联“语言处理”相关属性；

- 与现代AI技术的关联性较弱，不利于科普推广。

2. 语筹

结合“语言”与“算筹”的核心含义，强调其是“语言类计算单元”，比单纯的“算筹”更贴近自然语言处理（NLP）场景，兼顾文化内涵与场景适配性，但普及度较低。

3. 字筹

突出汉字处理的核心场景，更贴合中文语境下的大模型应用，但通用性较弱，无法适配英文、代码、多模态等跨语言、跨类型的词元计量需求。

4. 语元

学术感较强，意为“语言的基本单元”，曾是国内学界、技术圈常用的非正式译名，贴合NLP场景，但与“词元”相比，通用性和直观性稍弱。

5. 词块 / 字块

直观易懂，清晰体现“文本被切分为片段”的核心特征，适合科普场景，但偏口语化，不够正式，不符合国家级术语的规范要求。

6. 托肯

纯音译自英文“Token”，早期国内技术圈广泛使用，无实际语义，不利于大众理解和术语普及，最终未被采纳。

六、为何最终确定为“词元”

官方最终选定“词元”作为标准译名，核心原因的包括以下5点：

1. '''直观易懂'''：“词”直接指向语言文本，“元”代表基本单元，望文知义，降低大众与行业新人的理解成本；

2. '''通用性强'''：适配中文、英文、代码、多模态等多种场景，无场景局限；

3. '''避免歧义'''：与网络安全领域的“令牌”、区块链领域的“通证”明确区分，实现“一词一义”，规范术语使用；

4. '''适配产业规范'''：语言中性、正式，适合政府数据统计、教材编写、API计费标准、行业规范制定等各类场景；

5. '''便于推广'''：既不口语化，也不过于古奥，兼顾学术性与普及性，适合长期推广使用。

七、常见词元数量示例

以下为不同类型内容的词元数量参考（基于主流大模型分词规则）：

- 中文短句：人工智能 → 4 个词元

- 英文短句：Hello world → 约 2～3 个词元（不同模型拆分规则略有差异）

- 中文长句：AI的最小处理单元是词元，也是算力计费的核心单位 → 约 18 个词元

- 代码片段：int a = 1; → 5 个词元（int、空格、a、空格、=、空格、1、; 中，空格不计入，实际为5个）

- 通用估算：1000 汉字 ≈ 1000 词元；1000 英文单词 ≈ 1200～1500 词元

八、行业意义

1. 统一国内AI行业术语体系，结束此前译法混乱的局面，减少行业沟通、文档编写、技术交流中的歧义；

2. 为数据要素核算、AI算力交易、大模型服务定价提供统一标准口径，推动AI产业规范化发展；

3. 降低AI科普与教育门槛，帮助公众快速理解大模型的工作原理，推动AI技术普及；

4. 助力国产大模型生态与国际接轨，规范术语翻译，提升国产AI技术的国际话语权。

九、相关词条

* [[大语言模型（LLM）]]

* [[上下文窗口]]

* [[词元化（Tokenization）]]

* [[数据要素]]

* [[AI算力]]

* [[自然语言处理（NLP）]]

* [[编译器]]

* [[区块链通证]]