<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="zh">
	<id>https://wiki.jwjp.com/index.php?action=history&amp;feed=atom&amp;title=%E8%AF%8D%E5%85%83</id>
	<title>词元 - 版本历史</title>
	<link rel="self" type="application/atom+xml" href="https://wiki.jwjp.com/index.php?action=history&amp;feed=atom&amp;title=%E8%AF%8D%E5%85%83"/>
	<link rel="alternate" type="text/html" href="https://wiki.jwjp.com/index.php?title=%E8%AF%8D%E5%85%83&amp;action=history"/>
	<updated>2026-05-09T18:30:27Z</updated>
	<subtitle>本wiki上该页面的版本历史</subtitle>
	<generator>MediaWiki 1.45.1</generator>
	<entry>
		<id>https://wiki.jwjp.com/index.php?title=%E8%AF%8D%E5%85%83&amp;diff=66&amp;oldid=prev</id>
		<title>Admin：​创建页面，内容为“词元（Token）  {{分类:人工智能术语}}  {{分类:计算机科学术语}}  {{分类:数据要素相关术语}}  {{信息框|标题=词元（Token）|内容= * 官方标准译名：词元 * 英文对应：Token * 定名时间：2026年3月24日（国家数据局正式公布） * 核心定位：大模型最小处理单元、AI算力与计费核心单位 * 应用领域：人工智能、自然语言处理、网络安全、区块链、编译原理 }}  一…”</title>
		<link rel="alternate" type="text/html" href="https://wiki.jwjp.com/index.php?title=%E8%AF%8D%E5%85%83&amp;diff=66&amp;oldid=prev"/>
		<updated>2026-03-25T02:09:58Z</updated>

		<summary type="html">&lt;p&gt;创建页面，内容为“词元（Token）  {{分类:人工智能术语}}  {{分类:计算机科学术语}}  {{分类:数据要素相关术语}}  {{信息框|标题=词元（Token）|内容= * 官方标准译名：词元 * 英文对应：Token * 定名时间：2026年3月24日（国家数据局正式公布） * 核心定位：大模型最小处理单元、AI算力与计费核心单位 * 应用领域：人工智能、自然语言处理、网络安全、区块链、编译原理 }}  一…”&lt;/p&gt;
&lt;p&gt;&lt;b&gt;新页面&lt;/b&gt;&lt;/p&gt;&lt;div&gt;词元（Token）&lt;br /&gt;
&lt;br /&gt;
{{分类:人工智能术语}}&lt;br /&gt;
&lt;br /&gt;
{{分类:计算机科学术语}}&lt;br /&gt;
&lt;br /&gt;
{{分类:数据要素相关术语}}&lt;br /&gt;
&lt;br /&gt;
{{信息框|标题=词元（Token）|内容=&lt;br /&gt;
* 官方标准译名：词元&lt;br /&gt;
* 英文对应：Token&lt;br /&gt;
* 定名时间：2026年3月24日（国家数据局正式公布）&lt;br /&gt;
* 核心定位：大模型最小处理单元、AI算力与计费核心单位&lt;br /&gt;
* 应用领域：人工智能、自然语言处理、网络安全、区块链、编译原理&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
一、定义&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;词元（Token）&amp;#039;&amp;#039;&amp;#039;是[[大语言模型]]、[[自然语言处理]]系统及多模态模型在理解、编码、运算和生成信息时的&amp;#039;&amp;#039;&amp;#039;最小基础处理单元&amp;#039;&amp;#039;&amp;#039;，也是当前AI服务中算力消耗、接口调用、服务计费的核心计量单位。&lt;br /&gt;
&lt;br /&gt;
一个词元可对应单个汉字、英文单词、英文子词、数字、标点符号、特殊符号、代码片段等。模型无法直接处理完整文本，必须先通过分词算法将内容切分为词元序列，再进行向量运算与内容生成。&lt;br /&gt;
&lt;br /&gt;
二、官方定名背景&lt;br /&gt;
&lt;br /&gt;
2026年3月24日，国家数据局局长刘烈宏在国新办新闻发布会上正式宣布：人工智能领域的技术名词 &amp;#039;&amp;#039;&amp;#039;Token&amp;#039;&amp;#039;&amp;#039; 统一中文标准译名为 &amp;#039;&amp;#039;&amp;#039;词元&amp;#039;&amp;#039;&amp;#039;。&lt;br /&gt;
&lt;br /&gt;
该定名由相关部委、科研机构、头部科技企业及术语专家共同论证确定，核心目的是统一国内AI行业术语体系，规范数据要素统计、算力计价、技术文档编写与科普教育工作，结束此前长期存在的译法混乱局面。&lt;br /&gt;
&lt;br /&gt;
三、词元化（Tokenization）&lt;br /&gt;
&lt;br /&gt;
将原始文本、代码或符号转换为词元序列的过程称为&amp;#039;&amp;#039;&amp;#039;词元化&amp;#039;&amp;#039;&amp;#039;（Tokenization），是大模型处理信息的前置核心步骤。不同语言与模型的分词规则略有差异，大致规律如下：&lt;br /&gt;
&lt;br /&gt;
- &amp;#039;&amp;#039;&amp;#039;中文&amp;#039;&amp;#039;&amp;#039;：1 个汉字 ≈ 1 个词元（主流模型通用规则，部分细分模型会结合词语拆分）&lt;br /&gt;
&lt;br /&gt;
- &amp;#039;&amp;#039;&amp;#039;英文&amp;#039;&amp;#039;&amp;#039;：常用单词约 1～3 个词元，长单词（如unconstitutional）会被拆分为子词（un-、constitutional）&lt;br /&gt;
&lt;br /&gt;
- &amp;#039;&amp;#039;&amp;#039;符号类&amp;#039;&amp;#039;&amp;#039;：标点、空格、数字、emoji、代码符号（如=、;、{}）均独立计为词元&lt;br /&gt;
&lt;br /&gt;
- &amp;#039;&amp;#039;&amp;#039;多模态&amp;#039;&amp;#039;&amp;#039;：图像、音频等非文本内容，可通过算法量化为对应词元，实现统一计量&lt;br /&gt;
&lt;br /&gt;
四、不同领域中的Token含义&lt;br /&gt;
&lt;br /&gt;
同一英文单词 Token 在不同技术领域，译法与核心含义完全不同，具体对照如下：&lt;br /&gt;
&lt;br /&gt;
应用领域&lt;br /&gt;
&lt;br /&gt;
中文译名&lt;br /&gt;
&lt;br /&gt;
核心含义&lt;br /&gt;
&lt;br /&gt;
人工智能 / NLP / 大模型&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;词元&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
&lt;br /&gt;
文本与多模态信息的最小处理单元、AI算力与计费单位&lt;br /&gt;
&lt;br /&gt;
网络安全 / 身份认证&lt;br /&gt;
&lt;br /&gt;
令牌&lt;br /&gt;
&lt;br /&gt;
用于登录验证、权限校验的临时凭证（如JWT令牌、访问令牌）&lt;br /&gt;
&lt;br /&gt;
区块链 / 加密资产&lt;br /&gt;
&lt;br /&gt;
通证 / 代币&lt;br /&gt;
&lt;br /&gt;
区块链上代表价值、权益或功能的数字载体（如比特币、以太坊代币）&lt;br /&gt;
&lt;br /&gt;
编译原理 / 编程语言&lt;br /&gt;
&lt;br /&gt;
记号 / 标记&lt;br /&gt;
&lt;br /&gt;
编译器解析代码时的最小语法单元（如关键字、运算符）&lt;br /&gt;
&lt;br /&gt;
五、民间讨论与网友备选译名&lt;br /&gt;
&lt;br /&gt;
在官方定名“词元”前后，国内技术社区、网友与行业从业者曾广泛讨论，提出过多款更具中式文化内涵或更直观的译名，其中高热度建议如下：&lt;br /&gt;
&lt;br /&gt;
1. 算筹&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;支持理由&amp;#039;&amp;#039;&amp;#039;：&lt;br /&gt;
&lt;br /&gt;
- 源自中国古代传统计算工具，是古人计数、运算的最小单位，与“词元作为AI最小计量单元”的核心属性高度契合；&lt;br /&gt;
&lt;br /&gt;
- 文化底蕴深厚，简洁典雅，符合国家级技术术语的正式感；&lt;br /&gt;
&lt;br /&gt;
- 既体现“计数”属性，又暗含“计算单元”的核心功能，贴合AI算力计量、服务计费的实际场景。&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;争议点&amp;#039;&amp;#039;&amp;#039;：&lt;br /&gt;
&lt;br /&gt;
- 偏古典化，普通大众理解成本较高，难以快速关联“语言处理”相关属性；&lt;br /&gt;
&lt;br /&gt;
- 与现代AI技术的关联性较弱，不利于科普推广。&lt;br /&gt;
&lt;br /&gt;
2. 语筹&lt;br /&gt;
&lt;br /&gt;
结合“语言”与“算筹”的核心含义，强调其是“语言类计算单元”，比单纯的“算筹”更贴近自然语言处理（NLP）场景，兼顾文化内涵与场景适配性，但普及度较低。&lt;br /&gt;
&lt;br /&gt;
3. 字筹&lt;br /&gt;
&lt;br /&gt;
突出汉字处理的核心场景，更贴合中文语境下的大模型应用，但通用性较弱，无法适配英文、代码、多模态等跨语言、跨类型的词元计量需求。&lt;br /&gt;
&lt;br /&gt;
4. 语元&lt;br /&gt;
&lt;br /&gt;
学术感较强，意为“语言的基本单元”，曾是国内学界、技术圈常用的非正式译名，贴合NLP场景，但与“词元”相比，通用性和直观性稍弱。&lt;br /&gt;
&lt;br /&gt;
5. 词块 / 字块&lt;br /&gt;
&lt;br /&gt;
直观易懂，清晰体现“文本被切分为片段”的核心特征，适合科普场景，但偏口语化，不够正式，不符合国家级术语的规范要求。&lt;br /&gt;
&lt;br /&gt;
6. 托肯&lt;br /&gt;
&lt;br /&gt;
纯音译自英文“Token”，早期国内技术圈广泛使用，无实际语义，不利于大众理解和术语普及，最终未被采纳。&lt;br /&gt;
&lt;br /&gt;
六、为何最终确定为“词元”&lt;br /&gt;
&lt;br /&gt;
官方最终选定“词元”作为标准译名，核心原因的包括以下5点：&lt;br /&gt;
&lt;br /&gt;
1. &amp;#039;&amp;#039;&amp;#039;直观易懂&amp;#039;&amp;#039;&amp;#039;：“词”直接指向语言文本，“元”代表基本单元，望文知义，降低大众与行业新人的理解成本；&lt;br /&gt;
&lt;br /&gt;
2. &amp;#039;&amp;#039;&amp;#039;通用性强&amp;#039;&amp;#039;&amp;#039;：适配中文、英文、代码、多模态等多种场景，无场景局限；&lt;br /&gt;
&lt;br /&gt;
3. &amp;#039;&amp;#039;&amp;#039;避免歧义&amp;#039;&amp;#039;&amp;#039;：与网络安全领域的“令牌”、区块链领域的“通证”明确区分，实现“一词一义”，规范术语使用；&lt;br /&gt;
&lt;br /&gt;
4. &amp;#039;&amp;#039;&amp;#039;适配产业规范&amp;#039;&amp;#039;&amp;#039;：语言中性、正式，适合政府数据统计、教材编写、API计费标准、行业规范制定等各类场景；&lt;br /&gt;
&lt;br /&gt;
5. &amp;#039;&amp;#039;&amp;#039;便于推广&amp;#039;&amp;#039;&amp;#039;：既不口语化，也不过于古奥，兼顾学术性与普及性，适合长期推广使用。&lt;br /&gt;
&lt;br /&gt;
七、常见词元数量示例&lt;br /&gt;
&lt;br /&gt;
以下为不同类型内容的词元数量参考（基于主流大模型分词规则）：&lt;br /&gt;
&lt;br /&gt;
- 中文短句：人工智能 → 4 个词元&lt;br /&gt;
&lt;br /&gt;
- 英文短句：Hello world → 约 2～3 个词元（不同模型拆分规则略有差异）&lt;br /&gt;
&lt;br /&gt;
- 中文长句：AI的最小处理单元是词元，也是算力计费的核心单位 → 约 18 个词元&lt;br /&gt;
&lt;br /&gt;
- 代码片段：int a = 1; → 5 个词元（int、空格、a、空格、=、空格、1、; 中，空格不计入，实际为5个）&lt;br /&gt;
&lt;br /&gt;
- 通用估算：1000 汉字 ≈ 1000 词元；1000 英文单词 ≈ 1200～1500 词元&lt;br /&gt;
&lt;br /&gt;
八、行业意义&lt;br /&gt;
&lt;br /&gt;
1. 统一国内AI行业术语体系，结束此前译法混乱的局面，减少行业沟通、文档编写、技术交流中的歧义；&lt;br /&gt;
&lt;br /&gt;
2. 为数据要素核算、AI算力交易、大模型服务定价提供统一标准口径，推动AI产业规范化发展；&lt;br /&gt;
&lt;br /&gt;
3. 降低AI科普与教育门槛，帮助公众快速理解大模型的工作原理，推动AI技术普及；&lt;br /&gt;
&lt;br /&gt;
4. 助力国产大模型生态与国际接轨，规范术语翻译，提升国产AI技术的国际话语权。&lt;br /&gt;
&lt;br /&gt;
九、相关词条&lt;br /&gt;
&lt;br /&gt;
* [[大语言模型（LLM）]]&lt;br /&gt;
&lt;br /&gt;
* [[上下文窗口]]&lt;br /&gt;
&lt;br /&gt;
* [[词元化（Tokenization）]]&lt;br /&gt;
&lt;br /&gt;
* [[数据要素]]&lt;br /&gt;
&lt;br /&gt;
* [[AI算力]]&lt;br /&gt;
&lt;br /&gt;
* [[自然语言处理（NLP）]]&lt;br /&gt;
&lt;br /&gt;
* [[编译器]]&lt;br /&gt;
&lt;br /&gt;
* [[区块链通证]]&lt;/div&gt;</summary>
		<author><name>Admin</name></author>
	</entry>
</feed>