詞元
詞元(Token)
一、定義
詞元(Token)是大語言模型、自然語言處理系統及多模態模型在理解、編碼、運算和生成信息時的最小基礎處理單元,也是當前AI服務中算力消耗、接口調用、服務計費的核心計量單位。
一個詞元可對應單個漢字、英文單詞、英文子詞、數字、標點符號、特殊符號、代碼片段等。模型無法直接處理完整文本,必須先通過分詞算法將內容切分為詞元序列,再進行向量運算與內容生成。
二、官方定名背景
2026年3月24日,國家數據局局長劉烈宏在國新辦新聞發布會上正式宣布:人工智能領域的技術名詞 Token 統一中文標準譯名為 詞元。
該定名由相關部委、科研機構、頭部科技企業及術語專家共同論證確定,核心目的是統一國內AI行業術語體系,規範數據要素統計、算力計價、技術文檔編寫與科普教育工作,結束此前長期存在的譯法混亂局面。
三、詞元化(Tokenization)
將原始文本、代碼或符號轉換為詞元序列的過程稱為詞元化(Tokenization),是大模型處理信息的前置核心步驟。不同語言與模型的分詞規則略有差異,大致規律如下:
- 中文:1 個漢字 ≈ 1 個詞元(主流模型通用規則,部分細分模型會結合詞語拆分)
- 英文:常用單詞約 1~3 個詞元,長單詞(如unconstitutional)會被拆分為子詞(un-、constitutional)
- 符號類:標點、空格、數字、emoji、代碼符號(如=、;、{})均獨立計為詞元
- 多模態:圖像、音頻等非文本內容,可通過算法量化為對應詞元,實現統一計量
四、不同領域中的Token含義
同一英文單詞 Token 在不同技術領域,譯法與核心含義完全不同,具體對照如下:
應用領域
中文譯名
核心含義
人工智能 / NLP / 大模型
詞元
文本與多模態信息的最小處理單元、AI算力與計費單位
網絡安全 / 身份認證
令牌
用於登錄驗證、權限校驗的臨時憑證(如JWT令牌、訪問令牌)
區塊鏈 / 加密資產
通證 / 代幣
區塊鏈上代表價值、權益或功能的數字載體(如比特幣、以太坊代幣)
編譯原理 / 編程語言
記號 / 標記
編譯器解析代碼時的最小語法單元(如關鍵字、運算符)
五、民間討論與網友備選譯名
在官方定名「詞元」前後,國內技術社區、網友與行業從業者曾廣泛討論,提出過多款更具中式文化內涵或更直觀的譯名,其中高熱度建議如下:
1. 算籌
支持理由:
- 源自中國古代傳統計算工具,是古人計數、運算的最小單位,與「詞元作為AI最小計量單元」的核心屬性高度契合;
- 文化底蘊深厚,簡潔典雅,符合國家級技術術語的正式感;
- 既體現「計數」屬性,又暗含「計算單元」的核心功能,貼合AI算力計量、服務計費的實際場景。
爭議點:
- 偏古典化,普通大眾理解成本較高,難以快速關聯「語言處理」相關屬性;
- 與現代AI技術的關聯性較弱,不利於科普推廣。
2. 語籌
結合「語言」與「算籌」的核心含義,強調其是「語言類計算單元」,比單純的「算籌」更貼近自然語言處理(NLP)場景,兼顧文化內涵與場景適配性,但普及度較低。
3. 字籌
突出漢字處理的核心場景,更貼合中文語境下的大模型應用,但通用性較弱,無法適配英文、代碼、多模態等跨語言、跨類型的詞元計量需求。
4. 語元
學術感較強,意為「語言的基本單元」,曾是國內學界、技術圈常用的非正式譯名,貼合NLP場景,但與「詞元」相比,通用性和直觀性稍弱。
5. 詞塊 / 字塊
直觀易懂,清晰體現「文本被切分為片段」的核心特徵,適合科普場景,但偏口語化,不夠正式,不符合國家級術語的規範要求。
6. 托肯
純音譯自英文「Token」,早期國內技術圈廣泛使用,無實際語義,不利於大眾理解和術語普及,最終未被採納。
六、為何最終確定為「詞元」
官方最終選定「詞元」作為標準譯名,核心原因的包括以下5點:
1. 直觀易懂:「詞」直接指向語言文本,「元」代表基本單元,望文知義,降低大眾與行業新人的理解成本;
2. 通用性強:適配中文、英文、代碼、多模態等多種場景,無場景局限;
3. 避免歧義:與網絡安全領域的「令牌」、區塊鏈領域的「通證」明確區分,實現「一詞一義」,規範術語使用;
4. 適配產業規範:語言中性、正式,適合政府數據統計、教材編寫、API計費標準、行業規範制定等各類場景;
5. 便於推廣:既不口語化,也不過於古奧,兼顧學術性與普及性,適合長期推廣使用。
七、常見詞元數量示例
以下為不同類型內容的詞元數量參考(基於主流大模型分詞規則):
- 中文短句:人工智能 → 4 個詞元
- 英文短句:Hello world → 約 2~3 個詞元(不同模型拆分規則略有差異)
- 中文長句:AI的最小處理單元是詞元,也是算力計費的核心單位 → 約 18 個詞元
- 代碼片段:int a = 1; → 5 個詞元(int、空格、a、空格、=、空格、1、; 中,空格不計入,實際為5個)
- 通用估算:1000 漢字 ≈ 1000 詞元;1000 英文單詞 ≈ 1200~1500 詞元
八、行業意義
1. 統一國內AI行業術語體系,結束此前譯法混亂的局面,減少行業溝通、文檔編寫、技術交流中的歧義;
2. 為數據要素核算、AI算力交易、大模型服務定價提供統一標準口徑,推動AI產業規範化發展;
3. 降低AI科普與教育門檻,幫助公眾快速理解大模型的工作原理,推動AI技術普及;
4. 助力國產大模型生態與國際接軌,規範術語翻譯,提升國產AI技術的國際話語權。
九、相關詞條