詞元化(Tokenization)

出自jwjp-Just Wiki Join Portal
於 2026年3月25日 (三) 10:14 由 Admin留言 | 貢獻 所作的修訂 (创建页面,内容为“{{分类:人工智能术语}}​ {{分类:自然语言处理术语}}​ {{信息框|标题=词元化(Tokenization)|内容=​ * 英文对应:Tokenization​ * 核心定义:将文本拆分为词元的预处理过程​ * 核心关联:词元是词元化的产物,是大语言模型的前置步骤​ * 应用场景:所有自然语言处理、大语言模型交互的前置处理​ }}​ 一、定义​ '''词元化(Tokenization)'''是自…”)
(差異) ←上個修訂 | 最新修訂 (差異) | 下個修訂→ (差異)
跳至導覽 跳至搜尋

Category:人工智能術語Category:自然語言處理術語Template:信息框​ 一、定義​ 詞元化(Tokenization)是自然語言處理(NLP)與大語言模型的核心前置預處理步驟,指將原始文本、代碼、符號等信息,按照一定規則拆分為若干個詞元(最小信息處理單元)的過程。詞元化的質量,直接影響模型的理解與生成效果。​ 二、核心目的​ 適配模型處理大語言模型無法直接理解完整文本,需通過詞元化將文本轉換為模型可識別的詞元序列;​ 提取語義基礎:將連續的文本拆分為獨立的詞元,便於模型識別每個詞元的語義特徵,實現語義理解;​ 統一計量標準:通過詞元化,將不同類型(中文、英文、代碼)的內容,統一轉換為詞元,便於模型統一處理與計費;​ 優化處理效率:合理的詞元化規則,可減少冗餘信息,提升模型的處理速度與準確性。​ 三、常見詞元化規則​ 不同語言、不同模型的詞元化規則略有差異,主流規則如下:​ 中文詞元化:通常1個漢字對應1個詞元,部分模型會結合詞語拆分(如「人工智能」拆分為「人工」「智能」兩個詞元);​ 英文詞元化:多採用子詞拆分規則,常用單詞(如「hello」)對應1個詞元,長單詞(如「unconstitutional」)拆分為子詞(「un-」「constitutional」),減少詞表規模;​ 符號與代碼詞元化:標點、數字、emoji、代碼符號(如=、;、{})均獨立計為1個詞元,空格通常不計入詞元;​ 多模態詞元化:圖像、音頻等非文本內容,通過算法量化為對應詞元,實現與文本詞元的統一處理。​ 四、與詞元的關聯​ 詞元化與詞元是「過程與產物」的關係:​ 詞元化是過程:將原始內容拆分為詞元的操作;​ 詞元是產物:詞元化過程的最終結果,是模型處理的最小單元;​ 相互影響:詞元化規則決定詞元的拆分精度,而詞元的質量又決定模型的處理效果;​ 不可分割:所有基於詞元的處理(如大模型交互、NLP任務),均需先經過詞元化步驟。​ 五、相關詞條​