詞元化(Tokenization)
Category:人工智能術語 Category:自然語言處理術語 Template:信息框 一、定義 詞元化(Tokenization)是自然語言處理(NLP)與大語言模型的核心前置預處理步驟,指將原始文本、代碼、符號等信息,按照一定規則拆分為若干個詞元(最小信息處理單元)的過程。詞元化的質量,直接影響模型的理解與生成效果。 二、核心目的 適配模型處理:大語言模型無法直接理解完整文本,需通過詞元化將文本轉換為模型可識別的詞元序列; 提取語義基礎:將連續的文本拆分為獨立的詞元,便於模型識別每個詞元的語義特徵,實現語義理解; 統一計量標準:通過詞元化,將不同類型(中文、英文、代碼)的內容,統一轉換為詞元,便於模型統一處理與計費; 優化處理效率:合理的詞元化規則,可減少冗餘信息,提升模型的處理速度與準確性。 三、常見詞元化規則 不同語言、不同模型的詞元化規則略有差異,主流規則如下: 中文詞元化:通常1個漢字對應1個詞元,部分模型會結合詞語拆分(如「人工智能」拆分為「人工」「智能」兩個詞元); 英文詞元化:多採用子詞拆分規則,常用單詞(如「hello」)對應1個詞元,長單詞(如「unconstitutional」)拆分為子詞(「un-」「constitutional」),減少詞表規模; 符號與代碼詞元化:標點、數字、emoji、代碼符號(如=、;、{})均獨立計為1個詞元,空格通常不計入詞元; 多模態詞元化:圖像、音頻等非文本內容,通過算法量化為對應詞元,實現與文本詞元的統一處理。 四、與詞元的關聯 詞元化與詞元是「過程與產物」的關係: 詞元化是過程:將原始內容拆分為詞元的操作; 詞元是產物:詞元化過程的最終結果,是模型處理的最小單元; 相互影響:詞元化規則決定詞元的拆分精度,而詞元的質量又決定模型的處理效果; 不可分割:所有基於詞元的處理(如大模型交互、NLP任務),均需先經過詞元化步驟。 五、相關詞條