詞元化（Tokenization）

Category:人工智能術語 Category:自然語言處理術語 Template:信息框一、定義 詞元化（Tokenization）是自然語言處理（NLP）與大語言模型的核心前置預處理步驟，指將原始文本、代碼、符號等信息，按照一定規則拆分為若干個詞元（最小信息處理單元）的過程。詞元化的質量，直接影響模型的理解與生成效果。二、核心目的 適配模型處理：大語言模型無法直接理解完整文本，需通過詞元化將文本轉換為模型可識別的詞元序列； 提取語義基礎：將連續的文本拆分為獨立的詞元，便於模型識別每個詞元的語義特徵，實現語義理解； 統一計量標準：通過詞元化，將不同類型（中文、英文、代碼）的內容，統一轉換為詞元，便於模型統一處理與計費； 優化處理效率：合理的詞元化規則，可減少冗餘信息，提升模型的處理速度與準確性。三、常見詞元化規則不同語言、不同模型的詞元化規則略有差異，主流規則如下： 中文詞元化：通常1個漢字對應1個詞元，部分模型會結合詞語拆分（如「人工智能」拆分為「人工」「智能」兩個詞元）； 英文詞元化：多採用子詞拆分規則，常用單詞（如「hello」）對應1個詞元，長單詞（如「unconstitutional」）拆分為子詞（「un-」「constitutional」），減少詞表規模； 符號與代碼詞元化：標點、數字、emoji、代碼符號（如=、;、{}）均獨立計為1個詞元，空格通常不計入詞元； 多模態詞元化：圖像、音頻等非文本內容，通過算法量化為對應詞元，實現與文本詞元的統一處理。四、與詞元的關聯詞元化與詞元是「過程與產物」的關係：詞元化是過程：將原始內容拆分為詞元的操作；詞元是產物：詞元化過程的最終結果，是模型處理的最小單元；相互影響：詞元化規則決定詞元的拆分精度，而詞元的質量又決定模型的處理效果；不可分割：所有基於詞元的處理（如大模型交互、NLP任務），均需先經過詞元化步驟。五、相關詞條

詞元化（Tokenization）

導覽菜單

搜尋