大語言模型（LLM）

Category:人工智能術語 Category:大語言模型 Template:信息框一、定義 大語言模型（LLM）是指基於深度學習架構（通常為Transformer架構），通過大規模文本數據訓練而成，能夠理解、生成人類語言，並完成各類自然語言處理任務的大型人工智能模型。其核心特徵是參數量巨大（通常數十億至萬億級）、訓練數據海量，且以詞元作為信息處理的最小基礎單元。二、核心特徵 以詞元為基礎：無法直接處理完整文本，需先通過詞元化將文本拆分為詞元序列，再進行向量運算與語義理解； 參數量龐大：參數量通常在數十億以上，頂級模型參數量可達萬億級，參數量決定模型的理解與生成能力； 訓練數據海量：基於互聯網大規模文本數據訓練，覆蓋各類語言、領域，學習人類語言的語法、語義與邏輯； 通用能力強：可適配多種自然語言任務，無需針對特定任務單獨微調（或僅需少量微調），如對話、翻譯、摘要、代碼生成等。三、與詞元的關聯詞元是大語言模型處理信息的核心基礎：輸入處理：用戶輸入的文本，需先經過詞元化過程，拆分為若干詞元，再轉換為模型可識別的向量；運算基礎：模型的所有語義理解、邏輯推理，均基於詞元向量的運算完成；輸出生成：模型生成文本時，本質是按概率依次生成一個個詞元，組合為完整語句；計費基準：大語言模型的API調用、算力消耗，均以詞元數量為核心計量單位（如輸入詞元數+輸出詞元數）。四、常見示例通用大語言模型：GPT系列、文心一言、通義千問、訊飛星火等；垂直領域大語言模型：醫療大模型、法律大模型、代碼大模型等（基於通用LLM微調）。五、相關詞條

大語言模型（LLM）

導覽菜單

搜尋