大語言模型(LLM)

出自jwjp-Just Wiki Join Portal
跳至導覽 跳至搜尋

Category:人工智能術語Category:大語言模型Template:信息框​ 一、定義​ 大語言模型(LLM)是指基於深度學習架構(通常為Transformer架構),通過大規模文本數據訓練而成,能夠理解、生成人類語言,並完成各類自然語言處理任務的大型人工智能模型。其核心特徵是參數量巨大(通常數十億至萬億級)、訓練數據海量,且以詞元作為信息處理的最小基礎單元。​ 二、核心特徵​ 以詞元為基礎:無法直接處理完整文本,需先通過詞元化將文本拆分為詞元序列,再進行向量運算與語義理解;​ 參數量龐大:參數量通常在數十億以上,頂級模型參數量可達萬億級,參數量決定模型的理解與生成能力;​ 訓練數據海量:基於互聯網大規模文本數據訓練,覆蓋各類語言、領域,學習人類語言的語法、語義與邏輯;​ 通用能力強:可適配多種自然語言任務,無需針對特定任務單獨微調(或僅需少量微調),如對話、翻譯、摘要、代碼生成等。​ 三、與詞元的關聯​ 詞元是大語言模型處理信息的核心基礎:​ 輸入處理:用戶輸入的文本,需先經過詞元化過程,拆分為若干詞元,再轉換為模型可識別的向量;​ 運算基礎:模型的所有語義理解、邏輯推理,均基於詞元向量的運算完成;​ 輸出生成:模型生成文本時,本質是按概率依次生成一個個詞元,組合為完整語句;​ 計費基準:大語言模型的API調用、算力消耗,均以詞元數量為核心計量單位(如輸入詞元數+輸出詞元數)。​ 四、常見示例​ 通用大語言模型:GPT系列、文心一言、通義千問、訊飛星火等;​ 垂直領域大語言模型:醫療大模型、法律大模型、代碼大模型等(基於通用LLM微調)。​ 五、相關詞條​