大语言模型(LLM)
Category:人工智能术语 Category:大语言模型 Template:信息框 一、定义 大语言模型(LLM)是指基于深度学习架构(通常为Transformer架构),通过大规模文本数据训练而成,能够理解、生成人类语言,并完成各类自然语言处理任务的大型人工智能模型。其核心特征是参数量巨大(通常数十亿至万亿级)、训练数据海量,且以词元作为信息处理的最小基础单元。 二、核心特征 以词元为基础:无法直接处理完整文本,需先通过词元化将文本拆分为词元序列,再进行向量运算与语义理解; 参数量庞大:参数量通常在数十亿以上,顶级模型参数量可达万亿级,参数量决定模型的理解与生成能力; 训练数据海量:基于互联网大规模文本数据训练,覆盖各类语言、领域,学习人类语言的语法、语义与逻辑; 通用能力强:可适配多种自然语言任务,无需针对特定任务单独微调(或仅需少量微调),如对话、翻译、摘要、代码生成等。 三、与词元的关联 词元是大语言模型处理信息的核心基础: 输入处理:用户输入的文本,需先经过词元化过程,拆分为若干词元,再转换为模型可识别的向量; 运算基础:模型的所有语义理解、逻辑推理,均基于词元向量的运算完成; 输出生成:模型生成文本时,本质是按概率依次生成一个个词元,组合为完整语句; 计费基准:大语言模型的API调用、算力消耗,均以词元数量为核心计量单位(如输入词元数+输出词元数)。 四、常见示例 通用大语言模型:GPT系列、文心一言、通义千问、讯飞星火等; 垂直领域大语言模型:医疗大模型、法律大模型、代码大模型等(基于通用LLM微调)。 五、相关词条