大语言模型(LLM)

来自jwjp-Just Wiki Join Portal
跳转到导航 跳转到搜索

Category:人工智能术语Category:大语言模型Template:信息框​ 一、定义​ 大语言模型(LLM)是指基于深度学习架构(通常为Transformer架构),通过大规模文本数据训练而成,能够理解、生成人类语言,并完成各类自然语言处理任务的大型人工智能模型。其核心特征是参数量巨大(通常数十亿至万亿级)、训练数据海量,且以词元作为信息处理的最小基础单元。​ 二、核心特征​ 以词元为基础:无法直接处理完整文本,需先通过词元化将文本拆分为词元序列,再进行向量运算与语义理解;​ 参数量庞大:参数量通常在数十亿以上,顶级模型参数量可达万亿级,参数量决定模型的理解与生成能力;​ 训练数据海量:基于互联网大规模文本数据训练,覆盖各类语言、领域,学习人类语言的语法、语义与逻辑;​ 通用能力强:可适配多种自然语言任务,无需针对特定任务单独微调(或仅需少量微调),如对话、翻译、摘要、代码生成等。​ 三、与词元的关联​ 词元是大语言模型处理信息的核心基础:​ 输入处理:用户输入的文本,需先经过词元化过程,拆分为若干词元,再转换为模型可识别的向量;​ 运算基础:模型的所有语义理解、逻辑推理,均基于词元向量的运算完成;​ 输出生成:模型生成文本时,本质是按概率依次生成一个个词元,组合为完整语句;​ 计费基准:大语言模型的API调用、算力消耗,均以词元数量为核心计量单位(如输入词元数+输出词元数)。​ 四、常见示例​ 通用大语言模型:GPT系列、文心一言、通义千问、讯飞星火等;​ 垂直领域大语言模型:医疗大模型、法律大模型、代码大模型等(基于通用LLM微调)。​ 五、相关词条​