大语言模型（LLM）

Category:人工智能术语 Category:大语言模型 Template:信息框一、定义 大语言模型（LLM）是指基于深度学习架构（通常为Transformer架构），通过大规模文本数据训练而成，能够理解、生成人类语言，并完成各类自然语言处理任务的大型人工智能模型。其核心特征是参数量巨大（通常数十亿至万亿级）、训练数据海量，且以词元作为信息处理的最小基础单元。二、核心特征 以词元为基础：无法直接处理完整文本，需先通过词元化将文本拆分为词元序列，再进行向量运算与语义理解； 参数量庞大：参数量通常在数十亿以上，顶级模型参数量可达万亿级，参数量决定模型的理解与生成能力； 训练数据海量：基于互联网大规模文本数据训练，覆盖各类语言、领域，学习人类语言的语法、语义与逻辑； 通用能力强：可适配多种自然语言任务，无需针对特定任务单独微调（或仅需少量微调），如对话、翻译、摘要、代码生成等。三、与词元的关联词元是大语言模型处理信息的核心基础：输入处理：用户输入的文本，需先经过词元化过程，拆分为若干词元，再转换为模型可识别的向量；运算基础：模型的所有语义理解、逻辑推理，均基于词元向量的运算完成；输出生成：模型生成文本时，本质是按概率依次生成一个个词元，组合为完整语句；计费基准：大语言模型的API调用、算力消耗，均以词元数量为核心计量单位（如输入词元数+输出词元数）。四、常见示例通用大语言模型：GPT系列、文心一言、通义千问、讯飞星火等；垂直领域大语言模型：医疗大模型、法律大模型、代码大模型等（基于通用LLM微调）。五、相关词条

大语言模型（LLM）

导航菜单

搜索