查看“︁大语言模型（LLM）”︁的源代码

{{分类:人工智能术语}}
{{分类:大语言模型}}
{{信息框|标题=大语言模型（LLM）|内容=
* 英文全称：Large Language Model
* 英文缩写：LLM
* 核心定义：基于深度学习的大型语言处理模型
* 核心关联：以[[词元]]为最小处理单元，实现文本理解与生成
* 应用场景：对话生成、文本创作、翻译、代码编写等
}}
一、定义
'''大语言模型（LLM）'''是指基于深度学习架构（通常为Transformer架构），通过大规模文本数据训练而成，能够理解、生成人类语言，并完成各类自然语言处理任务的大型人工智能模型。其核心特征是参数量巨大（通常数十亿至万亿级）、训练数据海量，且以[[词元]]作为信息处理的最小基础单元。
二、核心特征
'''以词元为基础'''：无法直接处理完整文本，需先通过[[词元化]]将文本拆分为[[词元]]序列，再进行向量运算与语义理解；
'''参数量庞大'''：参数量通常在数十亿以上，顶级模型参数量可达万亿级，参数量决定模型的理解与生成能力；
'''训练数据海量'''：基于互联网大规模文本数据训练，覆盖各类语言、领域，学习人类语言的语法、语义与逻辑；
'''通用能力强'''：可适配多种自然语言任务，无需针对特定任务单独微调（或仅需少量微调），如对话、翻译、摘要、代码生成等。
三、与词元的关联
[[词元]]是大语言模型处理信息的核心基础：
输入处理：用户输入的文本，需先经过[[词元化]]过程，拆分为若干[[词元]]，再转换为模型可识别的向量；
运算基础：模型的所有语义理解、逻辑推理，均基于[[词元]]向量的运算完成；
输出生成：模型生成文本时，本质是按概率依次生成一个个[[词元]]，组合为完整语句；
计费基准：大语言模型的API调用、算力消耗，均以[[词元]]数量为核心计量单位（如输入词元数+输出词元数）。
四、常见示例
通用大语言模型：GPT系列、文心一言、通义千问、讯飞星火等；
垂直领域大语言模型：医疗大模型、法律大模型、代码大模型等（基于通用LLM微调）。
五、相关词条
* [[词元（Token）]]
* [[词元化（Tokenization）]]
* [[自然语言处理（NLP）]]
* [[AI算力]]