查看“︁大语言模型(LLM)”︁的源代码
←
大语言模型(LLM)
跳转到导航
跳转到搜索
因为以下原因,您没有权限编辑该页面:
您请求的操作仅限属于该用户组的用户执行:
用户
您可以查看和复制此页面的源代码。
{{分类:人工智能术语}} {{分类:大语言模型}} {{信息框|标题=大语言模型(LLM)|内容= * 英文全称:Large Language Model * 英文缩写:LLM * 核心定义:基于深度学习的大型语言处理模型 * 核心关联:以[[词元]]为最小处理单元,实现文本理解与生成 * 应用场景:对话生成、文本创作、翻译、代码编写等 }} 一、定义 '''大语言模型(LLM)'''是指基于深度学习架构(通常为Transformer架构),通过大规模文本数据训练而成,能够理解、生成人类语言,并完成各类自然语言处理任务的大型人工智能模型。其核心特征是参数量巨大(通常数十亿至万亿级)、训练数据海量,且以[[词元]]作为信息处理的最小基础单元。 二、核心特征 '''以词元为基础''':无法直接处理完整文本,需先通过[[词元化]]将文本拆分为[[词元]]序列,再进行向量运算与语义理解; '''参数量庞大''':参数量通常在数十亿以上,顶级模型参数量可达万亿级,参数量决定模型的理解与生成能力; '''训练数据海量''':基于互联网大规模文本数据训练,覆盖各类语言、领域,学习人类语言的语法、语义与逻辑; '''通用能力强''':可适配多种自然语言任务,无需针对特定任务单独微调(或仅需少量微调),如对话、翻译、摘要、代码生成等。 三、与词元的关联 [[词元]]是大语言模型处理信息的核心基础: 输入处理:用户输入的文本,需先经过[[词元化]]过程,拆分为若干[[词元]],再转换为模型可识别的向量; 运算基础:模型的所有语义理解、逻辑推理,均基于[[词元]]向量的运算完成; 输出生成:模型生成文本时,本质是按概率依次生成一个个[[词元]],组合为完整语句; 计费基准:大语言模型的API调用、算力消耗,均以[[词元]]数量为核心计量单位(如输入词元数+输出词元数)。 四、常见示例 通用大语言模型:GPT系列、文心一言、通义千问、讯飞星火等; 垂直领域大语言模型:医疗大模型、法律大模型、代码大模型等(基于通用LLM微调)。 五、相关词条 * [[词元(Token)]] * [[词元化(Tokenization)]] * [[自然语言处理(NLP)]] * [[AI算力]]
该页面嵌入的页面:
Template:信息框
(
查看源代码
)
Category:人工智能术语
(
查看源代码
)
Category:大语言模型
(
查看源代码
)
返回
大语言模型(LLM)
。
导航菜单
个人工具
中文
登录
命名空间
页面
讨论
不转换
不转换
简体
繁體
大陆简体
香港繁體
澳門繁體
大马简体
新加坡简体
臺灣正體
查看
阅读
查看源代码
查看历史
更多
搜索
导航
首页
最近更改
随机页面
MediaWiki帮助
特殊页面
工具
链入页面
相关更改
页面信息