news 2026/5/7 10:10:00

每天一个大模型知识点系列--大模型如何训练,分为哪些阶段

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
每天一个大模型知识点系列--大模型如何训练,分为哪些阶段

大模型的训练数据来自大规模的语料库,数据中包含海量的信息,那如何训练出一个可以进行交互的大语言模型呢?

大语言模型的训练往往包含三个阶段,预训练阶段,监督微调阶段,和强化学习阶段。

第一阶段是pretraining,也就是预训练阶段。预训练阶段的数据由没有标签的海量数据构成,目的是让大模型学会或记住这些知识。训练采用自回归的方法,通过前几个token预测下一个token,从而得到一个基础模型。

第二个阶段是监督微调阶段。当模型拥有了知识之后,下一步是教会大模型如何理解并遵循人类指令回答问题。监督微调阶段使用高质量的“指令-回复”配对数据,对基础模型进行微调。训练数据提供“期望的回复”作为学习目标,使模型从通用的文本生成器,转变为能够理解并遵循人类指令的对话助手。

第三个阶段是RLHF阶段,也就是人类反馈强化学习阶段。在第二阶段模型学会回答问题之后,第三阶段的目的是教会模型按人类的偏好进行学习,目标是让模型的输出更符合人类的安全与价值偏好。首先,收集人类对模型不同回复的偏好数据,训练一个奖励模型来模拟人类的判断。接着,使用强化学习算法,以奖励模型的打分为信号,优化微调后的语言模型,同时约束其输出不要过于偏离微调阶段的水平,以确保生成质量。
如今,直接偏好优化等方法因更简单高效,也常被用于此阶段。首先是对模型提问,让模型输出两个回答,人类专业对回答进行打分,模型根据打分更新模型参数,从而让大模型的回答更符合人类的偏好。

通过这三个阶段的学习,模型记住了知识,学会了回答问题,并通过人类的反馈,使其回答的更加贴合人类的偏好。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/5/3 7:54:18

15、探索 Spotlight 与 I/O 重定向的强大功能

探索 Spotlight 与 I/O 重定向的强大功能 1. 认识元数据与 mdls 命令 在计算机的日常使用中,我们常常会接触到与文件相关的数据,例如文件名、文件大小和创建日期等。但实际上,很多文件还包含了额外的补充信息,这些信息被称为元数据。元数据在 Spotlight 中起着核心作用。…

作者头像 李华
网站建设 2026/5/1 19:53:20

Qt 入门实战(二):HelloWorld 的两种方式与控件内存管理

Qt 学起来挺有意思的,但初学者往往会被一些细节绕晕。 在上一篇博客里,我们讲了 Qt 的环境搭建和基础概念,这篇我们直接来动手做一个最简单的 HelloWorld,顺便把控件的生命周期、堆栈分配、QString 这些关键点顺便梳理一下。一、H…

作者头像 李华
网站建设 2026/5/2 17:11:29

一体化负氧离子传感器:支持24小时连续在线监测,可实时输出数据

一体化负氧离子传感器是一款功能强大且高度集成的环境监测设备,在众多领域发挥着至关重要的作用。从功能上看,它以精准测量负氧离子浓度为核心,同时还能同步监测多种环境参数。像温度、湿度、PM2.5、PM10、气压、氧含量、噪声、风速、风向等&…

作者头像 李华
网站建设 2026/5/3 9:32:15

护网入门平民化挖掘技巧分享(思路+例子)

【网络安全干货】护网行动实战经验分享:漏洞挖掘到内网渗透的完整流程,新手必藏 文章分享了护网行动中的漏洞挖掘和渗透测试经验,包括0day、Nday漏洞利用,白盒与黑盒审计方法,以及普通人可用的指纹识别和接口泄露等技…

作者头像 李华
网站建设 2026/5/6 11:19:47

AI时代产品经理的救命稻草:零基础入门AI产品,薪资暴涨40-60%!

简介 传统产品经理技能在AI时代迅速贬值,63%企业转型AI产品,AI产品人才稀缺且薪资上涨40-60%。文章推广"零基础入门AI产品经理"课程,内容包括AI产品应用原理、行业案例解析和求职辅导,适合产品经理、创业者、程序员等人…

作者头像 李华