每天一个大模型知识点系列--大模型如何训练，分为哪些阶段-深圳市維司達科技有限公司

大模型的训练数据来自大规模的语料库，数据中包含海量的信息，那如何训练出一个可以进行交互的大语言模型呢？

大语言模型的训练往往包含三个阶段，预训练阶段，监督微调阶段，和强化学习阶段。

第一阶段是pretraining，也就是预训练阶段。预训练阶段的数据由没有标签的海量数据构成，目的是让大模型学会或记住这些知识。训练采用自回归的方法，通过前几个token预测下一个token，从而得到一个基础模型。

第二个阶段是监督微调阶段。当模型拥有了知识之后，下一步是教会大模型如何理解并遵循人类指令回答问题。监督微调阶段使用高质量的“指令-回复”配对数据，对基础模型进行微调。训练数据提供“期望的回复”作为学习目标，使模型从通用的文本生成器，转变为能够理解并遵循人类指令的对话助手。

第三个阶段是RLHF阶段，也就是人类反馈强化学习阶段。在第二阶段模型学会回答问题之后，第三阶段的目的是教会模型按人类的偏好进行学习，目标是让模型的输出更符合人类的安全与价值偏好。首先，收集人类对模型不同回复的偏好数据，训练一个奖励模型来模拟人类的判断。接着，使用强化学习算法，以奖励模型的打分为信号，优化微调后的语言模型，同时约束其输出不要过于偏离微调阶段的水平，以确保生成质量。
如今，直接偏好优化等方法因更简单高效，也常被用于此阶段。首先是对模型提问，让模型输出两个回答，人类专业对回答进行打分，模型根据打分更新模型参数，从而让大模型的回答更符合人类的偏好。

通过这三个阶段的学习，模型记住了知识，学会了回答问题，并通过人类的反馈，使其回答的更加贴合人类的偏好。

15、探索 Spotlight 与 I/O 重定向的强大功能

探索 Spotlight 与 I/O 重定向的强大功能 1. 认识元数据与 mdls 命令在计算机的日常使用中，我们常常会接触到与文件相关的数据，例如文件名、文件大小和创建日期等。但实际上，很多文件还包含了额外的补充信息，这些信息被称为元数据。元数据在 Spotlight 中起着核心作用。…

李华

Qt 入门实战（二）：HelloWorld 的两种方式与控件内存管理

Qt 学起来挺有意思的，但初学者往往会被一些细节绕晕。在上一篇博客里，我们讲了 Qt 的环境搭建和基础概念，这篇我们直接来动手做一个最简单的 HelloWorld，顺便把控件的生命周期、堆栈分配、QString 这些关键点顺便梳理一下。一、H…

李华

一体化负氧离子传感器：支持24小时连续在线监测，可实时输出数据

一体化负氧离子传感器是一款功能强大且高度集成的环境监测设备，在众多领域发挥着至关重要的作用。从功能上看，它以精准测量负氧离子浓度为核心，同时还能同步监测多种环境参数。像温度、湿度、PM2.5、PM10、气压、氧含量、噪声、风速、风向等&…

李华

护网入门平民化挖掘技巧分享(思路+例子)

【网络安全干货】护网行动实战经验分享：漏洞挖掘到内网渗透的完整流程，新手必藏文章分享了护网行动中的漏洞挖掘和渗透测试经验，包括0day、Nday漏洞利用，白盒与黑盒审计方法，以及普通人可用的指纹识别和接口泄露等技…

李华

AI时代产品经理的救命稻草：零基础入门AI产品，薪资暴涨40-60%！

简介传统产品经理技能在AI时代迅速贬值，63%企业转型AI产品，AI产品人才稀缺且薪资上涨40-60%。文章推广"零基础入门AI产品经理"课程，内容包括AI产品应用原理、行业案例解析和求职辅导，适合产品经理、创业者、程序员等人…

李华

15、探索 Spotlight 与 I/O 重定向的强大功能

Qt 入门实战（二）：HelloWorld 的两种方式与控件内存管理

一体化负氧离子传感器：支持24小时连续在线监测，可实时输出数据

护网入门平民化挖掘技巧分享(思路+例子)

统信域管-终端策略-执行脚本策略的脚本格式及执行用户及执行时间

AI时代产品经理的救命稻草：零基础入门AI产品，薪资暴涨40-60%！