news 2026/4/23 14:44:10

day42

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
day42

1. 过拟合的判断
过拟合是模型 “记住” 训练数据但泛化能力差的现象,核心判断方式是同步打印训练集和测试集的指标:
正常情况:训练集、测试集的损失(Loss)同步下降,准确率(或其他指标)同步上升;
过拟合情况:训练集损失持续下降、准确率持续上升,但测试集损失停止下降甚至上升、准确率停止提升。
2. 模型的保存和加载
PyTorch 中模型保存 / 加载有 3 种常见方式:
a. 仅保存权重(最常用)
保存:仅保存模型的参数(state_dict),文件小、灵活;

加载:需先初始化模型结构,再加载权重;

b. 保存权重和模型
保存:直接保存整个模型对象(包含结构 + 权重)

加载:直接加载模型

c. 保存全部信息(checkpoint)
保存:包含模型权重、优化器状态、训练轮数、损失等训练状态,支持 “断点续训”

加载:恢复模型 + 优化器状态,继续训练

3. 早停策略
早停是防止过拟合的常用方法:当测试集损失连续 N 轮不再下降时,提前停止训练。
核心逻辑:
记录当前最优测试集损失;
每轮训练后对比新的测试集损失;
若连续patience轮损失未下降,则停止训练。

作业:

@浙大疏锦行

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 12:37:36

腾讯Youtu-Embedding:77.58分登顶CMTEB的中文嵌入模型

腾讯优图实验室(Youtu Lab)近日发布的中文嵌入模型Youtu-Embedding在权威中文评测基准CMTEB(Chinese Massive Text Embedding Benchmark)上以77.58分的平均任务得分刷新纪录,超越Qwen3-Embedding-8B、Conan-embedding-…

作者头像 李华
网站建设 2026/4/23 12:57:29

Sunshine编解码器技术解析:毫秒级游戏串流背后的实现原理

Sunshine编解码器技术解析:毫秒级游戏串流背后的实现原理 【免费下载链接】Sunshine Sunshine: Sunshine是一个自托管的游戏流媒体服务器,支持通过Moonlight在各种设备上进行低延迟的游戏串流。 项目地址: https://gitcode.com/GitHub_Trending/su/Sun…

作者头像 李华
网站建设 2026/4/23 10:26:22

Qwen3-VL调用火山引擎NLP情感分析API

Qwen3-VL与火山引擎NLP情感分析的融合实践 在社交媒体内容爆炸式增长的今天,一条“新品首发!限时优惠!”的图文动态背后,可能藏着品牌营销的精心策划,也可能只是用户随手分享的一张图。但对舆情系统来说,真…

作者头像 李华
网站建设 2026/4/22 17:06:26

Lucy-Edit-Dev:50亿参数文本视频编辑新工具

Lucy-Edit-Dev:50亿参数文本视频编辑新工具 【免费下载链接】Lucy-Edit-Dev 项目地址: https://ai.gitcode.com/hf_mirrors/decart-ai/Lucy-Edit-Dev Lucy-Edit-Dev作为首个开源的指令引导视频编辑模型,以50亿参数规模实现纯文本指令驱动的视频内…

作者头像 李华
网站建设 2026/4/23 3:59:57

Keil5芯片包下载与验证:STM32实战案例

Keil5芯片包下载与验证:STM32实战案例 在嵌入式开发的世界里,搭建一个稳定、可靠的开发环境,往往是项目成功的第一步。然而,许多工程师在使用Keil MDK进行STM32开发时,常常会遇到“找不到设备”、“编译报错未定义寄存…

作者头像 李华
网站建设 2026/4/23 9:50:49

Qwen2.5-Omni-3B:30亿参数实现音视频实时互动

Qwen2.5-Omni-3B:30亿参数实现音视频实时互动 【免费下载链接】Qwen2.5-Omni-3B 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen2.5-Omni-3B 导语 阿里巴巴集团旗下Qwen团队推出Qwen2.5-Omni-3B多模态大模型,以仅30亿参数实现文本、图…

作者头像 李华