day42-深圳市維司達科技有限公司

1. 过拟合的判断
过拟合是模型 “记住” 训练数据但泛化能力差的现象，核心判断方式是同步打印训练集和测试集的指标：
正常情况：训练集、测试集的损失（Loss）同步下降，准确率（或其他指标）同步上升；
过拟合情况：训练集损失持续下降、准确率持续上升，但测试集损失停止下降甚至上升、准确率停止提升。
2. 模型的保存和加载
PyTorch 中模型保存 / 加载有 3 种常见方式：
a. 仅保存权重（最常用）
保存：仅保存模型的参数（state_dict），文件小、灵活；

加载：需先初始化模型结构，再加载权重；

b. 保存权重和模型
保存：直接保存整个模型对象（包含结构 + 权重）

加载：直接加载模型

c. 保存全部信息（checkpoint）
保存：包含模型权重、优化器状态、训练轮数、损失等训练状态，支持 “断点续训”

加载：恢复模型 + 优化器状态，继续训练

3. 早停策略
早停是防止过拟合的常用方法：当测试集损失连续 N 轮不再下降时，提前停止训练。
核心逻辑：
记录当前最优测试集损失；
每轮训练后对比新的测试集损失；
若连续patience轮损失未下降，则停止训练。

作业：

@浙大疏锦行

Sunshine编解码器技术解析：毫秒级游戏串流背后的实现原理

Sunshine编解码器技术解析：毫秒级游戏串流背后的实现原理【免费下载链接】Sunshine Sunshine: Sunshine是一个自托管的游戏流媒体服务器，支持通过Moonlight在各种设备上进行低延迟的游戏串流。项目地址: https://gitcode.com/GitHub_Trending/su/Sun…

李华

Qwen3-VL调用火山引擎NLP情感分析API

Qwen3-VL与火山引擎NLP情感分析的融合实践在社交媒体内容爆炸式增长的今天，一条“新品首发！限时优惠！”的图文动态背后，可能藏着品牌营销的精心策划，也可能只是用户随手分享的一张图。但对舆情系统来说，真…

李华

Lucy-Edit-Dev：50亿参数文本视频编辑新工具

Lucy-Edit-Dev：50亿参数文本视频编辑新工具【免费下载链接】Lucy-Edit-Dev 项目地址: https://ai.gitcode.com/hf_mirrors/decart-ai/Lucy-Edit-Dev Lucy-Edit-Dev作为首个开源的指令引导视频编辑模型，以50亿参数规模实现纯文本指令驱动的视频内…

李华

Keil5芯片包下载与验证：STM32实战案例

Keil5芯片包下载与验证：STM32实战案例在嵌入式开发的世界里，搭建一个稳定、可靠的开发环境，往往是项目成功的第一步。然而，许多工程师在使用Keil MDK进行STM32开发时，常常会遇到“找不到设备”、“编译报错未定义寄存…

李华

Qwen2.5-Omni-3B：30亿参数实现音视频实时互动

Qwen2.5-Omni-3B：30亿参数实现音视频实时互动【免费下载链接】Qwen2.5-Omni-3B 项目地址: https://ai.gitcode.com/hf_mirrors/Qwen/Qwen2.5-Omni-3B 导语阿里巴巴集团旗下Qwen团队推出Qwen2.5-Omni-3B多模态大模型，以仅30亿参数实现文本、图…

李华

腾讯Youtu-Embedding：77.58分登顶CMTEB的中文嵌入模型

Sunshine编解码器技术解析：毫秒级游戏串流背后的实现原理

Qwen3-VL调用火山引擎NLP情感分析API

Lucy-Edit-Dev：50亿参数文本视频编辑新工具

Keil5芯片包下载与验证：STM32实战案例

Qwen2.5-Omni-3B：30亿参数实现音视频实时互动