news 2026/4/23 15:40:52

机器学习 —— 训练与测试

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
机器学习 —— 训练与测试

摘要:机器学习中,训练集-测试集划分是评估模型性能的关键技术。通过将数据分为训练集(用于模型训练)和测试集(用于性能评估),可以避免过拟合问题,确保模型具有良好的泛化能力。示例使用sklearn的train_test_split函数将鸢尾花数据集按8:2划分,训练逻辑回归模型后获得100%的测试准确率。该方法通过独立测试集验证模型对新数据的预测能力,random_state参数保证了实验可重复性。

目录

机器学习 —— 训练与测试

示例

输出结果

术语说明


机器学习 —— 训练与测试

在机器学习中,训练集 - 测试集划分(train-test split)是一种常用的模型性能评估技术。其核心思想是将现有数据划分为两个数据集:训练集(training set)和测试集(testing set)。训练集用于模型的训练过程,测试集则用于评估模型的性能表现。

训练集 - 测试集划分至关重要,因为它能让我们在模型未见过的数据上进行测试。这一过程的必要性在于:若直接使用训练数据评估模型,可能会出现模型在训练集上表现优异,但对新数据的泛化能力较差的情况。

示例

在 Python 中,可以使用sklearn.model_selection模块中的train_test_split函数实现数据的划分。以下是具体实现示例:

# 导入所需库和数据集 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression # 加载鸢尾花数据集 data = load_iris() X = data.data # 特征数据 y = data.target # 目标标签 # 将数据划分为训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) # 创建逻辑回归模型并在训练集上训练 model = LogisticRegression() model.fit(X_train, y_train) # 在测试集上评估模型性能 accuracy = model.score(X_test, y_test) print(f"准确率: {accuracy:.2f}")

在上述示例中,我们首先加载了鸢尾花(iris)数据集,然后通过train_test_split函数将数据划分为训练集和测试集。接着创建逻辑回归模型并使用训练集进行训练,最后通过模型的score方法在测试集上评估性能。

train_test_split函数中的test_size参数用于指定测试集所占的比例。本示例中该参数设为 0.2,即 20% 的数据用于测试,80% 的数据用于训练。random_state参数用于保证数据划分的可重复性,确保每次运行代码都能得到相同的划分结果。

输出结果

运行上述代码后,将得到以下输出:

plaintext

准确率: 1.00

总而言之,训练集 - 测试集划分是评估机器学习模型性能的关键步骤。通过将数据分离为训练集和测试集,能够有效避免模型对训练数据的过拟合(overfitting),确保模型具备良好的新数据泛化能力。

术语说明

  1. 训练集(training set):用于模型训练的数据集合,模型通过学习该数据集的特征规律构建预测逻辑。
  2. 测试集(testing set):独立于训练集的评估数据集合,用于检验模型对未见过数据的预测能力。
  3. 泛化能力(generalization ability):模型从训练数据中学习到的规律,应用于新数据时的预测准确性。
  4. 过拟合(overfitting):模型过度贴合训练数据的细节(包括噪声),导致在新数据上表现下降的现象。
  5. random_state:控制随机数据划分的种子参数,设定固定值可确保实验结果的可重复验证。
版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 11:21:29

AI 办公提效的关键是什么?5 个可复用工作流(含 Prompt 模板)

随着人工智能相关工具越来越多,很多打工人心里其实都有一个差不多的感觉:AI 好像已经渗透进了各种办公场景,过去要求的职场技能开始加上了AI的标签,逐渐演变成为职场的 AI 技能。真正在办公中使用AI之后,你就会发现技能…

作者头像 李华
网站建设 2026/4/23 9:53:41

开发工具类——获取唯一标识号

问题:现在有一批货物需要编号0000-9999,使用普通随机可能会重复获取 解决方案:根据当年当天的时间为依据,一年内不会重复的4位数,利用年日时分秒的组合,通过哈希算法生成固定4位数字。 import java.time.L…

作者头像 李华
网站建设 2026/4/23 9:52:49

腾讯云渠道商:轻量服务器低成本托管小型网站的 5 个关键实践

一、引言 随着云计算普及,越来越多的用户选择腾讯云轻量应用服务器托管小型网站。但服务器运维直接影响网站稳定性和安全性。本文结合行业实践,总结低成本托管小型网站的 5 个关键实践,帮助您高效管理云服务器。 二、5 大关键运维实践&#…

作者头像 李华
网站建设 2026/4/23 11:19:11

页面加载性能手动检查指南

在软件测试领域,页面加载性能直接影响用户体验和业务转化率。作为测试从业者,手动检查能深入定位瓶颈,避免依赖自动化工具的局限性。本文系统介绍手动检查的核心方法、工具使用和优化策略,帮助测试人员高效评估Web应用性能。 一、…

作者头像 李华
网站建设 2026/4/23 9:54:20

车载智能洗手器设计与实现

车载智能洗手器设计与实现 一、设计背景与意义 车载场景中,驾乘人员在长途行驶、户外露营或接触污渍后,存在手部清洁需求,但传统车载清洁依赖瓶装水纸巾,存在浪费水资源、清洁不彻底、操作不便等问题。现有便携洗手器多为手动按压…

作者头像 李华
网站建设 2026/4/23 11:20:36

全国首家网络空间安全大学要来了,560分可以被录取吗?

收藏 | 网络安全人才缺口将达327万!武汉网络空间安全学院报考全攻略,录取分数线预测 武汉网络空间安全学院是唯一以"网络空间安全"命名的独立高校,首批开设6个相关专业。网络安全行业前景广阔,到2027年人才缺口将达327…

作者头像 李华