news 2026/4/23 13:52:40

从0开始的机器学习——特征工程:模型不聪明,往往是你没把话说明白

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
从0开始的机器学习——特征工程:模型不聪明,往往是你没把话说明白

特征工程:模型不聪明,往往是你没把话说明白

很多人在刚接触机器学习的时候,都会对模型抱有一种朴素而真诚的幻想:
“只要我选一个足够高级的模型,它自然能从数据里学到一切。”

现实往往会狠狠打脸。

你把同一份数据丢给逻辑回归、随机森林、XGBoost,甚至再加个神经网络,效果可能都差不多烂。调参调到怀疑人生之后,才慢慢意识到一个事实:模型不是读心术,它只能理解你用特征表达出来的世界。

而特征工程,本质上就是你在替模型“翻译现实”。


什么是特征工程?换个角度看就懂了

原始数据并不是知识,只是记录。

年龄、收入、点击次数、设备型号、城市名,这些东西对人类来说含义清晰,但对模型而言,它们只是一些毫无语义的数字或符号。模型不会自动理解“30 岁和 31 岁很接近”,“北京和上海比北京和火星更像”,更不会理解“收入翻十倍不代表风险也翻十倍”。

特征工程做的事情,就是把这些人类直觉,尽可能体面地塞进数学表达里。

你不是在“优化模型输入”,而是在努力回答一个问题:

“我究竟希望模型关注数据的哪一部分信息?”


特征工程并不神秘,但顺序非常重要

很多教程一上来就讲归一化、标准化、PCA,看起来像在背公式。
但在真正的工程实践中,顺序往往比方法本身更重要。

一个很容易被忽略、却极其关键的经验是:先做特征选择,再做特征转化。

原因其实很朴素。
如果一个特征本身就几乎不变化,或者和其他特征高度重复,那你无论给它做多么精致的归一化、多么优雅的对数变换,都是在给废品打磨边角。


先清理舞台:低方差特征为什么该被赶走

想象一个特征,在你的整个数据集中,几乎所有样本的取值都一模一样。它存在的意义是什么?

对模型来说,这种特征几乎不提供区分能力。它无法帮助模型判断样本之间的差异,也无法在决策边界上起到任何作用。更糟糕的是,它会占用模型的“注意力”,让参数学习变得更嘈杂。

低方差过滤的思想非常朴素:如果一个特征在绝大多数样本中都不变,那它大概率不重要。

这一步没有什么花哨的数学,本质是对数据做一次常识性体检。它通常是整个特征工程流程里成本最低、收益最稳定的一步。


特征不是越多越好,相关系数会揭穿“假勤奋”

另一类常见问题是:你收集了很多特征,但它们其实在重复描述同一件事。

比如价格、折后价格、折扣比例,或者身高、体重、BMI 这类强相关特征。如果全部丢给模型,模型并不会因此变得更聪明,反而可能变得更犹豫。尤其是在线性模型中,这种共线性问题会让参数非常不稳定。

相关系数法的作用,不是判断特征“有没有用”,而是判断它们“是不是在说同一句话”。

当两个特征高度相关时,保留其中一个往往已经足够。剩下的那个,不是信息的补充,而是噪声的放大器。


特征转化:不是为了好看,是为了让模型别误会

当你留下了真正值得保留的特征,下一步才是特征转化。

这里有一个非常重要的认知转变:特征转化不是为了让数据“漂亮”,而是为了避免模型产生错误的理解。

举个很现实的例子。
如果一个特征的数值范围是 1 到 10,另一个是 1 到 100000,在很多模型中,后者会天然地“更重要”,哪怕它和目标变量的关系并不更强。这不是模型偏心,而是数学结构决定的。

归一化和标准化的真正作用,是让不同特征站在一个公平的起跑线上。它们在数值层面消除量纲差异,让模型关注“变化趋势”而不是“数值大小”。


为什么对数变换经常能救模型一命

现实世界的数据非常喜欢“极端”。

大多数人点击一次,两次,极少数人点击几千次;大多数订单金额正常,极少数订单高到离谱。

这种长尾分布对模型是非常不友好的。模型会被那些极端值牵着鼻子走,导致整体判断失衡。

对数变换的魔力在于,它不会改变数据的相对顺序,却能极大压缩极端值的影响。你可以把它理解为:让模型别被“土豪样本”吓到。

很多时候,只是给一个特征取了对数,模型的稳定性和泛化能力就会肉眼可见地改善。


类别特征:你得教模型“怎么数东西”

字符串对模型来说是彻头彻尾的噪声。“北京”和“上海”在内存里只是两段字符,模型无法从中推断任何关系。

类别编码的本质,是把“不同”这个概念,转换成模型可计算的形式。

最常见的 One-Hot 编码,本质上是一种非常诚实的表达方式:不引入额外假设,只告诉模型“它是不是这个类别”。

它的缺点也同样诚实——维度会爆炸。所以在类别特别多的时候,你会发现特征工程开始变成一门取舍的艺术,而不是纯技术问题。


降维:当特征多到你自己都解释不清时

降维往往是最后的手段,而不是第一选择。像 PCA 这样的技术,擅长把一堆相互关联的特征压缩成少数几个综合指标。它们在工程上非常好用,能显著减少计算量和噪声。但代价也很明显:**你很难再解释模型到底在用什么做判断。**所以在实践中,降维更像是一种妥协——在性能、效率和可解释性之间做出的现实选择。


写在最后:特征工程是模型之前的“思考过程”

模型并不会替你理解世界。它只会放大你通过特征传递给它的信息。

如果说模型是答案生成器,那特征工程就是提问的方式。**问题问得好,模型自然答得像样;问题本身含糊不清,再强的模型也只能胡猜。**很多时候,模型效果的提升,并不是来自更复杂的算法,而是来自你终于想清楚了一件事:

“我到底想让模型学什么?”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 13:52:14

一台多用!唯众嵌入式应用开发实训台,重塑院校实训新体验

在当今信息技术飞速发展的时代,嵌入式技术作为电子信息领域的核心,其人才培养显得尤为重要。唯众推出的嵌入式应用开发实训台,正是一款专为院校教学、实践实训及学科竞赛打造的综合性创新平台。它以新型高强度实训操作台为基础,采…

作者头像 李华
网站建设 2026/4/19 18:53:45

Pandas 数据聚合:分组统计与聚合函数应用

Pandas 数据聚合:分组统计与聚合函数应用 咱们已经并肩走过了 14 天。如果说前几天的筛选和清洗是在做“扫除”,那么今天第 15 天的数据聚合(Aggregation),就是在做“炼金”。 在架构师眼中,原始数据就像…

作者头像 李华
网站建设 2026/4/21 2:46:54

2000-2023年上市公司碳排放量测算原始数据+stata代码

在“双碳”目标(碳达峰、碳中和)已成为国家战略的背景下,企业的碳排放表现成为环境经济学、绿色金融及企业管理等领域的研究热点 本数据基于上市公司年报,参考陈小蓓(2021)、孔婷婷 (2024))的测算逻辑,构建…

作者头像 李华
网站建设 2026/4/19 21:55:34

驾驭数据洪流:深入解析 TensorFlow Data API 的核心机制与高阶实践

好的,遵照您的要求,这是一篇关于 TensorFlow Data API 的深度技术文章,旨在为开发者提供超越基础用法的深入见解和实践指南。 驾驭数据洪流:深入解析 TensorFlow Data API 的核心机制与高阶实践 在机器学习项目中,我们…

作者头像 李华
网站建设 2026/3/14 8:23:38

与学习相关的技巧(Batch Normalization)

Batch Normalization 在上一节,我们观察了各层的激活值分布,并从中了解到如果设定了合 适的权重初始值,则各层的激活值分布会有适当的广度,从而可以顺利地进 行学习。那么,为了使各层拥有适当的广度,“强制…

作者头像 李华
网站建设 2026/4/18 15:40:22

车机系统触控界面自动化测试实践

车机系统(车载信息娱乐系统)作为现代汽车的核心组件,集成导航、媒体播放、车辆控制等功能,其触控界面的稳定性和响应速度直接影响驾驶安全与用户体验。自动化测试能显著提升效率,减少手动重复劳动,并确保界…

作者头像 李华