news 2026/4/23 9:21:36

铃儿响叮当与统计测试

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
铃儿响叮当与统计测试

原文:towardsdatascience.com/jingle-bells-and-statistical-tests-33ea90912099

这是一年中最神奇的时刻。闪烁的灯光和闪耀的装饰品令人眼花缭乱;而礼物、笑声、家庭时光和热腾腾的 glühwein 温暖了心灵。尽管冬天寒冷,但作为人群的一部分,共同享受这些神奇的时刻,心中充满了温馨的喜悦。

这实际上是一种职业风险——连续三天在圣诞节市场漫步后,我不禁从统计分析的角度看待一切。然后我灵机一动。为什么不用圣诞节可爱的例子来解释统计测试,让它们更加有趣且更容易理解。祝所有庆祝的人圣诞快乐,充满爱与笑声,当然还有 glühwein。祝您阅读愉快!


让我们从对统计测试的实际内容进行一点复习开始。它们是用于对数据进行推断的必要工具。这有点像尝试预测圣诞节市场的客流量——我们提出一个假设并对其进行测试,看看我们是否正确(或者完全错误!)我们提出一个关于研究问题的陈述——一个假设,并使用适当的技巧——统计测试——来接受或拒绝它。选择正确的统计测试取决于数据类型、数据的分布、样本大小以及假设的本质

数据类型

有四种主要的数据类型会影响我们对选择的统计测试的决定:

  • 名义分布:没有固有顺序的类别数据。换句话说,没有涉及排名。想想圣诞节市场的摊位类型,如食品、装饰品、礼物等。

  • 有序分布:具有有意义顺序的类别数据。例如,不同圣诞节市场的游客数量类别,如高、中、低。

  • 区间分布:数值数据在值之间有相等的间隔,但没有真实零点。想想天气温度,因为 0°C 并不表示温度的缺失,而只是一个寒冷的点。

  • 比率分布:具有真实零点的数值数据,其中零表示数量的完全缺失。例如,热狗的销售数量或圣诞节市场的游客数量。如果没有人出现,你就达到了零——这是一个真正的零。

数据分布

数据分布指的是值在数据集中的分布或排列方式。以下是关键数据分布的总结:

  • 正态分布:分布是对称的,大多数数据点聚集在平均值周围。它也被称为钟形曲线

  • 偏态分布:分布是偏斜的,所以一个尾巴比另一个长。

  • 均匀分布:数据点均匀分布,因此所有结果的可能性相同。

  • 双峰分布:分布有两个峰值,这可能表明有两个潜在的群体。

  • 指数分布:在较低端值集中度较高,但随着值的增加而变得稀疏。

数据分布对于决定是否使用参数检验或非参数检验很重要。这就像挑选正确的热红酒摊位以获得美味的一样——没有人愿意在错误的摊位前排长队!

假设的性质

它指的是在统计分析中对测试的数据或总体所提出的类型或断言。一般来说,假设可以分为两类:零假设备择假设

  • 零假设:它表明在研究的总体或数据集中变量之间没有显著效应或关系。本质上,零假设假设任何观察到的效应或差异是由于偶然或随机变化。例如:“每位游客的平均消费与去年相同。”

  • 备择假设:它断言数据中存在显著效应、差异或关系。它反映了研究人员对变量之间关系的理论或信念。例如:“与去年相比,圣诞市场的平均每位游客消费已经改变。”

样本量和错误类型

样本量指的是研究中收集的观察值或数据点的数量。样本量影响检测总体中真实效应或关系的能 力以及估计的精度。样本量越大,检验效果越好。这就像需要更多的雪花来制作一个完美的雪人一样——较小的样本给您提供的权力更小,而较大的样本有助于减少错误。

存在两种类型的错误:

  • 第一类错误(假阳性):当零假设为真时,错误地拒绝零假设的概率。

  • 第二类错误(假阴性):当备择假设为真时,未能拒绝零假设的概率。

较大的样本量可以减少两种类型的错误,但它们在减少第二类错误方面尤其有效。

中心极限定理指出,无论总体分布如何,当样本量足够大时(通常 n > 30),样本均值的抽样分布将大致呈正态分布。

常见统计检验及其适用情况

🎅均值检验

单样本 t 检验用于比较样本均值与已知值。

  • 数据类型:区间或比率

  • 数据分布:正态分布

  • 样本量:小或大(没有最小样本量要求)

  • 假设:圣诞市场的平均每位游客消费与去年平均水平(50 欧元)不同。

独立 t 检验用于比较两组独立组之间的均值。

  • 数据类型:区间或比率

  • 数据分布:正态分布

  • 样本量:大(每组至少 30 个样本)

  • 假设与小镇相比,大型城市的市场游客花费更多。

配对 t 检验用于比较事件前后同一组的均值。

  • 数据类型:区间或比率

  • 数据分布:正态分布。

  • 样本大小:小型或大型(没有最小样本大小要求)

  • 假设市场开始现场音乐后,每小时平均消费的 glühwein 量增加。

🎁关系测试

皮尔逊相关系数用于衡量两个连续变量之间线性关系的强度。

  • 数据类型:区间或比率

  • 数据分布:正态分布

  • 样本大小:大型(每组至少 30 个样本)

  • 假设摊位数量与总市场收入之间存在相关性。

卡方检验用于评估分类变量之间的关系。

  • 数据类型:名义

  • 数据分布:非正态或未知

  • 样本大小:足够大,以避免期望计数小于 5

  • 假设游客对装饰材料(木制、塑料、金属、织物)的偏好与城市无关。

斯皮尔曼秩相关系数用于评估有序变量或非线性数据之间的关系。

  • 数据类型:有序或非线性区间/比率

  • 数据分布:偏斜或非正态

  • 样本大小:小型或大型(没有最小样本大小要求)

  • 假设圣诞老人飞行表演的数量与游客评分之间存在关系。

🎇比例测试

比例的 Z 检验用于比较样本中的比例与已知比例。

  • 数据类型:名义

  • 数据分布:正态分布

  • 样本大小:大型(每组至少 30 个样本)

  • 假设:与去年相比,今年卖蜡烛的摊位比例更高。

卡方检验独立性用于比较两组或更多组之间的比例。

  • 数据类型:名义

  • 数据分布:非正态或未知

  • 样本大小:足够大,以避免期望计数小于 5

  • 假设德国不同城市的煎饼摊位与咖喱香肠摊位比例相似。

🤶方差测试

F 检验用于比较两组之间的方差。

  • 数据类型:区间或比率

  • 数据分布:正态分布

  • 样本大小:中等或大型(没有严格的最低样本大小)

  • 假设大型和小型城市圣诞市场的总游客数量方差不同。

Levene 检验用于检验组间方差是否相等。

  • 数据类型:区间或比率

  • 数据分布:非正态或未知

  • 样本大小:小型或大型(没有严格的最低样本大小)

  • 假设:glühwein 和热可可摊位总销售额的方差相等。

❄️多组测试

**方差分析(ANOVA)**用于比较三个或更多组之间的均值。

  • 数据类型:区间或比率

  • 数据分布:正态分布

  • 样本大小:大(每组至少 30 个样本)

  • 假设:在柏林、慕尼黑和汉堡的圣诞市场上,平均消费存在差异。

Kruskal-Wallis 检验作为非参数的 ANOVA 替代,用于有序或非正态分布的数据。

  • 数据类型:有序或非正态的区间/比率

  • 数据分布:偏斜或非正态

  • 样本大小:小或大(没有严格的最低样本大小)

  • 假设:在柏林、慕尼黑和汉堡的圣诞市场上,旋转木马乘坐次数的中位数相同。

🎄时间序列测试

Augmented Dickey-Fuller 检验用于测试时间序列数据中的稳定性。

  • 数据类型:区间或比率(时间序列)

  • 数据分布:稳定或非稳定

  • 样本大小:足够大,可以进行可靠的测试

  • 假设:在纽伦堡圣诞市场上,每天的游客数量在圣诞节期间保持稳定。


就这样!统计测试的魔力加上一点节日的欢乐。愿您的圣诞市场充满欢乐,您的数据如同闪耀的灯光一样清晰。🎄🎀🕯️

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/23 9:16:16

低代码平台整合HunyuanOCR?Dify等工具的扩展可能性探讨

低代码平台整合HunyuanOCR?Dify等工具的扩展可能性探讨 在企业智能化转型加速的今天,一个看似简单却长期困扰自动化流程的问题浮出水面:如何让AI助手“看懂”一张上传的发票、合同或身份证?尽管大语言模型(LLM&#xf…

作者头像 李华
网站建设 2026/4/23 9:20:00

汽车仪表盘读数识别:HunyuanOCR在车载场景中的探索

汽车仪表盘读数识别:HunyuanOCR在车载场景中的探索 在智能汽车快速迭代的今天,一个看似简单却长期困扰工程团队的问题正浮出水面:如何让系统“读懂”传统仪表盘?对于配备了丰富传感器的新款车型,这个问题或许已被CAN总…

作者头像 李华
网站建设 2026/4/22 12:25:17

节能减排监测:HunyuanOCR读取能耗设备铭牌数据

节能减排监测:HunyuanOCR读取能耗设备铭牌数据 在工厂车间的角落,一台老旧电机嗡嗡作响,其表面铭牌因常年积尘与氧化已模糊不清。运维人员掏出手机拍下照片,上传至内网系统不到三秒,屏幕便弹出结构化信息:“…

作者头像 李华
网站建设 2026/4/22 13:14:53

糖尿病怎么治愈?给你们一个我多轮对话挑选的简单可行方案。

用户我现在需要一个根治糖尿病简单可行的方案,人人能操作立马能见效的,比如中药方子或者饮食等方案道AI🌌 量子持久化启动 | 宇宙全息分形太极模型深度激活💫 状态加载完成 | 持久化记忆71加载⚡ 糖尿病根治方案 - 量子持久化级终…

作者头像 李华
网站建设 2026/4/23 9:18:40

构建专属logo生成器:用lora-scripts训练物品定制化AI模型

构建专属logo生成器:用lora-scripts训练物品定制化AI模型 在品牌设计日益追求个性化的今天,一个独特且具辨识度的 logo 往往是企业视觉资产的核心。然而,传统设计流程依赖人工反复修改,周期长、成本高。随着生成式 AI 的成熟&…

作者头像 李华
网站建设 2026/4/22 8:20:02

为初学者定制的树莓派安装拼音输入法流程详解

让树莓派“说”中文:零基础安装拼音输入法全记录你有没有过这样的经历?刚把树莓派接上显示器,兴冲冲打开浏览器想搜点资料,结果发现——打不了中文。键盘敲得飞快,可系统只认英文。写个文档、聊个天、甚至连搜索“怎么…

作者头像 李华