news 2026/4/28 3:00:27

AI 术语通俗词典:Sigmoid 函数

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
AI 术语通俗词典:Sigmoid 函数

Sigmoid 函数是数学、机器学习、神经网络和人工智能中非常常见的一个术语。它用来描述一种把任意实数压缩到 0 和 1 之间的函数。换句话说,Sigmoid 函数是在回答:如果一个输入值可能很大、很小、正的、负的,那么怎样把它平滑地转换成一个介于 0 与 1 之间的输出。

如果说线性组合回答的是“神经元先算出了一个原始分数”,那么 Sigmoid 函数回答的就是“怎样把这个原始分数变成一个平滑、受限、可解释的输出值”。因此,Sigmoid 函数常用于逻辑回归、二分类概率输出、神经网络激活和概率建模,在人工智能中具有重要基础意义。

一、基本概念:什么是 Sigmoid 函数

Sigmoid 函数是一种常见的 S 形函数,其数学形式可写为:

其中:

• x 表示输入值

• e 表示自然常数

• σ(x) 表示经过 Sigmoid 变换后的输出值

这个公式的核心特点是:不管 x 取多大或多小,输出值始终都落在 0 和 1 之间。

从通俗角度看,Sigmoid 函数可以理解为:把一个没有范围限制的实数,平滑地压缩到 0 到 1 之间。

例如:

• 当 x 很大时,σ(x) 会接近 1

• 当 x 很小时,σ(x) 会接近 0

• 当 x = 0 时,σ(x) = 0.5

这说明,Sigmoid 函数不是简单地“截断”,而是以一种连续、平滑的方式把输入映射到有限区间内。

二、为什么需要 Sigmoid 函数

Sigmoid 函数之所以重要,是因为很多问题都希望模型输出一个可以解释为概率的数值。

例如,在二分类任务中,我们常常希望模型输出的是:属于正类的可能性有多大,这时,一个理想输出值通常应满足:

• 不小于 0

• 不大于 1

因为概率本身就应该落在这个区间内。

但模型中的线性组合结果,例如:

可能是任意实数:

• 可能很大

• 可能很小

• 可能为负

• 也可能为正

这时,就需要一个函数,把这个任意实数 z 转成 0 到 1 之间的数。Sigmoid 函数正好适合做这件事。

从通俗角度看,Sigmoid 函数可以理解为:先让模型自由打分,再把这个分数转换成一个像“概率”一样的值。

因此,Sigmoid 函数特别适合:

• 二分类输出

• 概率表达

• 平滑激活

三、Sigmoid 函数的直观形状

Sigmoid 函数最显著的外观特征,就是它是一条平滑的 S 形曲线。

1、当输入很小时

如果 x 是一个很大的负数,那么:

会非常大,于是:

也就是说,输入越偏向负方向,输出越接近 0。

2、当输入等于 0 时

把 x = 0 代入:

这说明:当输入为 0 时,Sigmoid 的输出正好在中间点 0.5。

3、当输入很大时

如果 x 是一个很大的正数,那么:

会非常接近 0,于是:

也就是说,输入越偏向正方向,输出越接近 1。

从通俗角度看,Sigmoid 曲线像是在表达这样一种关系:

• 分数非常低时,几乎判作 0

• 分数非常高时,几乎判作 1

• 分数在中间附近时,输出会比较敏感地变化

四、如何直观理解 Sigmoid 的输出

Sigmoid 函数最容易理解的方式,就是把它看成一种“平滑打分器”。

假设模型先得到一个原始分数 z:

• z 很大,说明模型更倾向于正类

• z 很小,说明模型更倾向于负类

• z 接近 0,说明模型不太确定

Sigmoid 做的事,就是把这种“倾向程度”转换成一个更容易解释的值。

例如:

• z = 5 时,σ(z) 非常接近 1

• z = -5 时,σ(z) 非常接近 0

• z = 0 时,σ(z) = 0.5

从通俗角度看,Sigmoid 像是在说:

• 如果原始分数强烈偏正,就输出接近 1

• 如果原始分数强烈偏负,就输出接近 0

• 如果原始分数居中,就输出接近 0.5

因此,Sigmoid 非常适合表达“属于正类的程度”。

五、Sigmoid 函数的重要性与常见应用场景

1、Sigmoid 函数的重要性

Sigmoid 函数之所以重要,是因为它把“任意实数输出”和“概率型解释”连接了起来。

首先,它能把无界输入压缩到有界区间。

模型内部很多计算结果本来是任意实数,而 Sigmoid 能把这些结果稳定地映射到 0 到 1 之间。

其次,它是逻辑回归中的核心函数。

逻辑回归虽然名字里有“回归”,但通常用于二分类任务,而其输出概率正是通过 Sigmoid 函数得到的。

再次,它曾是神经网络中非常经典的激活函数。

虽然现代深度网络隐藏层更常使用 ReLU 等函数,但 Sigmoid 在输出层、概率建模和理论教学中仍然非常重要。

可以概括地说:线性部分负责打分,Sigmoid 负责把分数变成平滑概率。

2、常见应用场景

(1)在逻辑回归中,Sigmoid 是最核心的函数之一

它把线性模型的输出变成 0 到 1 之间的概率值。

(2)在二分类神经网络输出层中,Sigmoid 很常见

尤其是当输出只有一个神经元,表示“属于正类的概率”时。

(3)在门控结构中,Sigmoid 也很常见

例如 LSTM、GRU 等模型中的门值,常用 Sigmoid 压缩到 0 到 1 之间,用来表示“保留多少”或“通过多少”。

(4)在概率建模中,Sigmoid 常用于把实数映射为概率参数

只要某个量需要限制在 0 到 1 之间,Sigmoid 都可能派上用场。

六、Sigmoid 函数与逻辑回归的关系

Sigmoid 函数最经典的应用场景之一,就是逻辑回归(Logistic Regression)。

在逻辑回归中,模型先计算一个线性组合:

然后再通过 Sigmoid 函数得到输出概率:

其中:

• z 表示原始线性分数

• p̂ 表示模型预测为正类的概率

这说明,逻辑回归并不是直接拿线性结果做分类,而是先经过 Sigmoid,把结果转成概率,再根据阈值进行判断。

例如:

• 若 p̂ ≥ 0.5,则判为正类

• 若 p̂ < 0.5,则判为负类

从通俗角度看:线性模型先算“倾向分数”,Sigmoid 再把这个分数翻译成“像概率一样的值”。

七、Sigmoid 函数的数学特点

Sigmoid 函数除了形式简单之外,还有几个非常重要的数学特点。

1、输出范围固定在 0 到 1 之间

这使它非常适合表示概率。

2、函数连续且可导

这使它适合与梯度下降、反向传播等优化方法配合使用。

3、关于点 (0, 0.5) 对称

因为:x = 0 时输出正好为 0.5,正负输入会表现出对称式变化趋势。

4、输入绝对值很大时会趋于饱和

这意味着:

• x 很大时,输出接近 1

• x 很小时,输出接近 0

但输出不会真正达到 0 或 1,只会无限逼近。

从通俗角度看,Sigmoid 是一个:平滑、有界、可导,但会在两端变平的函数。

八、Sigmoid 函数的导数及其意义

Sigmoid 函数的导数有一个非常经典的形式:

这个结果很重要,因为它说明:导数可以直接由函数值本身表示,计算上比较方便。

从数值上看:

• 当 σ(x) 接近 0 或接近 1 时,导数会很小

• 当 σ(x) 接近 0.5 时,导数相对较大

这意味着:

• 在中间区域,Sigmoid 对输入变化比较敏感

• 在两端区域,Sigmoid 会变得比较“平”

从通俗角度看:Sigmoid 在中间最容易“动”,在两头最容易“钝”。

这正好引出它在深层网络中的一个重要问题。

九、Sigmoid 函数的局限

虽然 Sigmoid 很经典,但它也有明显局限。

1、容易出现梯度消失

由于 Sigmoid 在输入绝对值较大时会进入饱和区,导数会变得很小。

在深层网络中,这会导致误差信号往前传播时越来越弱,从而出现梯度消失问题。

2、输出不是以 0 为中心

Sigmoid 的输出范围是 0 到 1,而不是关于 0 对称。

这在某些优化情形下,可能让参数更新不如以 0 为中心的函数自然。

3、在隐藏层中已不再是现代默认首选

现代深度学习隐藏层更常使用:

• ReLU

• Leaky ReLU

• GELU

• Tanh(某些场景)

因为这些函数通常在训练深层网络时更有优势。

不过,Sigmoid 在以下场景中仍然非常重要:

• 二分类输出层

• 门控机制

• 概率映射

十、使用 Sigmoid 函数时需要注意的问题

1、Sigmoid 很适合二分类输出层

因为它能自然输出 0 到 1 之间的概率值。

2、Sigmoid 不一定适合深层隐藏层

尤其是在层数较深时,梯度消失问题会更明显。

3、Sigmoid 输出的是“概率风格值”,但最终分类仍需阈值

也就是说:Sigmoid 输出给的是连续值,最终分成哪一类,还要看设定的分类阈值。

4、它与交叉熵损失常常配合使用

在二分类任务中,Sigmoid 输出概率,再配合二元交叉熵,是非常经典的组合。

5、不要把 Sigmoid 与 Softmax 混淆

它们都能产生 0 到 1 之间的值,但用途不同:

• Sigmoid 更常用于单输出二分类

• Softmax 更常用于多分类概率分布输出

十一、Python 示例

下面给出两个简单示例,用来说明 Sigmoid 函数的基本形式和计算方式。

示例 1:手动计算单个输入的 Sigmoid 值

import math # 输入值x = 2.0 # 计算 Sigmoidsigmoid = 1 / (1 + math.exp(-x)) print("输入 x =", x)print("Sigmoid(x) =", sigmoid)

这个例子展示了最基本的 Sigmoid 计算方式。

输入为任意实数,输出则会被压缩到 0 到 1 之间。

示例 2:用 NumPy 计算一组输入的 Sigmoid 输出

import numpy as np # 一组输入x = np.array([-3.0, -1.0, 0.0, 1.0, 3.0]) # 计算 Sigmoidsigmoid = 1 / (1 + np.exp(-x)) print("输入:", x)print("Sigmoid 输出:", sigmoid)

这个例子展示了 Sigmoid 的整体变化趋势:

• 负值会映射到接近 0

• 0 映射为 0.5

• 正值会映射到接近 1

📘 小结

Sigmoid 函数是一种把任意实数平滑压缩到 0 到 1 之间的 S 形函数。它的核心作用,是把模型内部的线性输出转换为可解释为概率的结果,因此在逻辑回归、二分类输出层和门控机制中非常常见。虽然它在深层隐藏层中已不再是默认首选,但在概率输出场景中仍然具有重要地位。对初学者而言,可以把它理解为:模型先算出一个原始分数,而 Sigmoid 再把这个分数翻译成一个介于 0 和 1 之间的“可能性值”。

“点赞有美意,赞赏是鼓励”

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/28 2:59:23

018、Agent的评估方法:如何衡量智能体的表现

018、Agent的评估方法:如何衡量智能体的表现 你的Agent看似能说会道,但如何证明它真的“智能”?没有评估,一切优化都是盲人摸象。 前言 在之前的17篇文章中,我们从零开始,构建了具备感知、决策、执行能力的Agent,并为其添加了记忆、工具调用和错误处理等高级功能。然而…

作者头像 李华
网站建设 2026/4/28 2:58:26

知识注射学习法:软件测试从业者的高效能力注入指南

在信息爆炸与知识付费并行的时代&#xff0c;软件测试从业者面临着独特的挑战&#xff1a;技术栈迭代迅猛&#xff0c;从自动化测试、性能压测到安全渗透&#xff0c;新工具、新方法层出不穷&#xff1b;业务场景日益复杂&#xff0c;微服务、云原生、人工智能等架构对测试提出…

作者头像 李华
网站建设 2026/4/28 2:57:37

2026河北邯郸成考报考条件及报名流程

一、报考条件- 18周岁以上中国公民&#xff0c;非全日制在校生&#xff1b;- 高起专/本需高中/中专或同等学力&#xff0c;专升本需学信网可查大专证&#xff1b;- 河北户籍凭身份证&#xff0c;外省需河北有效居住证&#xff1b;- 医学类需对应执业证&#xff0c;成考医学学历…

作者头像 李华
网站建设 2026/4/28 2:57:32

低价获取正版Windows与Office的实用指南

1. 低价获取正版Windows与Office的实用指南最近在技术圈里流传着一个消息&#xff1a;Windows 10专业版终身授权只要16美元&#xff0c;Office 2021专业版也只要52美元。作为一名长期关注软件授权的IT从业者&#xff0c;我决定深入探究这个优惠的来龙去脉&#xff0c;并分享我的…

作者头像 李华
网站建设 2026/4/28 2:55:45

Web Scraper实战指南:破解动态网页数据提取的5大技术难点

Web Scraper实战指南&#xff1a;破解动态网页数据提取的5大技术难点 【免费下载链接】web-scraper-chrome-extension Web data extraction tool implemented as chrome extension 项目地址: https://gitcode.com/gh_mirrors/we/web-scraper-chrome-extension Web Scrap…

作者头像 李华