AI 术语通俗词典：Sigmoid 函数-深圳市維司達科技有限公司

Sigmoid 函数是数学、机器学习、神经网络和人工智能中非常常见的一个术语。它用来描述一种把任意实数压缩到 0 和 1 之间的函数。换句话说，Sigmoid 函数是在回答：如果一个输入值可能很大、很小、正的、负的，那么怎样把它平滑地转换成一个介于 0 与 1 之间的输出。

如果说线性组合回答的是“神经元先算出了一个原始分数”，那么 Sigmoid 函数回答的就是“怎样把这个原始分数变成一个平滑、受限、可解释的输出值”。因此，Sigmoid 函数常用于逻辑回归、二分类概率输出、神经网络激活和概率建模，在人工智能中具有重要基础意义。

一、基本概念：什么是 Sigmoid 函数

Sigmoid 函数是一种常见的 S 形函数，其数学形式可写为：

其中：

• x 表示输入值

• e 表示自然常数

• σ(x) 表示经过 Sigmoid 变换后的输出值

这个公式的核心特点是：不管 x 取多大或多小，输出值始终都落在 0 和 1 之间。

从通俗角度看，Sigmoid 函数可以理解为：把一个没有范围限制的实数，平滑地压缩到 0 到 1 之间。

例如：

• 当 x 很大时，σ(x) 会接近 1

• 当 x 很小时，σ(x) 会接近 0

• 当 x = 0 时，σ(x) = 0.5

这说明，Sigmoid 函数不是简单地“截断”，而是以一种连续、平滑的方式把输入映射到有限区间内。

二、为什么需要 Sigmoid 函数

Sigmoid 函数之所以重要，是因为很多问题都希望模型输出一个可以解释为概率的数值。

例如，在二分类任务中，我们常常希望模型输出的是：属于正类的可能性有多大，这时，一个理想输出值通常应满足：

• 不小于 0

• 不大于 1

因为概率本身就应该落在这个区间内。

但模型中的线性组合结果，例如：

可能是任意实数：

• 可能很大

• 可能很小

• 可能为负

• 也可能为正

这时，就需要一个函数，把这个任意实数 z 转成 0 到 1 之间的数。Sigmoid 函数正好适合做这件事。

从通俗角度看，Sigmoid 函数可以理解为：先让模型自由打分，再把这个分数转换成一个像“概率”一样的值。

因此，Sigmoid 函数特别适合：

• 二分类输出

• 概率表达

• 平滑激活

三、Sigmoid 函数的直观形状

Sigmoid 函数最显著的外观特征，就是它是一条平滑的 S 形曲线。

1、当输入很小时

如果 x 是一个很大的负数，那么：

会非常大，于是：

也就是说，输入越偏向负方向，输出越接近 0。

2、当输入等于 0 时

把 x = 0 代入：

这说明：当输入为 0 时，Sigmoid 的输出正好在中间点 0.5。

3、当输入很大时

如果 x 是一个很大的正数，那么：

会非常接近 0，于是：

也就是说，输入越偏向正方向，输出越接近 1。

从通俗角度看，Sigmoid 曲线像是在表达这样一种关系：

• 分数非常低时，几乎判作 0

• 分数非常高时，几乎判作 1

• 分数在中间附近时，输出会比较敏感地变化

四、如何直观理解 Sigmoid 的输出

Sigmoid 函数最容易理解的方式，就是把它看成一种“平滑打分器”。

假设模型先得到一个原始分数 z：

• z 很大，说明模型更倾向于正类

• z 很小，说明模型更倾向于负类

• z 接近 0，说明模型不太确定

Sigmoid 做的事，就是把这种“倾向程度”转换成一个更容易解释的值。

例如：

• z = 5 时，σ(z) 非常接近 1

• z = -5 时，σ(z) 非常接近 0

• z = 0 时，σ(z) = 0.5

从通俗角度看，Sigmoid 像是在说：

• 如果原始分数强烈偏正，就输出接近 1

• 如果原始分数强烈偏负，就输出接近 0

• 如果原始分数居中，就输出接近 0.5

因此，Sigmoid 非常适合表达“属于正类的程度”。

五、Sigmoid 函数的重要性与常见应用场景

1、Sigmoid 函数的重要性

Sigmoid 函数之所以重要，是因为它把“任意实数输出”和“概率型解释”连接了起来。

首先，它能把无界输入压缩到有界区间。

模型内部很多计算结果本来是任意实数，而 Sigmoid 能把这些结果稳定地映射到 0 到 1 之间。

其次，它是逻辑回归中的核心函数。

逻辑回归虽然名字里有“回归”，但通常用于二分类任务，而其输出概率正是通过 Sigmoid 函数得到的。

再次，它曾是神经网络中非常经典的激活函数。

虽然现代深度网络隐藏层更常使用 ReLU 等函数，但 Sigmoid 在输出层、概率建模和理论教学中仍然非常重要。

可以概括地说：线性部分负责打分，Sigmoid 负责把分数变成平滑概率。

2、常见应用场景

（1）在逻辑回归中，Sigmoid 是最核心的函数之一

它把线性模型的输出变成 0 到 1 之间的概率值。

（2）在二分类神经网络输出层中，Sigmoid 很常见

尤其是当输出只有一个神经元，表示“属于正类的概率”时。

（3）在门控结构中，Sigmoid 也很常见

例如 LSTM、GRU 等模型中的门值，常用 Sigmoid 压缩到 0 到 1 之间，用来表示“保留多少”或“通过多少”。

（4）在概率建模中，Sigmoid 常用于把实数映射为概率参数

只要某个量需要限制在 0 到 1 之间，Sigmoid 都可能派上用场。

六、Sigmoid 函数与逻辑回归的关系

Sigmoid 函数最经典的应用场景之一，就是逻辑回归（Logistic Regression）。

在逻辑回归中，模型先计算一个线性组合：

然后再通过 Sigmoid 函数得到输出概率：

其中：

• z 表示原始线性分数

• p̂ 表示模型预测为正类的概率

这说明，逻辑回归并不是直接拿线性结果做分类，而是先经过 Sigmoid，把结果转成概率，再根据阈值进行判断。

例如：

• 若 p̂ ≥ 0.5，则判为正类

• 若 p̂ < 0.5，则判为负类

从通俗角度看：线性模型先算“倾向分数”，Sigmoid 再把这个分数翻译成“像概率一样的值”。

七、Sigmoid 函数的数学特点

Sigmoid 函数除了形式简单之外，还有几个非常重要的数学特点。

1、输出范围固定在 0 到 1 之间

这使它非常适合表示概率。

2、函数连续且可导

这使它适合与梯度下降、反向传播等优化方法配合使用。

3、关于点 (0, 0.5) 对称

因为：x = 0 时输出正好为 0.5，正负输入会表现出对称式变化趋势。

4、输入绝对值很大时会趋于饱和

这意味着：

• x 很大时，输出接近 1

• x 很小时，输出接近 0

但输出不会真正达到 0 或 1，只会无限逼近。

从通俗角度看，Sigmoid 是一个：平滑、有界、可导，但会在两端变平的函数。

八、Sigmoid 函数的导数及其意义

Sigmoid 函数的导数有一个非常经典的形式：

这个结果很重要，因为它说明：导数可以直接由函数值本身表示，计算上比较方便。

从数值上看：

• 当 σ(x) 接近 0 或接近 1 时，导数会很小

• 当 σ(x) 接近 0.5 时，导数相对较大

这意味着：

• 在中间区域，Sigmoid 对输入变化比较敏感

• 在两端区域，Sigmoid 会变得比较“平”

从通俗角度看：Sigmoid 在中间最容易“动”，在两头最容易“钝”。

这正好引出它在深层网络中的一个重要问题。

九、Sigmoid 函数的局限

虽然 Sigmoid 很经典，但它也有明显局限。

1、容易出现梯度消失

由于 Sigmoid 在输入绝对值较大时会进入饱和区，导数会变得很小。

在深层网络中，这会导致误差信号往前传播时越来越弱，从而出现梯度消失问题。

2、输出不是以 0 为中心

Sigmoid 的输出范围是 0 到 1，而不是关于 0 对称。

这在某些优化情形下，可能让参数更新不如以 0 为中心的函数自然。

3、在隐藏层中已不再是现代默认首选

现代深度学习隐藏层更常使用：

• ReLU

• Leaky ReLU

• GELU

• Tanh（某些场景）

因为这些函数通常在训练深层网络时更有优势。

不过，Sigmoid 在以下场景中仍然非常重要：

• 二分类输出层

• 门控机制

• 概率映射

十、使用 Sigmoid 函数时需要注意的问题

1、Sigmoid 很适合二分类输出层

因为它能自然输出 0 到 1 之间的概率值。

2、Sigmoid 不一定适合深层隐藏层

尤其是在层数较深时，梯度消失问题会更明显。

3、Sigmoid 输出的是“概率风格值”，但最终分类仍需阈值

也就是说：Sigmoid 输出给的是连续值，最终分成哪一类，还要看设定的分类阈值。

4、它与交叉熵损失常常配合使用

在二分类任务中，Sigmoid 输出概率，再配合二元交叉熵，是非常经典的组合。

5、不要把 Sigmoid 与 Softmax 混淆

它们都能产生 0 到 1 之间的值，但用途不同：

• Sigmoid 更常用于单输出二分类

• Softmax 更常用于多分类概率分布输出

十一、Python 示例

下面给出两个简单示例，用来说明 Sigmoid 函数的基本形式和计算方式。

示例 1：手动计算单个输入的 Sigmoid 值

import math # 输入值x = 2.0 # 计算 Sigmoidsigmoid = 1 / (1 + math.exp(-x)) print("输入 x =", x)print("Sigmoid(x) =", sigmoid)

这个例子展示了最基本的 Sigmoid 计算方式。

输入为任意实数，输出则会被压缩到 0 到 1 之间。

示例 2：用 NumPy 计算一组输入的 Sigmoid 输出

import numpy as np # 一组输入x = np.array([-3.0, -1.0, 0.0, 1.0, 3.0]) # 计算 Sigmoidsigmoid = 1 / (1 + np.exp(-x)) print("输入：", x)print("Sigmoid 输出：", sigmoid)

这个例子展示了 Sigmoid 的整体变化趋势：

• 负值会映射到接近 0

• 0 映射为 0.5

• 正值会映射到接近 1

📘 小结

Sigmoid 函数是一种把任意实数平滑压缩到 0 到 1 之间的 S 形函数。它的核心作用，是把模型内部的线性输出转换为可解释为概率的结果，因此在逻辑回归、二分类输出层和门控机制中非常常见。虽然它在深层隐藏层中已不再是默认首选，但在概率输出场景中仍然具有重要地位。对初学者而言，可以把它理解为：模型先算出一个原始分数，而 Sigmoid 再把这个分数翻译成一个介于 0 和 1 之间的“可能性值”。

“点赞有美意，赞赏是鼓励”

AI 术语通俗词典：Sigmoid 函数

018、Agent的评估方法：如何衡量智能体的表现

收藏！小白程序员必看：企业AI Agent规模化落地全攻略（含治理框架与风险边界）

知识注射学习法：软件测试从业者的高效能力注入指南

2026河北邯郸成考报考条件及报名流程

低价获取正版Windows与Office的实用指南

Web Scraper实战指南：破解动态网页数据提取的5大技术难点