news 2026/6/10 18:21:17

nn.layernorm的认识

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
nn.layernorm的认识

LayerNorm — PyTorch 2.9 documentation

layernorm不是对通道进行归一化。而是对选定维度进行归一化。被选定的维度作为一个整体,计算出方差和均值然后进行对被选定维度进行归一化。

(整体归一化的意思就是,如果把[C, H, W]作为归一化维度,那么C*H*W 个元素来进行计算均值和方差,然后进行归一化。)

它的主要作用是将每层特征输入到激活函数之前进行标准化,使其转换为均值为0,方差为1的数据,从而避免数据落在激活函数的饱和区,减少梯度消失的问题。

LayerNorm 可以应用于神经网络的任何层,包括卷积层和循环层,通常放在激活函数之前。

Q:为什么公式是这样,而不是直接除以总和呢?

A:以前的归一化是x_i' = x_i / sum(x) ,即让所有元素综合为1.这种主要应用于生成概率分布,注意力权重等。而深度学习中的归一化,目标是为了 调整数据的整体分布,使其更加稳定(均值为0,标准差为1),其主要是为了

稳定神经网络训练、加速收敛、防止梯度问题

Q:layernorm归一化之后若不进行缩放偏移,则均值为0,标准差为1.这有什么意义呢,能确定它的范围吗?

pytorch中有个很神奇的规则就是: 如果写成layerNorm(dim) 其中dim是整数,则默认对最后一个维度进行归一化。

PyTorch 的底层规则:根据 PyTorch 的设计,当normalized_shape是一个整数时,它会被自动解释为一个仅包含该整数的列表,即normalized_shape = [dim]。这个列表指明了要对输入张量的最后len(normalized_shape)个维度进行归一化。

参考:

LayerNorm在CV与NLP中的应用与实现-CSDN博客

标准正态分布_百度百科

10分钟搞清楚为什么Transformer中使用LayerNorm而不是BatchNormNormalization技术 - 掘金

Build Better Deep Learning Models with Batch and Layer Normalization | Pinecone

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:11:08

14、VXLAN BGP EVPN 中的多租户技术解析

VXLAN BGP EVPN 中的多租户技术解析1. 路由区分器与自动推导在网络配置中,路由区分器(Route Distinguisher,RD)起着关键作用。例如,执行如下命令:LEAF1# show bgp l2vpn evpn vni-id 30001 | include "…

作者头像 李华
网站建设 2026/6/10 16:53:14

21、多Pod网络设计与互联技术解析

多Pod网络设计与互联技术解析1. 多Pod网络设计概述在网络设计中,Overlay网络催生了“扁平”网络设计理念,这种设计有助于网络扩展和去除不必要的层级。不过,从操作简便性来看,分层网络设计实践同样适用于部署在 spine - leaf 拓扑…

作者头像 李华
网站建设 2026/6/10 16:50:56

前端—CSS基础,零基础入门到精通,收藏这篇就够了

总结 CSS 的背景 通过 CSS 背景属性,可以给页面元素添加背景样式。 背景属性可以设置背景颜色、背景图片、背景平铺、背景图片位置、背景图像固定等。 背景颜色 background-color 属性定义了元素的背景颜色。 background-color:颜色值;一般情况下元素背景颜色默…

作者头像 李华
网站建设 2026/6/10 17:37:36

kubesphere-更换新的harbor

背景介绍:原来用的harbor磁盘空间比较满了,现在准备更换一台新搭建的harbor.现在就是怎么配置多个harbor的问题了,服务器上面使用的是containerd的运行环境。只要把 两个 Harbor 都改用 hosts.toml 文件 即可, 不要再在 config.to…

作者头像 李华
网站建设 2026/6/9 23:14:50

Redis-11内存管理与性能优化

11 内存管理与性能优化 🎯 学习要点 内存上限与淘汰策略慢查询监控与采样批量与管道优化 📖 名词解释 maxmemory:Redis 允许使用的最大内存上限。淘汰策略:在内存达到上限时选择哪些键被删除(LRU/LFU/TTL 等&#xff0…

作者头像 李华
网站建设 2026/6/10 16:14:09

2025年12月9日,OpenAI发布的ChatGPT-5.2:人工智能的重大跃进与未来之门

2025年12月9日,OpenAI发布了备受期待的ChatGPT-5.2版本。这一版本不仅在技术上进行了深度优化,更在多个方面实现了前所未有的突破,进一步改变了我们与AI互动的方式。在刚刚发布的这一版本中,ChatGPT-5.2的表现堪称一场AI领域的“革…

作者头像 李华