pytorch深度学习笔记-深圳市維司達科技有限公司

摘要

1.神经网络的梯度计算

2.梯度下降法（Gradient Descent）

摘要

本篇文章继续学习尚硅谷深度学习教程，学习内容是神经网络的梯度计算，代码实现用梯度下降法

1.神经网络的梯度计算

在神经网络的学习中，梯度的计算非常重要。神经网络中的梯度，指的就是损失函数关于权重参数的梯度。我们以一个单层的简单网络为例，形状为2×3，权重参数为W，损失函数记为L。那么它的权重参数和梯度为:

这里，梯度也是一个2×3的矩阵，其中各个元素由L关于W中各元素的偏导数构成。

代码如下：

import numpy as np from common.functions import softmax,cross_entropy_error from common.gradient import numerical_gradient class simpleNet: def __init__(self): self.W = np.random.randn(2,3) def forward(self, x): a= x @ self.W return softmax(a) def loss(self, x, t): y = self.forward(x) loss = cross_entropy_error(y, t) return loss x = np.array([0.6, 0.9]) t = np.array([0, 0, 1]) net = simpleNet() f = lambda w: net.loss(x, t) dW = numerical_gradient(f, net.W) print(dW)

测试：

2.梯度下降法（Gradient Descent）

梯度下降法（Gradient Descent）是一种用于最小化目标函数的迭代优化算法。核心是沿着目标函数（如损失函数）的负梯度方向逐步调整参数，从而逼近函数的最小值。梯度方向指示了函数增长最快的方向，因此负梯度方向是函数下降最快的方向。

具体来说，我们初始找到函数f(x1,x2)的一个点(x1,x2)，按下式进行更新

这样就可以沿着负梯度方向，找到一个新的点(x1',x2')，让函数值更小。这里的η表示每次的更新量，在神经网络的学习过程中，就代表了一次学习的步长（一次学习多少、多大程度去更新参数），称为学习率（learning rate）。学习率需要预先设定好，过大或过小都会导致学习效果不佳。

梯度下降法可以代码实现如下：

import numpy as np import matplotlib.pyplot as plt from common.gradient import numerical_gradient def gradient_descent(f, init_x, lr=0.01, step_num=100): x = init_x #保存x变化 x_history = [] for i in range(step_num): x_history.append( x.copy() ) grad = numerical_gradient(f, x) x -= lr * grad return x, np.array(x_history)

案例测试

#定义目标函数f（x）=x1^2+x2^2 def f(x): return x[0]**2 + x[1]**2 if __name__ == '__main__': init_x=np.array([-3.0,4.0]) #超参数 lr=0.1 num_iter=20 #梯度下降法计算最小值 x, x_history = gradient_descent(f, init_x, lr, num_iter) print("最小值点为：",x)

测试

如何配置华为云国际站代理商OBS的跨区域复制？

配置华为云国际站代理商 OBS 跨区域复制（CRR），核心是完成 “前置准备 IAM 委托规则配置验证监控” 四步，代理商可全程协助账号 / 配额 / 合规与成本优化，确保跨境数据异步复制稳定、安全且成本可控。以下是可直接…

李华

【毕业设计】基于springboot+微信小程序校园学生兼职系统(源码+文档+远程调试，全bao定制等)

博主介绍：✌️码农一枚 ，专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者，博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围：&am…

李华

Langchain-Chatchat上下文窗口优化技巧

Langchain-Chatchat 上下文窗口优化实践：如何在有限 token 中榨出最大知识价值在企业级智能问答系统中，一个看似不起眼的数字常常成为决定成败的关键——上下文长度。8192？32768？这些冷冰冰的 token 数字背后，是模型…

李华

Langchain-Chatchat向量数据库选型建议（Chroma/FAISS/Milvus）

Langchain-Chatchat向量数据库选型建议（Chroma/FAISS/Milvus） 在构建本地知识库问答系统时，一个常见的挑战是：如何让大语言模型（LLM）准确回答基于企业私有文档的问题？毕竟，通用模型并…

李华

comsol超声清洗利用多个28kHz压电片，按一定方式分布，贴在在2mm钢质水槽外侧，向内...

comsol超声清洗利用多个28kHz压电片，按一定方式分布，贴在在2mm钢质水槽外侧，向内侧水中激励超声波，声场如图所示。声场强度跟钢壁厚，槽尺寸，压电片尺寸及分布等有关。比如改变压电片的厚度，声…

李华

智能体之构建长短期记忆:深入解析 mem0 框架与实战

摘要：大模型（LLM）天生是无状态的，但在构建真正可用的 AI Agent（智能体）时，记忆能力是区分“玩具”与“产品”的关键分水岭。本文将深入探讨智能体长短期记忆的设计哲学，引入下一代记…

李华

摘要

1.神经网络的梯度计算

2.梯度下降法（Gradient Descent）

如何配置华为云国际站代理商OBS的跨区域复制？

【毕业设计】基于springboot+微信小程序校园学生兼职系统(源码+文档+远程调试，全bao定制等)

Langchain-Chatchat上下文窗口优化技巧

Langchain-Chatchat向量数据库选型建议（Chroma/FAISS/Milvus）

comsol超声清洗 利用多个28kHz压电片，按一定方式分布，贴在在2mm钢质水槽外侧，向内...

智能体之构建长短期记忆:深入解析 mem0 框架与实战

comsol超声清洗利用多个28kHz压电片，按一定方式分布，贴在在2mm钢质水槽外侧，向内...