diff --git a/.obsidian/workspace.json b/.obsidian/workspace.json index a22d736..7f27a54 100644 --- a/.obsidian/workspace.json +++ b/.obsidian/workspace.json @@ -77,7 +77,8 @@ } ], "direction": "horizontal", - "width": 315.5 + "width": 315.5, + "collapsed": true }, "right": { "id": "c501495747cfa761", diff --git a/Books/动手学深度学习/基础概念.md b/Books/动手学深度学习/基础概念.md index a845d86..da97d30 100644 --- a/Books/动手学深度学习/基础概念.md +++ b/Books/动手学深度学习/基础概念.md @@ -10,3 +10,4 @@ $L(\mathbf{w}, b) = \frac1n\sum_{i=1}^{n} l^i(\mathbf{x}, b)$ 梯度下降法主要计算损失函数关于模型参数的导数。但是每次计算时候遍历整个数据集,效率会很低。所以每次计算先抽取一个小批量$B$(由固定数量的样本组成)的梯度,然后我们将梯度乘以一个预先确定的正数$\eta$,并从当前采纳数的值中减掉。 $(\mathbf{w}, b) <- (\mathbf{w},b) - \frac{\eta}{|B|} \sum_{i\in{B}}\partial_{(\mathbf{w}, b)}l^i(\mathbf{w},b)$ 其中$\eta$代表学习率 +# 激活函数