Files
Obsidian/Study/DL/吴恩达深度学习课程/矩阵求导.md

53 lines
1.1 KiB
Markdown

## 概念
标量函数:输出为标量的函数
$$
f(x) = x^2
$$
向量函数:输出为向量/矩阵/张量的函数
$$
f(x) =
\left[ \begin{matrix}
x & x^2 \\
x^3 & x^4
\end{matrix} \right]
$$
$$
f(A) = B
$$
## 本质
$\frac{dB}{dA} = \frac{d(f(A))}{dA}$ 即 `B``A` 中的每个变量进行求导。
## 计算方法
- 标量不变,向量拉伸。
- 前面横向拉伸,后面纵向拉伸。
## 布局
分为分母布局和分子布局(区别于谁是列向量),主要区别为求导后元素排列不同。
通常$(分母布局)^T = (分子布局)$。
## 常用法则
1. 乘法
$$
\frac{d(U^T V)}{dX} = \frac{\partial{U}}{\partial{X}} V + \frac{\partial{V}}{\partial{X}} U
$$
2. 加法
$$
\frac{d(U+V)}{dX} = \frac{dU}{dX} + \frac{dV}{dX}
$$
## 常见公式推导
1.
$$\begin{aligned}
f(X) &= A^T \cdot X = \sum_{i=1}^{n}a_i x_i \\
\frac{d(f(X))}{dX} &=
\left[ \begin{matrix}
\frac{\partial{f(X)}}{\partial{x_1}} \\
\frac{\partial{f(X)}}{\partial{x_2}} \\
\vdots\\
\frac{\partial{f(X)}}{\partial{x_n}}
\end{matrix} \right]
=
\left[ \begin{matrix}
a_1\\
a_2\\
\vdots\\
a_n
\end{matrix} \right]
= A
\end{aligned}$$