1.3 KiB
1.3 KiB
矩阵求导
概念
标量函数:输出为标量的函数
f(x) = x^2
向量函数:输出为向量/矩阵/张量的函数
f(x) =
\left[ \begin{matrix}
x & x^2 \\
x^3 & x^4
\end{matrix} \right]
f(A) = B
本质
\frac{dB}{dA} = \frac{d(f(A))}{dA} 即 B 对 A 中的每个变量进行求导。
计算方法
- 标量不变,向量拉伸。
- 前面横向拉伸,后面纵向拉伸。
布局
分为分母布局和分子布局(区别于谁是列向量),主要区别为求导后元素排列不同。 通常$(分母布局)^T = (分子布局)$。
常用法则
- 乘法
\frac{d(U^T V)}{dX} = \frac{\partial{U}}{\partial{X}} V + \frac{\partial{V}}{\partial{X}} U - 加法
\frac{d(U+V)}{dX} = \frac{dU}{dX} + \frac{dV}{dX}
常见公式推导
-
$$\begin{aligned} f(X) &= A^T \cdot X = \sum_{i=1}^{n}a_i x_i \ \frac{d(f(X))}{dX} &= \left[ \begin{matrix} \frac{\partial{f(X)}}{\partial{x_1}} \ \frac{\partial{f(X)}}{\partial{x_2}} \ \vdots\ \frac{\partial{f(X)}}{\partial{x_n}} \end{matrix} \right]
\left[ \begin{matrix} a_1\ a_2\ \vdots\ a_n \end{matrix} \right] = A \end{aligned}$$
参考资料
https://www.bilibili.com/video/BV1xk4y1B7RQ https://zhuanlan.zhihu.com/p/263777564 https://zhuanlan.zhihu.com/p/273729929