From a9e4ec12528b2e897757a158b69fd08b1c3602c0 Mon Sep 17 00:00:00 2001 From: Rain&Bus Date: Mon, 29 Apr 2024 19:34:30 +0800 Subject: [PATCH] vault backup: 2024-04-29 19:34:30 --- Record/DL/Loss.md | 9 +++++---- 1 file changed, 5 insertions(+), 4 deletions(-) diff --git a/Record/DL/Loss.md b/Record/DL/Loss.md index 8e7ff68..243696e 100644 --- a/Record/DL/Loss.md +++ b/Record/DL/Loss.md @@ -1,13 +1,14 @@ # 熵 -随机变量$X = \{x_1,x_2,...,x_i\}$,对应的概率为$p_i = p(X = x_i)$,则熵为 +随机变量 $X = \{x_1,x_2,...,x_i\}$,对应的概率为 $p_i = p(X = x_i)$,则熵为 $$ H(X) = - \sum_{i=1}^{n}p(x_i) \log p(x_i) $$ -> $p(x_i)=0$时,$p(x_i)logp(x_i)=0$ +> $p(x_i)=0$ 时,$p(x_i)logp(x_i)=0$。 +> $\log p(x)$表示某个状态所需的信息量,较低的熵往往需要的信息量更少,这样才会使得总信息量更小。熵表示服从某一概率分布时理论最小平均编码长度。 # 交叉熵 $$ H(p,q) = \sum_x p(x) \frac{1}{q(x)}=-\sum_x p(x) \log q(x) $$ -> 表示对预测分布$q(x)$使用真实分布$p(x)$来进行编码时所需要的信息量大小。 -# KL散度 +> 表示对预测分布 $q(x)$ 使用真实分布 $p(x)$ 来进行编码时所需要的信息量大小。 +# KL 散度