Files
Obsidian/Record/DL/Loss.md

590 B

随机变量 $X = {x_1,x_2,...,x_i}$,对应的概率为 $p_i = p(X = x_i)$,则熵为


H(X) = - \sum_{i=1}^{n}p(x_i) \log p(x_i)

p(x_i)=0 时,$p(x_i)logp(x_i)=0$。 $\log p(x)$表示某个状态所需的信息量,较低的熵往往需要的信息量更少,这样才会使得总信息量更小。熵表示服从某一概率分布时理论最小平均编码长度。

交叉熵


H(p,q) = \sum_x p(x) \frac{1}{q(x)}=-\sum_x p(x) \log q(x) 

表示对预测分布 q(x) 使用真实分布 p(x) 来进行编码时所需要的信息量大小。

KL 散度