Created: 2026-03-06 07:53:04
Updated: 2026-03-06 07:53:04

L4: Joint Entropy,Conditional Entropy, Mutual info & KL Divergence

条件熵
H(YX=xi)H(Y\mid X=x_{i}):当已知X=xiX=x_{i}时,Y的熵值

对上式对X=xiX=x_{i}的概率加权相加,得到的就是条件熵H(YX)=jp(xj)H(YX=xj)=i,jp(xj)p(yix=xj)logp(yix=xj)=ijp(yi,xj)logp(yixj)H(Y\mid X)=\sum_{j}p(x_{j})H(Y\mid X=x_{j}) = \sum_{i,j}p(x_{j})p(y_{i}\mid x=x_{j})\log p(y_{i}\mid x=x_{j})=\sum_{ij}p(y_{i},x_{j})\log p(y_{i}\mid x_{j})平均而言,知道X之后Y的信息量是多少

相对熵的意义:

H(pq)=ipilogpiqiH(p\mid\mid q)= \sum_{i}p_{i}\log \frac{p_{i}}{q_{i}}

对于一个概率分布pip_{i},我们不能真正知道它,只能用qiq_{i}来近似代替。当用这个概率分布代替时,每个编码的长度差是log1pilog1qi\log \frac{1}{p_{i}}-\log \frac{1}{q_{i}},每个编码出现的真实概率分布是pip_{i},加权得到相对熵,也就是平均传输一个码字相对于理论极限值需要多传递的信息。

共同信息是Joint Distribution 和 Marginal Distribution 乘积的KL Divergence

Leave a Comment

captcha
Fontsize