My Notes

Created: 2026-03-06 07:53:04

Updated: 2026-03-06 07:53:04

气体的温度对应于气体分子的平均动能。给定温度，我们可以得出什么有关气体速度分布的结论？从物理学中我们指导，这个分布是温度限制下的熵最大的分布，也被称作麦克斯韦-玻尔兹曼分布。最大熵分布对应了具有最多微观态的宏观态。

1. 最大熵分布

Maximize entropy $h(f)$ over all probability densities $f$ satisfying:

$f(x)\geq 0$ , with equality outside the support set S
$\int _{S}f(x) \, dx=1$ ,
$\int _{S}f(x)r_{i}(x) \, dx=\alpha_{i}$ , for $1\leq 0\leq m$

通过变分法得出：

$J(f) = -\int f\ln f \, dx + \lambda_{0}\int f \, dx+ \sum_{i=1}^m \lambda_{i} \int fr_{i} \, dx$

$\frac{\partial J}{\partial f} = -\ln f(x) - 1 + \lambda_{0} + \sum_{i=1}^m \lambda_{i}r_{i}(x)$

Obtain the form of maximizing density:

$f(x) = e^{\lambda_{0}-1+\sum_{i=1}^m \lambda_{i}r_{i}(x)},\qquad x\in S \tag{*}$

下证该极值为极大值：利用 $D(g\mid\mid f)\geq 0$
若 $g$ 满足三条限制公式， $f^*$ 满足公式*，

$0\leq D(g\mid\mid f^*) = -h(g)+h(f^*),h(g)\leq h(f^*)$

对任意满足限制的g成立。得证

例子：给定期望为0，方差 $\sigma^2$ ，那么最大熵分布具有形式：

$f(x) = e^{\lambda_{0}+\lambda_{1}x+\lambda_{2}x^2}$

具有正态分布形式。

例2：无限制的骰子

$S=\left\{1,2,3,4,5,6\right\}$

最大化熵分布为均匀分布。
例3：Dice with $EX=\sum_{i}ip_{i}=\alpha$
假设n个骰子，点数和已知为 $n\alpha$ ，那么出现i个点的面朝上的比例是多少?

假设 $n_{i}$ 个骰子点数为i。微观态个数

$\begin{align} \left(\begin{matrix} n \\ n_{1},n_{2},n_{3},n_{4},n_{5},n_{6} \end{matrix}\right) & \approx \frac{\left( \frac{n}{e} \right)^n}{\prod_{i=1}^6 \left( \frac{n_{i}}{e} \right)^{n_{i}}} \\ & =\prod_{i=1}^6 \left( \frac{n}{n_{i}} \right)^{n_{i}} \\ & = e^{nH(n_{1}/n, \dots n_{6}/n)} \end{align}$

于是微观态个数最大等价于最大化给定限制 $\sum_{i}ip_{i}=\alpha$ 下的熵。最终得到：

$p_{i}^*= \frac{e^{\lambda i}}{\sum_{i}e^{\lambda i}}$

其中 $\lambda$ 取值满足限制条件。
因此最概然的宏观态为 $np_{1}^*,\dots,np_{6}^*$

在第十二章，我们将说明这种估算和推理的方式是基本正确的。具体而言，最大熵的宏观态不仅是最概然的，它还包括了几乎所有的概率。

例3： $S=[0,\infty)$ 且 $EX=\mu$ .那么最大熵分布为：

$f(x) = \frac{1}{\mu}e^{-x/\mu}$

这个分布有物理解释（等温大气模型）：给定X的期望值（也就是重力势能），最终气体平衡时密度分布为最大熵分布。

3. 反常最大熵问题

考虑一个tricky的问题：给定概率分布的0、1、2、3阶矩为1， $\alpha_{1},\alpha_{2},\alpha_{3}$ 。那么根据之前的条件，最大熵分布为：

$f(x) = e^{\lambda_{0}+\lambda_{1}x+\lambda_{2}x^2+\lambda_{3}x^3}$

但如果 $\lambda_{3}\neq 0$ ，那么 $\int _{-\infty}^\infty f\, dx=\infty$ ，概率分布无法被归一化。，所以 $\lambda_{3}$ 必须是零。但我们现在有4个方程和3个未知数，一般而言是没法解出来的。
这个问题的原因很简单，熵在给定条件下有上界，但不可能达到这个上界。当没有三阶矩限制时最大熵分布为正态分布，当多了三阶矩限制，最大熵只可能更低。我们无法达到最大熵，但可以任意逼近它。方式为在X足够大的地方增加“摆动”，使其足以影响三阶矩，而其他的矩几乎不变。

4. 谱估计

给定一个定态、零均值的随机过程 $\{X_{i}\}$ ，定义自相关函数

$R(k) = E X_{i}X_{i+k}$

对零均值随机过程的自相关函数的傅里叶变换是功率谱密度 $S(\lambda)$ ，即

$S(\lambda) = \sum_{m=-\infty}^\infty R(m)e^{-im\lambda}$

有许多估计功率谱的方式，其中最简单的就是利用长为n的样本的均值估计自相关函数：

$\hat{R}(k) = \frac{1}{n-k} \sum_{i=1}^{n-k} X_{i}X_{i+k}$

如果我们用所有的 $\hat{R}(\cdot)$ 来计算谱，估计结果会随着n增大发散。因此这个叫做periodogram的方法很少被使用。
这个方法的一个主要问题是不同k值的精度不同。对k小的部分很精确，k很大则不精确。一个改进方法是设值k大于某个数时 $\hat{R}(k)=0$ 。
在19世纪60年代，Burg在地质物理中应用谱估计时，提出可以设置自相关函数high lag处的值，使得它们满足最少的假设，也就是使得熵最大。Burg假设过程时平稳（定态）和高斯的，他发现在自相关限制下的最大熵分布是具有合适阶数的自回归高斯过程。

11.5 Entropy Rates of a Gaussian Process
随机过程 $\{X_{i}\},X_{i} \in \mathbb{R}$ 的微分熵率定义为

$h(\mathscr{H}) = \lim_{ n \to \infty } \frac{h(X_{1},X_{2}\dots,X_{n})}{n}$

正如离散情形一样，我们有

$h(\mathscr{H}) = \lim_{ n \to \infty } h(X_{{n}}\mid X_{n-1},\dots,X_{1})$

$h(X_{1},\dots X_{n}) = \frac{1}{2}\log (2\pi e)^n |K^{(n)}|$

其中协方差矩阵 $K^{(n)}$ 是Toeplitz的，第一行分别为： $R(0),R(1),\dots,R(n-1)$ , $K_{ij}^{(n)}=R(|i-j|)=E(X_{i}-EX_{i})(X_{j}-EX_{j})$ . $n\to \infty$ , 本征值密度取向极限，也就是随机过程的谱。Kolmogorov证明了平稳高斯所及过程的熵率可以写作：

$h(\mathscr{H}) = \frac{1}{2}\log_{2}\pi e +\frac{1}{4\pi} \int _{-\pi}^\pi \log S(\lambda) \, d\lambda$

同时 $h(\mathscr{H})=\lim_{ n \to \infty }h(X_{n}|X^{n-1})=\frac{1}{2}\log 2\pi e\sigma_{\infty}^2$ ，其中第二步是因为条件分布也是高斯的， $\sigma_{\infty}$ 是给定无穷长过去后对 $X_{n}$ 的最好估计时的方差。于是

$\sigma_{\infty}^2 = \frac{1}{2\pi e} 2^{2H(\mathscr{H})}$

11.6 Burg's Maximum Entropy Theorem

Theorem 11.6.1: 随机过程满足限制

$EX_{i}X_{i+k} = \alpha_{k},\qquad k=0,1,\dots,p,\forall i$

且取得最大熵率时，为p阶高斯-马尔可夫过程：

$X_{i}=-\sum_{k=1}^p a_{k} X_{i-k} + Z_{i}$

其中 $Z_{i}\sim \mathscr{N}(0,\sigma^2)$ ，其中选择 $a _k,\sigma^2$ 使其满足限制。

1. 最大熵分布

3. 反常最大熵问题

4. 谱估计

11.6 Burg's Maximum Entropy Theorem

Leave a Comment