PF-ODE

虽然标题是PF-ODE，但是废物的我应该从DDPM开始回顾

DDPM是怎么想的

一般认为DDPM是Diffusion开山作
DDPM希望将模型生图的过程拆分为前向加噪过程和反向去噪过程，通过马尔可夫链的假设，DDPM为前向加噪进行建模

q (x_{t} ∣ x_{t - 1}) = N (x_{t}; 1 - β_{t} x_{t - 1}, β_{t} I) q (x_{1 : T} ∣ x_{0}) = t = 1 \prod T q (x_{t} ∣ x_{t - 1})

在这样的建模中

下一个状态只与前一个状态有关
基于正态分布，使得前向反向过程都在正态分布的假设下
$1 - β_{t}$ 和 $β_{t}$ 的中 $β$ 为超参数，这样的加噪方式能够通过重参数化技巧简化 $x_{t}$ 的计算

然后在反向去噪过程(denoising process)
我们希望能够得到分布 $p (x_{t - 1} ∣ x_{t})$ 这个分布仍是高斯分布，则我们需要通过模型逐步建模反向过程

p (x_{t - 1} ∣ x_{t}) = N (x_{t - 1}; μ (x_{t}, t), Σ (x_{t}, t))

p_{θ} (x_{0 : T}) = p (x_{T}) t = 1 \prod T p_{θ} (x_{t - 1} ∣ x_{t}) p_{θ} (x_{t - 1} ∣ x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), Σ_{θ} (x_{t}, t))

关键难点在 $p (x_{t - 1} ∣ x_{t})$ ，根据贝叶斯公式，我们需要知道 $p (x_{t}), p (x_{t - 1})$ 才能进行计算，即需要完整的数据分布 $\tilde{p} (x_{0})$ ， $p (x_{t}) = \int p (x_{t} ∣ x_{0}) \tilde{p} (x_{0}) d x_{0}$
我们可以通过加入condition $x_{0}$ 来进行估计

q (x_{t - 1} ∣ x_{t}, x_{0}) = N (x_{t - 1}; \tilde{μ} (x_{t}, x_{0}), \tilde{β}_{t} I)

根据贝叶斯公式，有
Pasted image 20250316185807

由此得到方差和期望

\tilde{β}_{t} = 1/ (\frac{α _{t}}{β _{t}} + \frac{1}{1 - α ˉ _{t - 1}}) = 1/ (\frac{α _{t} - α ˉ _{t} + β _{t}}{β _{t} ( 1 - α ˉ _{t - 1} )}) = \frac{1 - α ˉ _{t - 1}}{1 - α ˉ _{t}} \cdot β_{t}

\tilde{μ}_{t} (x_{t}, x_{0}) = (\frac{α _{t}}{β _{t}} x_{t} + \frac{α ˉ _{t - 1}}{1 - α ˉ _{t - 1}} x_{0}) / (\frac{α _{t}}{β _{t}} + \frac{1}{1 - α ˉ _{t - 1}}) = (\frac{α _{t}}{β _{t}} x_{t} + \frac{α ˉ _{t - 1}}{1 - α ˉ _{t - 1}} x_{0}) \frac{1 - α ˉ _{t - 1}}{1 - α ˉ _{t}} \cdot β_{t} = \frac{α _{t} ( 1 - α ˉ _{t - 1} )}{1 - α ˉ _{t}} x_{t} + \frac{α ˉ _{t - 1} β ˉ _{t}}{1 - α ˉ _{t}} x_{0}

DDPM固定方差(通过指定 $β$ )，期望直接预测期望来进行预测
根据重参数化trick，进一步得到期望的表达式

\tilde{μ}_{t} = \frac{α _{t} ( 1 - α ˉ _{t - 1} )}{1 - α ˉ _{t}} x_{t} + \frac{α ˉ _{t - 1} β _{t}}{1 - α ˉ _{t}} \frac{1}{α ˉ _{t}} (x_{t} - 1 - \overset{α}{ˉ}_{t} ϵ_{t}) = \frac{1}{α _{t}} (x_{t} - \frac{1 - a _{t}}{1 - α ˉ _{t}} ϵ_{t})

此时只有 $ϵ$ 是未知的，在这里可以直接让模型预测这个噪声，就可以顺理成章地得到DDPM的训练损失和推理过程
但是这样略显草率，更严格来说，我们的目标是极大化似然函数
根据ELBO技巧，我们可以得到

L_{CE} = - E_{q (x_{0})} lo g p_{θ} (x_{0}) = - E_{q (x_{0})} lo g (\int p_{θ} (x_{0 : T}) d x_{1 : T}) = - E_{q (x_{0})} lo g (\int q (x_{1 : T} ∣ x_{0}) \frac{p _{θ} ( x _{0 : T} )}{q ( x _{1 : T} ∣ x _{0} )} d x_{1 : T}) = - E_{q (x_{0})} lo g (E_{q (x_{1 : T} ∣ x_{0})} [\frac{p _{θ} ( x _{0 : T} )}{q ( x _{1 : T} ∣ x _{0} )}]) \leq - E_{q (x_{0 : T})} lo g \frac{p _{θ} ( x _{0 : T} )}{q ( x _{1 : T} ∣ x _{0} )} = E_{q (x_{0 : T})} [lo g \frac{q ( x _{1 : T} ∣ x _{0} )}{p _{θ} ( x _{0 : T} )}] = L_{V L B}

$L_{V L B}$ 可以拆分成几项KL散度加和

E_{q} [L_{T} D_{KL} (q (x_{T} ∣ x_{0}) ∥ p_{θ} (x_{T})) + t = 2 \sum T L_{t - 1} D_{KL} (q (x_{t - 1} ∣ x_{t}, x_{0}) ∥ p_{θ} (x_{t - 1} ∣ x_{t})) - L_{0} lo g p_{θ} (x_{0} ∣ x_{1})]

第一项可忽略，重点是中间项，对于已知的高斯分布的KL散度，有解析解，代入得到

L_{t} = E_{x_{0}, ϵ} [\frac{1}{2∣∣ Σ _{θ} ( x _{t} , t ) ∣ ∣ ^{2}} ∣∣ \tilde{μ}_{θ} (x_{t}, t) - μ (x_{t}, t) ∣ ∣^{2}] = E_{x_{0}, ϵ} [\frac{1}{2∣∣ Σ _{θ} ∣ ∣ ^{2}} ∣∣ \frac{1}{α _{t}} (x_{t} - \frac{1 - α _{t}}{1 - α ˉ _{t}} ϵ) - \frac{1}{α _{t}} (x_{t} - \frac{1 - α _{t}}{1 - α ˉ _{t}} ϵ_{θ} (x_{t}, t)) ∣ ∣^{2}] = E_{x_{0}, ϵ} [\frac{( 1 - α _{t} ) ^{2}}{2 α _{t} ( 1 - α ˉ _{t} ) ∣∣ Σ _{θ} ∣ ∣ ^{2}} ∣∣ ϵ - ϵ_{θ} (x_{t}, t) ∣ ∣^{2}] = E_{x_{0}, ϵ} [\frac{( 1 - α _{t} ) ^{2}}{2 α _{t} ( 1 - α ˉ _{t} ) ∣∣ Σ _{θ} ∣ ∣ ^{2}} ∣∣ ϵ - ϵ_{θ} (\overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ϵ, t) ∣ ∣^{2}]

DDPM实践中发现化简效果更佳

L_{t}^{simple} = E_{t \sim [1, T], x_{0}, ϵ_{t}} [∥ ϵ_{t} - ϵ_{θ} (x_{t}, t) ∥^{2}] = E_{t \sim [1, T], x_{0}, ϵ_{t}} [∥ ϵ_{t} - ϵ_{θ} (\overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ϵ_{t}, t) ∥^{2}]

到这里我们训练了一个模型预测噪声，然后回到上面求出的均值和方差就可以逐步生成

DDIM 又是什么

在上面DDPM的推导中，有一步是 $p (x_{t - 1} ∣ x_{t}, x_{0})$ 的分布推导。使用重参数化方法之后，我们消去了 $x_{0}$ 来求解均值
有一种想法是，如果我们能够通过 $x_{t}$ 估计 $x_{0}$ 并代入式子的话，是否也可以得到需要求解的结果
则我们希望训练一个模型，用模型的输出 $\overset{μ}{ˉ} (x_{t})$ 来预估 $x_{0}$ ，损失设为 $∣∣ x_{0} - \overset{μ}{ˉ} (x_{t}) ∣ ∣^{2}$
再次通过重参数化方法改写 $x_{0}$ 和 $\overset{μ}{ˉ} (x_{t})$ (当成 $x_{0}$ 来替换)，这样仍然能将 $∣∣ x_{0} - \overset{μ}{ˉ} (x_{t}) ∣ ∣^{2}$ 推导成类似的损失函数(见苏神生成扩散模型漫谈（三）：DDPM = 贝叶斯 + 去噪 - 科学空间|Scientific Spaces)
这样的做法和DDIM有相似的地方

Diffusion process

按照原论文的说法，DDIM 的核心观察是 DDPM的损失只依赖于forward过程的边际分布 $q (x_{t} ∣ x_{0})$ ，而不直接依赖于联合分布 $q (x_{1 : T} ∣ x_{0})$ ，实际上应该就是不依赖于 $q (x_{t} ∣ x_{t - 1})$
基于此，我们可以尝试改写前向过程为非马尔可夫链形式
根据贝叶斯公式

q_{σ} (x_{t} ∣ x_{t - 1}, x_{0}) = \frac{q _{σ} ( x _{t - 1} ∣ x _{t} , x _{0} ) q _{σ} ( x _{t} ∣ x _{0} )}{q _{σ} ( x _{t - 1} ∣ x _{0} )},

根据representation trick，有 $q_{σ} (x_{t} ∣ x_{0}) = N (α_{t} x_{0}, (1 - α_{t}) I)$
也有

x_{t - 1} = \overset{α}{ˉ}_{t - 1} x_{0} + 1 - \overset{α}{ˉ}_{t - 1} ϵ_{t - 1} = \overset{α}{ˉ}_{t - 1} x_{0} + 1 - \overset{α}{ˉ}_{t - 1} - σ_{t}^{2} ϵ_{t} + σ_{t} ϵ

和反解 $ϵ$ 得到的 $ϵ_{t} = \frac{x _{t} - α _{t} x _{0}}{1 - α _{t}}$ ，代入得到分布 $q_{σ} (x_{t - 1} ∣ x_{t}, x_{0})$

q_{σ} (x_{t - 1} ∣ x_{t}, x_{0}) = N (α_{t - 1} x_{0} + 1 - α_{t - 1} - σ_{t}^{2} \cdot \frac{x _{t} - α _{t} x _{0}}{1 - α _{t}}, σ_{t}^{2} I)

这样贝叶斯公式中的所有分布都已知，此时的前向process依赖于 $x_{t - 1}, x_{0}$ ，也就不再是马尔可夫链，这里也可以看到反向过程的分布的随机性由 $σ$ 控制， $σ$ 是不受限制的，当趋近于0时，整个过程趋于确定

Generative process

就像上面DDPM 苏神的一个角度中说的，我们考虑能不能直接预测 $x_{0}$ 来建模
根据重参数化方法+使用模型预测噪声，我们可以得到

f_{θ}^{(t)} (x_{t}) := \frac{x _{t} - 1 - α _{t} \cdot ϵ _{θ}^{(t)} ( x _{t} )}{α _{t}} .

将其代入反向过程，得到decode distribution

p_{θ}^{(t)} (x_{t - 1} ∣ x_{t}) = {N (f_{θ}^{(1)} (x_{1}), σ_{1}^{2} I) q_{σ} (x_{t - 1} ∣ x_{t}, f_{θ}^{(t)} (x_{t})) if t = 1, otherwise,

此时我们引入了 $σ$ ，改变了两个分布，损失形式仍为VLB，但与DDPM略有不同

J_{σ} (ϵ_{θ}) := E_{x_{0 : T} \sim q_{σ} (x_{0 : T})} [lo g q_{σ} (x_{1 : T} ∣ x_{0}) - lo g p_{θ} (x_{0 : T})] = E_{x_{0 : T} \sim q_{σ} (x_{0 : T})} [lo g q_{σ} (x_{T} ∣ x_{0}) + t = 2 \sum T lo g q_{σ} (x_{t - 1} ∣ x_{t}, x_{0}) - t = 1 \sum T lo g p_{θ}^{(t)} (x_{t - 1} ∣ x_{t}) - lo g p_{θ} (x_{T})] (11)

论文提到， $For all σ > 0, there exists γ \in R_{> 0}^{T} and C \in R, such that J_{σ} = L_{γ} + C .$ $L_{γ}$ 当前置的权重系数 $γ$ 原本受限于时间 $t$ ，DDIM论文证明当每个 $t$ ，模型参数不共享的话有最优解相同，我的理解是实际训练的时候并不考虑所有时间步而是单个项进行优化，此时无所谓权重系数所以直接取1。在上述定理下，优化 $L_{σ}$ 和优化 $L_{1}$ 有时相同(论文这么说)，所以认为二者等价，DDIM可以直接使用DDPM的损失

Speed up

当 $σ_{t}$ 对所有 $t$ 取0 的时候，会得到一个implicit probabilistic model(无法显式写出概率密度函数，模型由一个采样过程定义)。
DDIM认为，既然 $L_{1}$ 丝毫不依赖于T时间步的forward process，为何不选取一个T的子集来进行forward 和 generate
定义一个子集 $x_{τ 1}, x_{τ 2}, x_{τ 3}, ... x_{τ S}$ ，每个 $τ i$ 是increasing的subsequence of $[1, .. T]$
如果 $S$ 小于 $T$ significantly，那么我们就可以极大的减少inference时的computational cost
采样方法是

x_{t - 1} = \overset{α}{ˉ}_{t - 1} x_{0} + 1 - \overset{α}{ˉ}_{t - 1} - η^{2} σ_{t}^{2} ϵ_{0} (x_{t}, t) + η \cdot σ_{t} \cdot z

实际应用时，设置 $σ_{t}^{2}$ 为

σ_{t}^{2} = η \cdot \tilde{β}_{t} = η \cdot (1 - α_{t - 1}) / (1 - α_{t}) (1 - α_{t} / α_{t - 1})

当 $η = 1$ ，与DDPM相同；当 $e t a = 0$ 时，过程完全确定

另外的，论文设置了两种时间步的采样方法

linear $τ_{i} = [c i]$
quadratic $τ_{i} = [c i^{2}]$
两种方法 $c i$ 的设定都使得最后一个时间步接近于 $T$

DDIM论文中给出了ODE的关系，我们先跳过这一段最后再回来看

SDE框架

内容不完全，最好参考这一篇很好的入门博客Diffusion学习笔记（三）——随机微分方程（SDE）
作为一个废物我需要先跟着过一下基础知识，基本是抄下来的，再写一遍帮助自己梳理一下知识

随机微分方程首先涉及了随机过程的微积分概念，所以我们先从连续开始定义

均方微积分

定义3.1:(均方收敛) 设随机变量序列 $X_{n}, n = 1, 2, ...$ 和随机变量 $X$ 的二阶矩有限(二次幂的期望存在)，若均方极限

n \to \infty lim E ∣ X_{n} - X ∣^{2} = 0

称 $X_{n}$ 均方收敛于X，记作 $l . i . m_{n \to \infty} X_{n} = X$ ( $l . i . m$ 为limit in mean square)或 $X_{n} m . s X$
定理3.1：若均方收敛，普通极限(期望的极限)和均方极限(均方极限的期望)在期望下可以交换位置
若 $l.i.m._{n \to \infty} X_{n} = X$

n \to \infty lim E (X_{n}) = E (l.i.m._{n \to \infty} X_{n})

证明：由 $D (Y) = E Y^{2} + E^{2} Y$ ，可以得到 $E^{2} Y = E Y^{2} - D (Y) < E Y^{2}$ ，所以有

∣ E (X_{n} - X) ∣ \leq E ∣ X_{n} - X ∣^{2}

左右两边取极限，右边根据均方收敛得到0，所以 $lim_{n \to \infty} ∣ E (X_{n} - X) ∣ = 0$ ， $lim_{n \to \infty} E X_{n} = EX = E (l.i.m._{n \to \infty} X_{n})$

定理3.2：若均方收敛， $X_{n}$ 依概率收敛于X
由切比雪夫不等式

\forall ε > 0, P (∣ X_{n} - X ∣ > ε) \leq \frac{E ∣ X _{n} - X ∣ ^{2} - E ^{2} ∣ X _{n} - X ∣}{ε ^{2}}

左右取极限，由均方收敛和定理3.1可得右边为0，所以 $lim_{n \to \infty} P (∣ X_{n} - X ∣ > ε) \to 0$ ， $X_{n}$ 依概率收敛于 $X$

定义3.2：随机过程的均方收敛
随机过程 ${X (t), t \in T}$ 满足， $t_{0}, t_{0} + Δ t \in T$ 时

Δ t \to 0 lim E ∣ X (t_{0} + Δ t) - X (t_{0}) ∣^{2} = 0

即t取极限时均方收敛

l.i.m._{Δ t \to 0} X (t_{0} + Δ t) = X (t_{0})

称 $X (t)$ 在 $t_{0}$ 处均方连续，进一步地，在每个 $t$ 都均方连续，则在 $T$ 上均方连续
根据定理3.2，均方收敛则概率收敛， $Δ t \to 0, \forall ε, \forall η, P (∣ X (t_{0} + Δ t) - X (t_{0}) ∣ > ε) < η$ ，当时间给出微小扰动时，扰动后的状态和扰动前有差别的概率趋近于0，体现了随机过程连续性的统计物理意义

定义3.3：定义随机过程极限
若均方极限

l.i.m._{Δ t \to 0} \frac{X ( t _{0} + Δ t ) - X ( t _{0} )}{Δ t}

存在，则称该极限为 $X (t)$ 在 $t_{0}$ 处的均方导数，记作 $X^{'} (t_{0}) 或 \frac{d X ( t )}{d t}_{t = t_{0}}$ ，也称均方可导
每一处可导则在T上均方可导，记作 $X^{'} (t) 或 \frac{d X ( t )}{d t}$ ，也是一个随机过程
均方导数和普通导数有相似的性质

定义3.4：定义积分
设随机过程 ${X (t), t \in T = [a, b]}$ ， $f (t)$ 为任意普通函数。将 $[a, b]$ 分为n个子区间 $[t_{k}, t_{k + 1}], k = 0, 1... n$
记

Δ t = max (t_{k} - t_{k - 1}) = max Δ t_{k}, k \in [1, n]

Y_{n} = k = 1 \sum n f (ξ_{k}) X (ξ_{k}) (t_{k} - t_{k - 1}) = k = 1 \sum n f (ξ_{k}) X (ξ_{k}) Δ t_{k} ξ_{k} \in [t_{k - 1}, t_{k}]

如果当 $Δ t$ 趋近于0时， $Y_{n}$ 能均方收敛于 $Y$ ，称 $f (t) X (t)$ 在T上均方可积，称 $Y$ 为 $f (t) X (t)$ 在T上的均方积分

Y = \int_{a}^{b} f (t) X (t) d t = l.i.m._{Δ t \to 0} k = 1 \sum n f (ξ_{k}) X (ξ_{k}) Δ t_{k} ξ_{k} \in [t_{k - 1}, t_{k}]

定理3.3：若 $X (t)$ 在 $[a, b]$ 上均方可积，则

[\int_{a}^{t} X (s) d s]^{'} = X (t)

均方积分满足一些基本定理
牛顿-莱布尼兹公式 ( $X (t)$ 均方可导， $X^{'} (t)$ 均方连续)

\int_{a}^{b} X^{'} (t) d t = X (b) - X (a)

期望计算

E [\int_{a}^{b} X (t) d t] = \int_{a}^{b} E [X (t)] d t

定义3.5：n阶线性随机微分方程
设随机过程 $X (t), t \in T$ 与 $Y (t), t \in T$ 为随机过程， $Y (t)$ 的 n 阶均方方导数 $Y^{(n)} (t)$ 存在， $a_{k} (1 \leq k \leq n)$ 为随机变量或常数，则称：

a_{n} Y^{(n)} (t) + a_{n - 1} Y^{(n - 1)} (t) + \dots + a_{1} Y^{'} (t) + a_{0} Y (t) = X (t) (1.9)

一阶线性微分方程写为

d Y = f (X, Y) d t

布朗运动

一条直线上，对称的随机游动，形式化表示为：经过 $Δ t$ 时间，随机地向左或向右移动 $Δ x$ 个单位，向左或向右概率均为1/2，且每次移动互相独立，记为

X_{i} = {1, - 1, 质点第 i 次向右移动 质点第 i 次向左移动

令 $X (t)$ 表示 $t$ 时刻质点的位置，有 $X (t) = Δ x (X_{1} + X_{2} + ... X_{[\frac{t}{Δ t}]})$ ，其中 $[x]$ 表示不超过 $x$ 的最大整数
我们希望得到 $X (t)$ 分布，有 $E X_{i} = 0, D X_{i} = E X_{i}^{2} - E^{2} X_{i} = 1$ ，所以 $E [X (t)] = 0, D [X (t)] = [\frac{t}{Δ t}] (Δ x)^{2}$
说，如果考虑 $Δ t \to 0$ 的情景， $Δ x \to 0$ ，为了令 $D [X (t)]$ 收敛且数值稳定，一般令 $Δ x$ 是 $Δ t$ 的同阶无穷小，即 $Δ x = c Δ t$
此时 $D [X (t)] = lim_{Δ t \to 0} [\frac{t}{Δ t}] (Δ x)^{2} = lim_{Δ t \to 0} [\frac{t}{Δ t}] c^{2} Δ t = c^{2} t .$
由中心极限定理可得

Δ t \to 0 lim P ⎩ ⎨ ⎧ \frac{\sum _{i = 0}^{[\frac{t}{Δ t}]} Δ x X _{i} - 0}{c ^{2} t} \leq x ⎭ ⎬ ⎫ = Φ (x)

Δ t \to 0 lim P {\frac{X ( t )}{c ^{2} t} \leq x} = Φ (x) = \frac{1}{2 π} \int_{- \infty}^{x} e^{- \frac{u ^{2}}{2}} d u

所以 $X (t)$ 趋于正态分布，即 $Δ t \to 0$ ， $X (t) \sim N (0, c^{2} t)$

基于此，定义对于随机过程 $X (t), t \geq 0$ ，如果

$X (t)$ 是独立增量过程
$\forall s, t > 0, X (s + t) - X (s) \sim N (0, c^{2} t);$
则称该随机过程是布朗运动，记为 $B (t)$ (或维纳过程， $W (t)$ )
若 $c = 1$ ，称标准布朗运动 $W (t) \sim N (0, t)$

布朗运动是基于随机游走定义的，(时间间隔非常小时)服从正态分布，方差为 $c^{2} t$ ，时间越长位置越不好预测
后续出现的布朗运动应该都是标准布朗运动

Ito积分和扩散过程

我们关心布朗运动两个时间节点移动的曲线长度。在随机过程中，可以采用 有界变差 来描述随机运动路径长度
将时间区间 $[0, T]$ 进行划分， $0 = t_{0} < t_{1} < ... < t_{n} = T$ ，即将两个时间点的区间划分为多个时间步，每步的矢量距离为 $W (t_{i + 1} - W_{t_{i}})$ ，所以曲线长度可近似为 $∣ W (t_{i + 1} - W_{t_{i}}) ∣$
总距离近似为

i = 0 \sum n - 1 ∣ W (t_{i + 1}) - W (t_{i}) ∣

令 $δ = max_{0 \leq i \leq n - 1} {t_{i + 1} - t_{i}}$ ，布朗运动 $W (t), t \geq 0$ 的有界变差 $WV (T)$ 为

WV (T) = l.i.m._{δ \to 0} i = 0 \sum n - 1 ∣ W (t_{i + 1}) - W (t_{i}) ∣

但是布朗运动的有界变差并不存在
定义二阶变差

[W, W] ([0, T]) = l.i.m._{δ \to 0} i = 0 \sum n - 1 ∣ W (t_{i + 1}) - W (t_{i}) ∣^{2}

布朗运动的二阶变差 $[W, W] ([0, T]) = T$

DFW没有搞懂推导出二阶变差和它的推论目的是什么，暂时跳过

就结论而言，设 ${X (t), t \in [0, T]}$ 为随机过程，若积分

I = \int_{0}^{T} g (X (t), t) d W

t = 0 \sum n - 1 g (X (t_{i}), t_{i}) [W (t_{i + 1}) - W (t_{i})] ⟶ m . s . I

称积分 $I$ 为 Ito积分
进一步的形如

X (T) - X (0) = \int_{0}^{T} f (X (t), t) d t + \int_{0}^{T} g (X (t), t) d W

称为积分形式Ito随机微分方程

d X (t) = f (X (t), t) d t + g (X (t), t) d W

称为微分形式Ito随机微分方程或Ito过程或漂移布朗运动或扩散方程
扩散方程中， $f (X (t), t)$ (与 $d X$ 构成一阶均方微分方程)一项给出了下一时刻 $X (t + Δ t)$ 与当前时刻 $X (t)$ 的确定性关系， $g (X (t), t) d W$ 中由于布朗运动，该项相当于噪声项，引入了随机性

Ito积分有一些性质
如期望为0

E [\int_{s}^{T} g (X (t), t) d W] = 0

Ito引理(二元泰勒展开，高阶项可证为0)

df (t, X_{t}) = \frac{\partial f ( t , X _{t} )}{\partial t} d t + \frac{\partial f ( t , X _{t} )}{\partial X _{t}} d X_{t} + \frac{1}{2} \frac{\partial ^{2} f ( t , X _{t} )}{( \partial X _{t} ) ^{2}} (d X_{t})^{2}

Diffusion

回忆diffusion的加噪过程， $x_{t} = a_{t} x_{t - 1} + 1 - a_{t} ϵ_{t}$
这样的加噪过程是离散的，为了应用到SDE中先考虑连续化。在每两个时间步中加入中间操作，不断反复可得连续过程
Pasted image 20250525094538

首先简化问题，考虑加噪过程是线性的
对前半项有 $(α_{t} - 1) x_{t - 1} d t$ (斜率)，后半项对标准正态分布采样，本身是离散的比较难连续化。我们已经知道布朗运动 $W (1) \sim N (0, 1)$ ，所以可以直接用连续的布朗运动来替换

ε_{t + d t} - ε_{t} = W (t + d t) - W (t) = d W \sim N (0, d t)

整个过程为

d x = (α_{t} - 1) x_{t - 1} d t + 1 - α_{t} d W

这里是简化后的随机微分方程，更通用的可以将 $α_{t} - 1) x_{t - 1}, 1 - α_{t}$ 扩展为 $f (x, t), g (t)$ ，则得到了常见的一般形式的微分方程

d x = f (x, t) d t + g (t) d W

顺带一提，宋飏博士在score based 论文中提出的扩散过程SDE保留了原有的前向关系式(即具体的加噪过程)，称 VP过程 Variance Preserving

每个SDE都对应一个逆向过程，在生成扩散模型漫谈（五）：一般框架之SDE篇 - 科学空间|Scientific Spaces中对扩散过程逆向SDE有一个简单的证明
扩散模型的逆向SDE为

d x = [f (x, t) - g^{2} (t) \nabla_{x} lo g p_{t} (x)] d t + g (t) d W

直接求解过于困难，我们可以通过采样 $x_{T}$ ，离散化来求解，这种方法称为Euler-Maruyama Method

x_{t + Δ t} - x_{t} = [f (x_{t + Δ t}, t_{t + Δ t}) - g^{2} (t_{t + Δ t}) \nabla_{x_{t + Δ t}} lo g p_{t + Δ t} (x_{t + Δ t})] Δ t + g (t_{t + Δ t}) Δ t ε_{t + Δ t}

我们从标准正态分布采样 $x_{T}$ ，通过上式不断求解。
但是实际上 $\nabla_{x} lo g p_{t} (x)$ 是不知道的，也就是score function未知，我们需要通过模型拟合，使用得分匹配算法

L = E_{t \sim U [0, T]} [λ (t) \int p_{t} (x) ∣∣ s_{θ} (x, t) - \nabla_{x} lo g p_{t} (x) ∣ ∣^{2} d x]

等价于引入 $x_{0}$ 的形式

L = E_{t \sim U [0, T]} [λ (t) \int p_{t} (x, x_{0}) ∣∣ s_{θ} (x, t) - \nabla_{x} lo g p_{t} (x ∣ x_{0}) ∣ ∣^{2} d x]

最后得到采样方法

x_{t + Δ t} - x_{t} = [f (x_{t + Δ t}, t_{t + Δ t}) - g^{2} (t_{t + Δ t}) s (x_{t + Δ t}, t + Δ t)] Δ t + g (t_{t + Δ t}) Δ t ε_{t + Δ t}

此处博客提到了这样的采样方法要比基于MCMC的朗之万采样SMLD模型效率更高，前者两个时间步间进行一次采样(调用一次score function)，后者需要多次调用

另外的，基于朗之万方程采样的模型可以称为 VE(Variance Exploding) 模型
可以通过其前向过程对应的逆向SDE推导出朗之万方程

Notes

VP 和 VE

DDPM被称为VP(Variance Preserving)，即方差紧缩。这是因为DDPM的前向过程为
$x_{T} = \overset{a}{ˉ}_{T} x_{0} + 1 - \overset{a}{ˉ}_{T} ϵ$
有一个对 $x_{0}$ 的缩放(通过很小的 $\overset{a}{ˉ}_{t}$ 来压制 $x_{0}$ )，并通过方差并不大的 $1 - \overset{a}{ˉ}_{T}$ 来进行加噪
而NCSN被称为 VE(Variance Exploding)，即方差爆炸。它的前向是
$x_{T} = x_{0} + σ_{T} ϵ$
它没有缩放 $x_{0}$ ，是通过方差很大的 $σ_{T} ϵ$ 来压制 $x_{0}$

SDE框架统一了NCSN和DDPM，可证二者实际上完全等价

\frac{x _{t}}{1 + σ _{t}^{2}} = \frac{x _{0}}{1 + σ _{t}^{2}} + \frac{σ _{t}}{1 + σ _{t}^{2}} ϵ

x_{t} = \frac{x _{t}}{1 + σ _{t}^{2}}

\overset{α}{ˉ}_{t} = \frac{1}{1 + σ _{t}^{2}}

x_{t} = \overset{α}{ˉ}_{t} x_{0} + 1 - \overset{α}{ˉ}_{t} ϵ

SDE 最终是通过score function来进行生成过程，对于DDPM来说，DDPM没有训练过预测score，可进一步证明

ϵ_{θ} (x_{t}, t) = \frac{x _{t} - α ˉ _{t} x _{0}}{1 - α ˉ _{t}}

s_{θ} (x_{t}, t) = \nabla_{x_{t}} lo g (x_{t}) = - \frac{x _{t} - α ˉ _{t} x _{0}}{1 - α ˉ _{t}}

\nabla_{x_{t}} lo g (x_{t}) = s_{θ} (x_{t}, t) = - \frac{1}{1 - α ˉ _{t}} ϵ_{θ} (x_{t}, t)

即实际上二者只是方向不同，可以直接将DDPM迁移到score based的采样方法上

PF-ODE

PF-ODE(Probability flow ODE)
概率流常微分方程

DDIM不考虑前向传播过程 $p (x_{t} ∣ x_{t - 1})$ ，直接考虑边际分布 $p (x_{t} ∣ x_{0})$ ，加速了采样。那SDE有没有类似的做法呢

找到SDE对应的边际分布的方法就是 Fokker-Planck 方程
博客Diffusion学习笔记（四）——概率流ODE（Probability flow ODE）的推导略显复杂，此处记录一下苏神的推导生成扩散模型漫谈（六）：一般框架之ODE篇 - 科学空间|Scientific Spaces

首先改变一下记号方便参照原博客
回顾一下SDE的前向

d x = f_{t} (x) d t + g_{t} d w

x_{t + Δ t} - x_{t} = f_{t} (x_{t}) Δ t + g_{t} Δ t ϵ_{t}

我们希望直接得到SDE对应的边际分布而不是通过逐步考虑随机性来进行采样

我的理解是，每个SDE都对应一个边际分布，之所以有 “分布” 是因为 $W (t)$ 引入了随机性，我们希望像DDIM一样直接得到边际分布来得到一个更泛化的形式

我们可以引入Dirac函数

p (x) = \int δ (x - y) p (y) d y = E_{y} [δ (x - y)]

Dirac函数可以通过求期望来得到分布
我们希望得到描述边际分布的微分方程，或者说得到 $p_{t} (x)$ ，则通过Dirac函数问题转化为对 $δ (x - x_{t + Δ t})$ 求期望(这里得到的实际上是 $p_{t + Δ t}$ ，需要去取极限消去 $Δ t$ )

另外，Dirac函数还有如下性质

p (x) f (x) = \int δ (x - y) p (y) f (y) d y = E_{y} [δ (x - y) f (y)]

两边求偏导

\nabla_{x} [p (x) f (x)] = E_{y} [\nabla_{x} δ (x - y) f (y)] = E_{y} [f (y) \nabla_{x} δ (x - y)]

接下来推导F-P方程
代入得到 $δ (x - x_{t + Δ t})$ 的具体形式

δ (x - x_{t + Δ t}) = δ (x - x_{t} - f_{t} (x_{t}) Δ t - g_{t} Δ t ϵ) \approx δ (x - x_{t}) - (f_{t} (x_{t}) Δ t + g_{t} Δ t ϵ) \cdot \nabla_{x} δ (x - x_{t}) + \frac{1}{2} (g_{t} Δ t ϵ \cdot \nabla_{x})^{2} δ (x - x_{t})

泰勒展开

求期望

p_{t + Δ t} (x) = E_{x_{t + Δ t}} [δ (x - x_{t + Δ t})] \approx E_{x_{t}, ϵ} [δ (x - x_{t}) - (f_{t} (x_{t}) Δ t + g_{t} Δ t ϵ) \cdot \nabla_{x} δ (x - x_{t}) + \frac{1}{2} (g_{t} Δ t ϵ \cdot \nabla_{x})^{2} δ (x - x_{t})] = E_{x_{t}} [δ (x - x_{t}) - f_{t} (x_{t}) Δ t \cdot \nabla_{x} δ (x - x_{t}) + \frac{1}{2} g_{t}^{2} Δ t \nabla_{x} \cdot \nabla_{x} δ (x - x_{t})] = p (x) - \nabla_{x} \cdot [f_{t} (x_{t}) Δ tp (x)] + \frac{1}{2} g_{t}^{2} Δ t \nabla_{x} \cdot \nabla_{x} p_{t} (x)

左右两边除以 $Δ t$ ，取极限得到

\frac{\partial}{\partial t} p_{t} (x) = - \nabla_{x} \cdot [f_{t} (x) p_{t} (x)] + \frac{1}{2} g_{t}^{2} \nabla_{x} \cdot \nabla_{x} p_{t} (x)

对于任意的 $σ_{t}$ ，如果满足 $σ_{t}^{2} \leq g_{t}^{2}$ 有以下等价变换

\frac{\partial}{\partial t} p_{t} (x) = - \nabla_{x} \cdot [f_{t} (x) p_{t} (x) - \frac{1}{2} (g_{t}^{2} - σ_{t}^{2}) \nabla_{x} p_{t} (x)] + \frac{1}{2} σ_{t}^{2} \nabla_{x} \cdot \nabla_{x} p_{t} (x) = - \nabla_{x} \cdot [(f_{t} (x) - \frac{1}{2} (g_{t}^{2} - σ_{t}^{2}) \nabla_{x} lo g p_{t} (x)) p_{t} (x)] + \frac{1}{2} σ_{t}^{2} \nabla_{x} \cdot \nabla_{x} p_{t} (x)

这个变换相当于把 $f (x)$ 换成 $(f_{t} (x) - \frac{1}{2} (g_{t}^{2} - σ_{t}^{2}) \nabla_{x} lo g p_{t} (x))$ ，将 $g$ 换成 $σ$ ，二者完全等价
这个新的F-P方程对应于SDE

d x = (f_{t} (x) - \frac{1}{2} (g_{t}^{2} - σ_{t}^{2}) \nabla_{x} lo g p_{t} (x)) d t + σ_{t} d w

我们再对比两个SDE

d x = f_{t} (x) d t + g_{t} d w

两个F-P方程完全等价，所以两个SDE对应的边际分布是相同的，也就是存在多条不同的路径/前向过程(通过不同的方差 $σ$ )，我们就得到了一个DDIM的升级版

此时的逆向SDE为

d x = (f_{t} (x) - \frac{1}{2} (g_{t}^{2} + σ_{t}^{2}) \nabla_{x} lo g p_{t} (x)) d t + σ_{t} d w

将 $σ$ 置为0，我们得到ODE

d x = (f_{t} (x) - \frac{1}{2} g_{t}^{2} \nabla_{x} lo g p_{t} (x)) d t

称为概率流ODE，中间的 $\nabla_{x} lo g p_{t} (x)$ 未知，所以需要用模型拟合，也会对应一个神经ODE
代入可以得到其逆向和前向是一致的，我们得到了一个确定性的可逆的过程
这和flow matching一致，这样的做法允许我们进行精确的计算，又由于可逆性允许进行图像编辑等
另外的，对ODE的加速求解方法研究较多，我们也可以使用一些ODE求解方法来进行加速

当 $f_{t} (x)$ 为线性时( $f_{t} x$ )，得到DDIM

White Box

Notes

Model Editing (ML2025)

Reasoning (ML2025)

CS231n Module 3

Thoughts

生成式人工智能浪潮下残缺的人

《人都是要死的》读后感

PF-ODE

DDPM是怎么想的

DDIM 又是什么

Diffusion process

Generative process

Speed up

SDE框架

均方微积分

布朗运动

Ito积分和扩散过程

Diffusion

VP 和 VE

PF-ODE

References

Graph View

Table of Contents

Backlinks

White Box

Notes

Model Editing (ML2025)

Reasoning (ML2025)

CS231n Module 3

Thoughts

生成式人工智能浪潮下残缺的人

《人都是要死的》读后感

PF-ODE

DDPM是怎么想的

DDIM 又是什么

Diffusion process

Generative process

Speed up

SDE框架

均方微积分

布朗运动

Ito积分 和 扩散过程

Diffusion

VP 和 VE

PF-ODE

References

Graph View

Table of Contents

Backlinks

Ito积分和扩散过程