Maximum Mean Discrepancy

衡量两个随机变量的差异

对于两个不同的随机变量$x$和$y$,其概率分布函数分别为$p(x)$和$p(y)$,我们常用来衡量其相似性:

$$
\mu_n= \int x^np(x)dx\tag{1}
$$

上述公式为$x$的$n$阶零点矩,其中一阶原点矩是均值、二阶中心(中心即均值)矩是方差。可以理解为某一分布的特征。如果两个随机变量的任意阶矩都相同,那么说明这两个分布具有相同的特征,我们就可以说这两个分布是一致的。而当两个分布不相同时,那么使得两个分布差异最大的矩就应该作为衡量两个分布差异性的标准,这也正是最大均值差异(Maximum mean discrepancy, MMD)的基本思想。

与傅里叶变换密不可分,它其实就是抽象的频谱。不同的矩组成了希尔伯特空间的一组正交基。这些无穷维的正交基的线性组合组成了希尔伯特空间的一个无穷维向量:
$$
\vec{v}=v_1\vec{e_1}+v_2\vec{e_2}+...
$$
其系数$(v_1,v_2,...)$在概率论中就是矩。

随机变量的任意阶矩

此处的任意阶矩包括原点矩、中心矩、标准矩等。观察式$(1)$,不难看出,一个随机变量的任意阶矩,实际上就是该随机变量经过某个函数$f(x)$映射后的期望:

$$
\mu_{\text{random}}=\int f(x)p(x)dx
$$

最大均值差异

于是,对于服从分布$p$的$x$,服从分布$q$的$y$,最大均值差异将两个分布的差异定义为:

$$
\text{MMD}(q,p,\mathcal{H})=\sup _{f\in\mathcal{H},||f||_\mathcal{H}\le1}(\text{E}_q[f(x)]-\text{E}_p[f(y)])\tag{2}
$$

式中,$\sup$表求上界,$\mathcal{H}$表再生希尔伯特空间,$f$为再生希尔伯特空间的任意映射函数,且范数小于等于1(若不加限制,则总能找到一个$f$使得MMD无限大)。

在再生希尔伯特空间中,函数值$f(x)$可以表示为希尔伯特空间中的函数向量$f$和该空间中的向量$\phi(x)$的点积:

$$
f(x)=<f,\phi(x)>_\mathcal{H}
$$

所以,期望也可以写成点积的形式:

$$
\text{E}_q[f(x)]=<f,\text{E}_q[\phi(x)]>_\mathcal{H}=<f,\mu _q>_\mathcal{H}
$$

此时,式$(2)$可转变为:

$$
\begin{align*}
\text{MMD}(q,p,\mathcal{H})
&=\sup _{f\in\mathcal{H},||f||_\mathcal{H}\le1}(\text{E}_q[f(x)]-\text{E}_p[f(y)])\\
&=\sup _{f\in\mathcal{H},||f||_\mathcal{H}\le1}<f,\mu _q-\mu _p>\\
&=\sup _{f\in\mathcal{H},||f||_\mathcal{H}\le1}||f||\space||\mu _q-\mu _p||\space \cos<f,\mu _q-\mu _p>\\
&=||\mu _q-\mu _p||
\end{align*}
$$

最后一个等号成立因为$||f||\le1$且$\cos x\le1$。$\mu _q$和$\mu _p$是期望,可以用均值估计:

$$
\begin{align*}
\mu _q&=\frac{1}{m}\sum\limits _{i=1} ^m\phi(x_i)\\
\mu _p&=\frac{1}{n}\sum\limits _{j=1} ^n\phi(y_j)
\end{align*}
$$

一般地,我们会取MMD的平方,以保证值为非负值。

也可以用核方法计算。

核方法

参考