基于经验数据最小化风险泛函的问题

摘要

描述最小化风险泛函问题的几个特殊的例子,包括模式识别、回归估计和密度估计问题。

1. 问题的抽象描述

  用所期望的品质来选取一个函数,就相当于在所有可能的函数中,用我们自定义的一个度量标准来选择一个符合我们度量标准的最合适的函数。

  形式上:在向量空间 $R^n$ 的子集 $Z$ 上,给定一个函数集 $\{g(z)\}, z \in Z$,定义一个泛函:

1.1. 直接最小化泛函

  该泛函就是选取函数的度量标准。然后从函数集 $\{g(z)\}$ 中找出一个能够最小化泛函(E1.1)的函数 $\hat{g}(z)$。

  假设当泛函取最小值时对应最合适的函数 $\hat{g}(z)$ ,并且 $\{g(z)\}$ 中存在泛函(E1.1)的最小值。在显示的给出函数集 $\{g(z)\}$ 和泛函 $C = C(g(z)$ 的情况下,寻找最小化泛函的函数 $\hat{g}(z)$ 是变分法的研究主题。   

1.2. 基于经验数据最小化风险泛函

  另一种情况是在 $Z$ 上定义概率分布函数 $F(z)$,然后将泛函定义为数学期望:

  其中函数 $L(z, g(z))$ 对任意 $g(z) \in \{g(z)\}$ 都是可积的。在这种情况下通过最小化泛函(E1.2)来找到最合适的函数 $\hat{g}(z)$。
  
  现在这个概率分布函数 $F(z)$ 是未知的,但是有依据 $F(z)$ 独立同分布的抽取的观测样本:

  因此需要依据这些观测样本来最小化泛函(E1.2)。

1.3. 区别

  第一种情况的基本问题是构造一个搜索过程,从函数集 $\{g(z)\}$ 中找出最小化泛函的一个函数 $\hat{g}(z)$。搜索过程使用最小化泛函(E1.1)作为度量标准。其中泛函(E1.1)是已知的,重点在于定义如何搜索 $\hat{g}(z)$ 的这个过程。怎么去找。
  
  而第二种情况的基本问题是用公式来表示一个选择函数的准则。因为泛函(E1.2)中的概率分布函数 $F(z)$ 是未知的,因此不能直接用泛函(E1.2)作为度量标准,而是首先需要明确这个度量标准。

1.4. 度量标准

  在讨论泛函(1.2)的最小化问题时,我们用 $\{g(z, \alpha), \alpha \in \Lambda \}$ 的形式来表示函数集 $\{g(z)\}$。这里给出的 $\alpha \in \Lambda$ 表示的是一个参数集合,每个特定的参数 $\hat{\alpha}$ 确定了函数集 $\{g(z, \alpha), \alpha \in \Lambda \}$ 中一个特定的函数 $g(z, \hat{\alpha})$,要找到所求的函数,实际上就是找到这个特定的 $\hat{\alpha}$ 的值。
  
  因此我们可以将泛函(E1.2)重新表示成:

  其中:

  我们将函数 $R(z, \alpha)$ 称为损失函数,它与变量 $z$ 和 $\alpha$ 有关。对于一个确定的参数 $\hat{\alpha}$,其期望损失为:

  对于一个固定的问题,其概率分布函数 $F(z)$ 是未知但固定的,因此最终的风险就由 $Q(z, \alpha)$ 所决定,其中 $z$ 是独立同分布的观测数据 $z_1, z_2, \ldots, z_l$,那么我们的问题就变成了在函数集 $\{Q(z, \alpha), \alpha \in \Lambda\}$ 中选取一个最小化风险的函数 $Q(z, \hat{\alpha})$。   

1.5. 理解猜想

  我的理解中,直接最小化泛函相当于是基于经验数据最小化泛函的更高层次的抽象。把直接最小化泛函中的这个泛函说成已知的或许不太合适,更合适的说法应该是不关心这个泛函的具体形式,而只是从抽象的层面去解释。
  
  而基于经验数据的最小化泛函相当于给定了泛函的一种形式,不过这个形式有点特别,是基于位置的概率分布函数的形式,这种概率分布只能通过一些观测数据进行猜想,在这种情况下去解决最小化泛函问题。

2. 模式识别问题

  基于经验数据最小化风险泛函的问题是一个比较一般的抽象问题,其可以对应到几个具体的基本统计学问题,模式识别是其中一个比较典型的问题。

  模式识别问题是 20 世纪 50 年代末正式提出来的。可以表示为:目标函数对观测到的每个事件确定其所属的分类;学习机器构造一个函数用于模拟目标函数的分类工作。

  也就是说在一个概率分布函数为 $F(x)$ 的环境中,目标函数将每个独立随机出现的事件归到 $k$ 个分类中的一个,那么这个目标函数在对事件进行归类的时候也一定存在一个条件概率分布,我们假设为 $F(y|x)$,其中 $y \in \{0, 1, \ldots, k-1\}$,目标函数依据这个条件概率分布将事件划分到 $k$ 中的一类,完成分类。因此一个事件属于某个分类的联合分布为 $F(y,x) = F(y|x)F(x)$。

  现在给定一个函数集 $\{\phi(x, \alpha), \alpha \in \Lambda\}$,这个函数 $\phi$ 的取值为集合 $\{0, 1, \ldots, k-1\}$ 中的一个。考虑一个最简单的损失函数:

  其中如果 $y = \phi$ 表明预测正确,否则预测错误。模式识别问题就是在函数集 $\{\phi(x, \alpha), \alpha \in \Lambda\}$ 上最小化泛函:

  对于损失函数(E1.5),泛函(E1.6)确定了对于任何给定的函数 $\phi(x, \alpha)$,分类错误的概率。
  
  其中的联合分布 $F(y, x)$ 是未知的,但是给出了一些独立同分布的样本对:

  其问题就是在未知分布但给定数据的情况下最小化分类错误的概率。
  
  综上所述,模式识别问题其实可以归结为基于经验数据最小化风险的问题。但是这里有两个特殊之处:
  1. 观测数据对中的观测结果 $y$ 是属于有限离散集合中的一个值,如果是二分类问题,则是只有两个取值;
  2. 损失函数 $L(y, \phi)$ 同样也是只有两个取值,0 表示分类错误,1 表示分类正确;

  模式识别问题是基于经验数据的风险最小化问题的一个特殊问题。这个例子中给出的损失函数是最简单的指示函数,实际上还可能会使用一些其他的函数来表示损失函数,其值可能就不是属于有限离散集合了,也有可能是连续型值。

3. 回归估计问题

3.1. 回归估计问题

  一般来说我们把每个元素 $x \in X$ 对应于惟一的元素 $y \in Y$,则两个元素集合 $X$ 和 $Y$ 通过某一函数依赖关系相互关联,并且 $X$ 是一个向量集合,$Y$ 是一个标量集合,那么这种关系被称为函数。
  
  不过也存在这样的随机关系,即每个向量 $x$ 对应于一个 $y$,而这个对应是基于某个随机试验的结果得出的。对于每个 $x$,在 $Y$ 上定义一个分部 $F(y|x)$,使 $y$ 值的选取是依据这一分部来实现的。这一的条件概率函数表达了 $y$ 和 $x$ 之间的随机关系。
  
  对于上面的这两段内容我们可以这样来理解。比如我们建立一个模型表示光照、风速、湿度等几个变量和温度之间的关系,光照、风速和湿度三个值构成了向量 $x$,而温度则构成了变量 $y$。
  
  理论上来说这其中肯定是存在某种对应关系的,在不考虑其他任何因素的影响条件下,我们可以使用一个函数来将这个关系的抽象形式表达出来。
  
  但如果我们要通过实际的实验来获取一批数据去找到这个对应关系的话,就会碰到这样一些问题,即使我们通过控制变量法进行实验,控制的变量也没有办法达到绝对的精确,比如不同的温度计之间的测量结果存在很小的误差,温度和湿度可能存在局部的不均衡等情况,也就是说实际的观测数据是由一个核心规律和一些随机的干扰因素合并得到的最终结果。
  
  这种情况下,我们直接认为 $x$ 和 $y$ 之间存在某种随机对应关系。我们使用 $F(x)$ 表示随机生成向量 $x$ 的概率分布。使用 $F(y|x)$ 表示在随机试验中观测到 $y$ 值的条件概率。这种情况下就存在一个联合分布函数 $F(x, y) = F(x)F(y|x)$,根据这一联合分布函数独立同分布的生成观测点:

  要将 $F(y|x)$ 求出来是相当困难的问题,不过我们可以退而求其次,只求条件期望函数:

  求出条件期望函数相当于是在条件 $x$ 下,该分布对应的一个近似值,用这个近似值表示 $y$。我们要做的就是将这个条件期望函数求出来。这一函数被称为回归。在函数集 $\{f(x, \alpha), \alpha \in \Lambda\}$ 上估计这一函数的问题被称为回归估计问题

3.2. 风险泛函

  对于回归问题,我们使用欧式距离来度量风险:

3.3. 通过最小化经验风险能够解决回归估计问题的证明

  在集合 $\{f(x, \alpha), \alpha \in \Lambda \space\space (f(x, \alpha) \in L_2(P)) \}$ 上:
  
  1. 如果回归 $r(x)$ 属于 $\{f(x, \alpha), \alpha \in \Lambda \}$
  
  则在回归函数上能够得到泛函(E1.9)的最小值。
  
  2. 如果回归 $r(x)$ 不属于 $\{f(x, \alpha), \alpha \in \Lambda \}$
  
  则可以在集合 $\{f(x, \alpha), \alpha \in \Lambda \}$ 上求得一个函数 $f(x, \hat{\alpha})$,使得这个函数在 $L_2(P)$ 度量:

  下最接近于回归 $r(x)$。
  
  证明
  
  设:

  则:

  将这个式子代入泛函(E1.9)中,则泛函(E1.9)可以改写为以下形式:

  将这个平方求出来可以得到:

  根据(E1.8)可以将联合分布函数 $F(x,y)$ 拆分为 $F(x)$ 和条件分布函数 $F(y|x)$,就可以将以上式子中的第三项约去:

  这样就证明了:

  第一项与 $\alpha$ 无关,相当于一个固定值。不去管它。如果 $r(x) \in f(x, \alpha)$,说明一定存在某个 $\hat{\alpha}$ 使得 $r(x) = f(x, \hat{\alpha})$,这种情况下第二项就是零,也就是风险是说求得的这个函数 $f(x, \hat{\alpha})$ 就是回归函数;如果 $r(x) \not \in f(x, \alpha)$,那么最小化风险泛函 $R(\alpha)$ 就相当于找到最接近于回归的函数。
  
  因此,回归估计问题也可以归纳到最小化期望风险的体系中。特殊之处在于:
  1. 观测数据对中的观测结果 $y$ 是属于正无穷到负无穷内的一个任意值;
  2. 损失函数集合 $Q(z, \alpha), \alpha \in \Lambda$ 的形式为:$Q(z, \alpha) = (y - f(x, \alpha))^2$   

3.4. 理解

  上文中说如果回归 $r(x)$ 属于 $\{f(x, \alpha), \alpha \in \Lambda \}$,我的理解是在一个有限函数集合中能够找到这个回归,就是实际的目标函数,并且理论上来说这个回归对应的风险应该是 0。

  如果回归 $r(x)$ 不属于 $\{f(x, \alpha), \alpha \in \Lambda \}$,说明无法在一个有限集合中找到这个回归函数。那么我们的问题就变成了求一个回归函数 $r(x)$ 的近似解。并且需要证明通过使用欧氏距离的度量能够找到这个函数 $f(x, \hat{\alpha})$ 是回归的最近似解。

4. 解释间接测量结果的问题

  假设我们要估计一个函数 $f(t)$,但是对于任何的一个 $\hat{t}$,我们都无法测量到函数 $f(\hat{t})$ 的值。
  
  与此同时,我们知道一个函数:

  通过某种依赖关系函数 $F(x)$ 与函数 $f(t)$ 相关联,同时 $F(x)$ 是可以被测量的。其观测值为带有误差 $\xi$ 的结果:

  在集合 $\{ f(t, \alpha) \}$ 上根据这些观测值求出函数 $f(t)$。这类问题被称为间接测量结果的问题
  
  这个问题可以形式化的表示为:在未知函数 $F(x)$ 但给定测量值 $y_1, \ldots, y_l$ 的条件下,假定有一个连续函数 $A$,它以一对一的方式将度量空间 $E_1$ 中的元素 $f(t, \alpha)$ 映射到度量空间 $E_2$ 中的元素 $F(x, \alpha)$,问题是从函数集 $\{f(x, \alpha), \alpha \in \Lambda\}$ 中求出函数 $A$ 的解。
  
  我们假设,$F(x)$ 的测量值中不包含系统误差,即:

  并且随机变量 $y_{x_i}$ 和 $y_{x_j} \space (i \not = j)$ 相互独立。我们还假设函数定义在区间 $[a,b]$ 上。函数 $F(x)$ 在该区间上测量的点是根据均匀分布律独立随机的散布在该区间上的。
  
  解释间接实验结果的问题也可以归结为基于经验数据最小化期望风险的问题。考虑泛函:

  实际上可以使用与回归分析问题中类似的解法对泛函进行分解。

5. 密度估计问题(Fisher-Wald 表达)【挖个坑】

  设 $\{p(x, \alpha), \alpha \in \Lambda \}$ 为概率密度集,它包含所要求的密度:

  泛函:   

  损失函数: