第三节 参数估计和学习

  一、参数估计

  从上一小节分析中可以看出,最佳分类器的设计需要知道一些概率和概率密度。但在实际图像分类过程中,这些概率结构往往不能完全知道,仅仅有些模糊的认识,只好根据经验和常识来估计概率和概率密度。以此作为实际的概率和概率密度来设计分类器。但条件概率密度的估计常常是很困难的,甚至无法估计。必须找到其它办法。经过实践,发现条件概率密度一般都具有某种参数形式,以这些参数形式来代表条件概率密度往往是可行的。例如,服从正态分布特征参数可以由 的均值 和协方差矩阵 的多维正态密度作为代表。那么估计 问题就变成了估计参数 的问题了。这就是参数估计。

  参数估计是统计学中的内容,解决的方法很多,主要有最大似然估计和贝叶斯估计。今后我们只引用其结果,而不作详细介绍,如果缺乏这方面的知识,请读者复习或学习一下统计学中的有关知识。

  二、学习

  以估计为例,贝叶斯参数估计是把参数当作具有某种先验分布的随机变是量,样品(子样)观测使先验分布转化为后验分布密度,再根据后验密度来修正原先对真参数值的估计。在此过程中,所取的子样越多,后验密度函数的峰在真参数附近就越显著,这种根据子样的观测来确定后验密度函数的过程就称其为学习。对于贝叶斯估计的学习就称为贝叶斯学习。参数估计的方法很多,因此,学习也有很多种。一般可以分为两大类:监督学习(即有师的学习)和非监督学习(无师的学习)。这是因为任何一个子样,总可以把它理解为,先按概率 选择一个类别 ,然后按概率密度 从母体中独立地抽取。如果知道了每个子样所在类别,那么就是监督学习,否则为无监督学习。显然后者难于前者。

  三、监督学习

  监督学习由训练样本知知构成分类器,也就是已知样本建立集群,然后划定集群之间的界线(面)。根据输入未知样本处于界面的哪一边而判决它属于哪一类。判决函数不是这些界面的数学方程。很多情况下,这种方程形式是给定的,仅仅是方程中的一些系统或常数需要由训练样本来确定。这种学习方法称为参数法。若连判决函数的形式也不能给定,那么就要采用非参数学习。如集群分析是用训练样本的统计平均值和协方差矩阵来实现。监督学习有最大似然估计,正态密度均值学习和贝叶斯学习等几种。下面以最大似然估计为例,概略介绍一下学习的方法原理。

  对于监督学习,每个训练样本的类别是已知的,假设有 个类别,那么可以将训练样本分为 组,即 。它们分别属于 类。其中 属于 类。并且它们都是按概率密度 从字体中独立地抽取的。对于参数法 ,可以由其参数问题 来代表。也就是说,只要确定了 ,也就完全确定了

  若满足下列对应关系:

   (9.3.1)

  则 的分量就包括 的所有分量。

  为了表示 有关,把 改记为 。现在问题就是要用己知的训练样本所提供的信息(知识),来估计参数向量

  假定 中样本不包含关于 的信息。表示不同类的参数与函数形式无关,那么就可以不考虑类别标志,而分别对每个类别进行处理。因而就有 个分开的问题,用独立的按概率密度 抽取样本群 来估计未知参数向量

  设 包含 个样本: 因为巳假设枰本是独立抽取的,所以

   (9.3.2)

  若把该函数视为 的函数,则称其为关于样本群 之似然。使 达到极大值的 便是 的最大似然估计。 理解为同实际观测样本最为一致的参数向量。见图9-3-1。


图 9-3-1 参数向量 的最大似然估计

  四、无监督学习

  无监督学习是比较复杂的,但还是很有研究的价值,其原因是:第一,对于大批训练样本的学习分类,要花更多时间和代价,有是还会做不到,假如能根据一个小的已知类别的样本群,先粗糙地设计一个分类器,使其在无监督情况下,对一部分未知样本分类,并且逐步修正改进这个分类器,那么就可节省很多时间和代价也能保证一定的精度。第二,在某种情况下,图像特征变化缓慢,如农作物生长过程中,其颜色特征(光谱特征)在缓慢变化。若这样缓慢变化能被无监督方式工作的分类器的所跟踪,那么这个分类器就可以逐步完善。第三,利用无监督分类器可以发现新的类别,如遥感图像中发现新的目标物体。关于无监督的学习方法,目前还正在研究之中,往往是具体分类问题具体对待,还讲不出什么规律性东西来。