第九章 图像分类技术

第一节 图像分类的基本概念

  已经介绍过的图像编码、增强和恢复技术,都是对输入图像的某种有效的改善,其输出仍然是一幅完整的图像。随着数字图像处理技术的发展和实际应用的需求,出现了另一类问题,就是不要求其结果输出是一幅完整图像的本身,而是将经过上述预外理后的图像,再经分割和描述提取有效的特征,进而加以判决分类。例如要从遥感图像中分割出各种农作物、森林资源等,进一步判断其产量或蕴藏量,由气象去图结合其它气象观察数据进行自动天气预报;用人工地震波形图寻找有油的岩层结构根据医学 光图像判断分析各种病变;邮政系统中的信函自动分拣等等。因此,可以认为图像分类也就是图角象识别,属于模式识别范畴。模式识别方法和应用十分广泛,也相当复杂,正在发展之中。从数学理论上讲,模式识别现已初步形成三大类:统计模式识别、结构模式识别(也有称为语言模式识别、文法模式识别、句法模式识别等)、模糊集识别。本章主要介绍遥感图像的统计分类方法原理和一些实用例子,其基本理论和方法是移植于统计模式识别,故开始先扼要介绍一下有关的统计模式识别的概念。

  统计模式识别过程由图 9-1-1示意。输入模式按规定的项目选择抽取特征,然后在特征空间按一定的统计准则判决它属于哪一类。

  统计模式识别的数学基础是概率统计理论,以其决策论为基础,建立统计模型。现将它的基本原理简述如下:

图 9-1-1 统计模式识别过程

  设以一个样本矢量 表示一个模式(如图像中目标物)。矢量 中的各项 为要提取的目标特征参数,其矢量形式为

   (9.1.1)

  假定要分的类别是 个,即 。那么就要确定 个判决函数(也称判虽函数) 。它表示矢量 与第 类的代表矢量 之间的一种函数关系。即,

  若下式 , (9.1.2)

  成立,则判断样本 类。这就是判决准则。由此可见,统计模式识别有以下几个问题要讨论。

  第一、特征的选择抽取,为了提高分类处理的速度和精度,所选择的特征应该是最有代表性,信息冗余度最小。而且希望在各种干扰和变化下最能保持其不变性,要测量的特征量是主观决定的,是否合理有效需实际校验。这里没有什么理论上的法则或定理可以遵循,主要靠经验或反复试验。往往也用一些间接准则,作为特征选择的指导,如距离测度,近邻法则和聚合分类等。当然特征的有效性和代价也是要注意的。特征选择直接影响识别的精度和速度,乃分类技术成败之关键。这个问题结合以后分类方法再加以介绍。

  第二、判决分类,对选定的特征进行判决分类,一般称完成这项功能的设备为分类器。分类器的设计关键是判决函数的确定。所谓判决函数可以理解为类别之间边界的一种描述形式。判决函数有线性和非线性之分。利用线性判决函数设计的分类器称为线性分类器,而非线性分类器的设计依据则是非线性判决函数。获得一个最佳分类器的设计可以采用最小错误码概率的贝叶斯(Bayes)判决、最小风险的贝叶斯判决以及奈曼一皮尔逊(Neyman-Pearson)判决等方式。这三种判决原理在9-2工中介绍。

  第三、 参数估计和学习,所谓学习即训练,就是通过对图像样本作一定监测,使它与输入图像进行比较,达到对输入图像进行分类的目的。根据图像样本的正确分类是否已知,学习有两种方式,一种是监督学习(有师的学习),另一种是无监督学习(无师的学习)。也可以是两者某种程度上的结合。为了学习,必须先作参数估计。所谓参数估计,就是用估计类的条件概率密度 的几个参数(如均值 和协方差矩阵 的多维正态密度)来代替 的估计。关于参数估计和学习问题将在9-3节中介绍。

  下面以遥感图像的统计分类为例,通俗介绍一下分类的具体过程。为此先讲一点遥感图像统计分类的基本概念。任何物体都有自己的特征光谱值,但由于种种干扰,使其在成象过程中产生误差,而形成一个概率分布的集合。这必须采用数理统计方法来研究。例如图9-1-2中A、B、C三类物质在 和两个波段上的灰度值

图 9-1-2 二维空间分布

  分别为10、20、30和8、30、10。记为 或是矢量形式表示为

  

  由于干扰有存在,同一物体,在 构成的空间内,不是一点而是各自离散的一群,构成为随机变量。假若能找出划分这三个区域的分界面,则任何未知的点(物质),落在那个区域即可认为它是属于该区域所对应的物质类,从而完成分类工作。

  可以推想,选择三个波段即可构成三维空间,四个或更多波段将构成多维空间。上例是选择物质在不同波段的亮度值作为特征值当然也可以选择其它特征。再

  就是分界面的划分,理论上讲就是决策准则的制定。从数学概念上讲就是判决函数的确定。因此,特征选择和判决函数的确定是分在技术的两个关键技术。下面我们以卫星遥感图像分类为例,进一步明确特征选择和判决函数确定的基本概念和方法。

  在卫星图片分类技术中,一般应用图像象素在各个波段的亮度值或它们之比值来描述。如四个波段 的亮度值和它们之间的比值 等等。如海水的亮度值在四个波段为19,12,8,0,则海水波谱向量 表示为

  

  再如1977年7月23日ERTS-2(由美国1975年1月22日发射的地球资源卫星2号Earth Resource Technology Satellite-2)对中国唐山马兰谷的记录是

  

  由于卫星环境变化,在象系统的不稳定等因素使得随机变化,从而形成一个随机变量.那么由此按上式组成的不再是一个向量,而一个随机矢量。故图中某一个象点(样本)就必须用 维随机矢量 来描述。即

   (9.1.3)

  式中 为随机矢量 的分量。一般 越大,描述越准但分类运算就越复杂。在保证有足够信息量来满足分类精度的前提下,应尽可能减少分量个数。而且在一定条件下,并不需要过多的维数。如图 9-1-3中直线 上两点 。描述这两点的位置需要三个参数 ,但要分开它们只要一个参数 就可以了。因为它们的 坐标相同,都是 对分开它们不起作用,故可以去掉它们,使其描述参数由三个变为一个。这种将原始测量的维数较多的随机矢量变换到有效的维数更少的过程就是图像特征选择的数学概念。

图 9-1-3 三维空间中与某一个轴平行直线上点使用一个参数人类的示例

  特征选择原则上有下列几点应该注意:

  (1)以特征参数表征的各个样本分布的可分离性原则上应与原始测量的各个样本分布的可分离性是一致的。

  (2) 要选择对于表示类别的可分离性而言最有效的特征。

  (3)可以通过不同的数学变换(付立叶变换,沃尔什一哈达玛变换等)来减少维数,但应在不严重影响其可公离性的条件下进行。

  (4) 在实际特征选择过程中,因其可分离性不仅与样本分布有关,而且与分类的决策准则有关往往由经验和应用要求来确定一个与决策准则相应的特征选择方式。如 对岩性地层划分有利, 对构造的解释有利。而 对区分水和植被有效(在 图像中水的灰度高,植被灰度低, 波段与 波段相反)。

  下面以美国LACIE计划中采用的“缓帽”变换为例说明如何进行特征选择。

  例9-1 利用卫片确定小麦面积产量,一般用 四个波段图像数据,而每一个波段要提取播种,发芽,拔浆和成熟四个时期的数据,这样就要研究 维矢量空间,因此是很麻烦的。根据长期工作经验,它们应作下列矩阵变换,将16维空间转换为四维空间。

  

  式中B表示亮度,G表示绿度,Y表示黄度,N表示无信息。 波段图像数据。根据经验,有关农林方面的信息主要集中在B-G形成的二维空间内。因此只研究二维空间就可以了。

  关于决策准则的制定,实际上就是判断函数的确定。决策准则一般用判决函数表征,判决函数就是以特征参数为变量的函数,故用 表示,它可以是线性的,也可以是非线性的。n维线性判决函数可用下式表示:

   (9.1.4)

  或用矩阵形式表示为

   (9.1.5)

  简化为

   (9.1.6)

  式中 为特征参数。

   为待定常数。

  例9-2 已知判决函数为

  

  判别规则为:若 ,判 属于 类;

  若 ,判 属于 类。

  求 三点和属哪一类?

  解 对 点, , 则判 属于 类。

  对 点, ,则判 属于 类。

  对 点, ,不能判决或称为中性。

  当然上述分类过程是最简单的,也是最基本的。以图 9-1-4示意图像分类框图。

图 9-1-4 图像分类框图

  这里要说明的是,实际卫星遥感图像分类过程是比较复杂的,对卫片首先要数字化(包括编码),校正去干扰,增强和恢复等象质改善的预处理,然后再分割出图像的原始特征,作为分类中特征选择的输入信息。这些读者应用前面已学过的知识,结合要解决的实际问题是可以解决的,故这里就不再介绍了。