第五节 遥感图像的几种非监督分类方法

  遥感图像的几种监督分类主要是在没有训练区划的帮助下进行。它事先不知道类别特征,而是要在分类过程中对样本进行统计估测,找出其分布特征,将特征相似都合并为同类,特征不相似者分开。因为在遥感卫片中,同类物体在相同的条件下,具有相似的光谱特征,将集群在特征矢量空间的一定位置上,不同的物体当然集群在不同位置上。这样按输入样本在空间分布的相似性把它们加以合并和分割,达到分类的目的。但是各类的具体含义是什么,也就是哪一类是在代表什么,分类器是不能给出,而要操作者实地考察和经验来确定。

  常见的非监督分类有以下几种:非监督分类图形识别;等混合距离法;集群分析;回归分析;主要成份分析和趋势分析等。下面选几种略加介绍。

  一、非监督分类的图形识别

  非监督分类图形识别也可分为无窗口和有窗口两种。其基本方法原理和监督分类的图形识别相似,即特征曲线相同者认为是同类,但此类代表什么,分类器无法指出来。有窗口的方法还有个窗口尺寸和精度对应关系需要注意,一般取10%窗口为宜。这种分类方法简单易行,应用计算机运算速度快,需要内存少以卫片分类为例,其基本流程如下:

  (1)以卫片第一个象点的特征参数(如各波段灰度值)为标准,对全图进行搜索,特征参数相似者视为同一类,给予相同的标志符号如

  (2)再以下一个与第一个象点特征参数不同的象点特征参数不同的象点为标准,搜索全图,特征参数相同者视为另一类,并赋于另一个标志符号如 。如此重复顺序进行,直到全图标志完毕为止。即全图分类完毕。可以用不同的字符打印输出或不同的颜色进行屏幕显示其结果。实际应用的如气象卫星云图的分类,应用紫金-II8位机即可实时实现对GMS同步气象卫星和NOAA极轨卫星的低分辨率云图的分类工作并以彩色屏幕显示。

  这种方法的缺点是精度差,不严格,尤其是在物体特征参数(如波谱响应)交差[即窗口交迭见图9-5-1]的情况下,往往是“先入为主”而造成错误。如有两面类 ,其波段灰度值和窗口见表9-5-1。



表 9-5-1

  如果有一个象点 ,其各波段灰度值 分别为29、37、53、18,显然若 点前面最先有类象点,那么 将被划归 类。若 点前先有 类象点,则 就被划归 类,这就会造成错误。在实际工作中可以想些办法解决,如将此类两类皆可划分的象点与其邻近象点比较,再作最后修正分类等办法。

图 9-5-1 窗口交迭

  二、等混合距离分类法

  等混合距离分类法基本概念是:先确定各类特征分组中心,然后待分类象点到各类特征分组中心的距离,在给定的某种阈值条件下,以到某类分组中心的混合距离最小即认为待分象点属此类。对卫片来讲,这里的“距离”就是“灰度值差”。“混合距离”是各个波段灰度值差绝对值之和。

  如两个象点 ,以 表示第 波段的灰度值,那么它们之间的混合距离 为:

   (9.5.1)

  如果 为某类的分组中心,那么式(9.5.1)就是 象点到该类中心的混合距离。可以作为分类阈值的有标准偏差 ,相似距离 ,每一类的最少象素数,分类中心数等等。以标准偏差 为阈值的方法在下例中说明。

  例如对有四个波段卫片的分类见表9-5-1。



表 9-5-2

  用标准偏差 为阈值的等混合距离分类的步骤如下:

  1.建立分组中心

  设 为分组中心, 为分组中心总数目, 为各分组中心编号, , 为均值, 为标准偏差。那么 可由下式求得:

   (9.5.2)

  对 ,即可分为两组情况下有

   (9.5.3)

   (9.5.4)

  上述公式表明两个分组中心到总的均值之间距离是相等的。在实际分类过程中,均值 表示,标准偏差 来表示,而 由下式运算获得:

   (9.5.5)

   (9.5.6)

  式中 为输入象点标号,在此例中,

   为分标号,在此例中,

  对表9-5-10中 波段十个输入象点, 计算如下:

  

  对于其它波段 使用同样方法计算结果见表9-5-10。

  2.求各输入象点到分组中心混合距离

  根据式(9.5.1),第1号象点到第一个和第二个分组中心 的混合距离为:

  

  

  按照同样方法计算其它9个象点到两个分组中心的混合距离 见表9-5-10。由此表中 数值按“到那个分组中心混合距离最小,即判为哪一类”的判别准则,对十个象点判决分类如下:

  对1,2,3,4,5号象点, 因此合并为 类;

  对6,7,8,9,10号象点, 因此合并为 类。

  3.对新形式的类别,再各自求其均值 和标准差 ,并比较四个波段的标准差 是否大于给定的标准差阈值 。如果某类有一个波段的标准差大于给点的标准差阈值 ,则需继续分类下去,也就是重复第1和第2步,直到此类所有波段的标准差小于 才停止分类。

  现在让我们结合此例,进一步分析一下等混合距离的分类的过程。

  1.建立新的分组中心

  对 类分别见表9-5-3(a)和表9-5-3(b)。若设标准差阈值 ,从9-5-3(a)和表9-5-3(b)可以看出,所有的标准差 均小于 因此就不再分类下去。那么获得结果就是1,2,3,4,5号5个象点是一类,而6,7,8,9,10号5个象点为另一类。

 

 表 9-5-3(a)

表 9-5-3(b)

  如果给点的标准阈值 ,那么从表9-5-3(a)和表9-5-3(b)可以看出。在 类中的 类中的 波段标准差 ,因此需要继续分类下去。这里要注意的是,在继续分类求新的分组中心过程中,只需对各类中标准差 大于 的那些波段(此例中 类的 类的 )重新计算,而其它波段的分组中心就近似地取用 。即对第(1)类( 类)

  

  对第(2)类( 类)

  

  2.对第(1)、(2)类中各个象点分别计算到新的分组中心混合距离,结果见表9-5-3(a)和表9-5-3(b)中的 数值,按前面介绍的最小距离判别准则,可以将第(1)类和第(2)类再各分为二类,分别用 表示,

  即第(1)类( 类)中

  对1、5号象点, ,合并为 类;

  对2、3、4号象点, ,合并为 类。

  第(2)类( 类)中

  对6、7号象点, ,合并为 类;

  对8、9、10号象点, ,合并为 类。

  3.求出 各类的均值和标准差如表9-5-4(a)、(b)、(c)、(d)所列的值。可见所有标准差都小于阈值 故停止分类下去。表中, 为波段标号, 为象点标号。



表 9-5-4(a)

表9-5-4(b)

表 9-5-4(c)

表 9-5-4(d)

  (四)等混合距离分类法中的阈值设置

  在刚刚讨论的例题中,应用标准差阈值 进行分类。可以看出

   的大小对分类精度和速度影响很大。 太大,分类精度差,但速度快; 太小,分类精度高,但速度慢了。在实际应用过程中,合理选择 十分重要。常用的还有一些其它阈值设置方法。简略介绍如下:

  1.相似距离阈值法

  设 分别为两个组的第 波段灰度平均值;

   分别为两个组的第 波段灰度标准差。

  则两组间相似距离 定义为:

   (9.5.7)

  可见,相似距离的含义是:两类(组)物质间距离越大(即均值差越大),类(组)内距离(即每个象点到本组中心的距离)越小,也就是标准差越小,那么其相似距离 越大。对上例进行运算如下:

  根据表9-5-3(a)和9-5-3(b), 之间的相似距离为

  

  代入(9.5.7)式得

  

  相似距离大小标志着两类物质的差异程度或相似程度。两类物体相似程度越小,即差异程度越大,其相似距离也越大。因此对相似距离设置一个阈值 ,只要对分类结果计算其相似距离 ;若 ,表明第 类物质和第 类物质之间的差异程度较大,将它们分属不同类别是合理的,或者讲是满足分类精度要求的。否则,即 时,表明第 类物质是很相似的,不应分开,需要合并为一类。例如有三类物质分类,计算分类结果,它们之间的相似距离 。若设置 ,因为 ,因此分类是正确的。若设置 ,则因为 ,所以表明第2、3类物质很相似,需合并为一类。可见相似距离阈值 决定着分类的精度,以及分类的类别数多少,其作用和混哈距离阈值 一样。

  2.类别中最少象点数阈值法

  这个方法很简单,就是在实际分类中,根据图像内容和自己经验,规定一个每类中的最少象点个数 ,如果分类结果,各类象点个数都多于这个数值 ,那么即可终止分类。承认已分类所获得的结果。否则,以某种规则予以合并,如计算相似距离等。

  3.分组中心阈值法

  这个方法也很简单,例如事先确定只取8个分组中心,那么,计算机在程序执行到第8组时,自动停止分类下去。取用此时结果作为最后的分类结果。

  等混合距离法分类,对陆地卫星遥感图像的分类效果很好,特别在地球物理和地质资料分析中很受欢迎。

  三、集群分析

  所谓“集群”,是指将输入模式(象点或象点组)按它们之间的相似程序聚合成“堆”或“群”的过程。一般总是先将最相似模式聚合,从而构成新的“群的集合”,再对这个“群的集合”运用相似程度去聚合,这样顺序重复进行下去,直到获得满意的分类效果为止,这个过程称之为“群集分析”。因此,首先需要讨论一下相似性的描述(量度)方法。相似性(或不相似性)的量度方法很多,采用不同数学手段定义不同的相似性量度的广泛理论研究,将在模式识别技术中讨论。我们只针对下面将要介绍的遥感图像集群分类中要用的两种量度方法加以介绍。

  (一)相关系数数量度──相似性量度

  采用相关性来描述相似性,可反映两类特质(模式)之间共有的或共同的属性有多少,因此,可以用这两个模式分量集合的交集,也可以用这两个模式矢量间的夹角大小等方法来量度。这里我们选用相关系数矩阵(也称相似矩阵)来量度。

  设COV为 两点之间的协方差, 两点的标准差,则它们之间的相关系数由下式定义:

   (9.5.8)

  其相似矩阵形式为

   (9.5.9)

  (二)距离量度──不相似性量度

  不相似性量度反映两类物质间的差异和远离程度,即非共有的、非共同属性有多少。和相似性量度相反。通常选用“距离函数”作为不相似性的量度,它反映两类物质接近或远离程度。距离函数值即距离大小和不相似性大小对应。距离为零,表示两类物质完全相似。距离大,不相似性大,表明两类物质很不相似。

  下面介绍几种距离函数的定义方法:

  (1)相似距离

   (9.5.10)

  式中: 为任意集群的 组和 组标号;

      为波段标号;

      分别为 组的均值;

      组和 组的之间的相似距离。

  (2)欧几里德距离

   (9.5.11)

  式中 分别表示 两组中第 波段的灰度值。

  (3)等混合距离,即式(9.5.1)定义的形式,也称为曼哈坦(Manhattan)距离。

  这里要说明的是,距离函数的定义不断有新的形式出现。而且多数是针对一些具体问题的分类设想出来的不同形式,如切比雪夫(Chebychev)距离定义为 等等。还有用空间密度函数的直方图来定义。总之,能够反应不相似程度的各种形式都可以。在图像处理软件系统中,可以事先准备好多种形式和算法“距离模块”,在实际分类运算过程中,若对某种算法分类不满意时,可以在计算主程序中换上另一个“距离模块”重新运算,而不需要更换整个程序。

  (三)采用相似矩阵量度集群分析的具体步骤:

  (1)写出相似矩阵,找出最高相关点(对于相关系数,就是相关数值最大处,对距离量度就是距离最小的地方),形成集群中心。

  (2)根据集群中心,进行合并归类,并将组合在一起的各部分作为一个单一的类别,用算法平均法再计算出一个新的相似矩阵。

  (3)重复(1)、(2)步直到最后得出结果为止。

  (4)给出分类树。

  例9-7 己知有六个象点,相关系数组成的相似矩阵,见表9-5-5,试用集群分析方法对这六个象点进行分类。

  

表 9-5-5

  解:

  ① 找出每列的最大值,即是最高相关点,用括号圈示,见表9-5-5。

  这里要注意的是,在第一列中相关系数最大值是 ,而第二列中相关系数最大值是 ,因 ,故将1,3号象点归并为一类,而不是将1,2号象点归并为一类。(1-3)类集群中心为0.8。同样,由第4、5列来看,是 为最高相关点,故4、5号象点归并为一类,而不是将5、6号象点归并为一类。(4-5)类集群中心为0.95。对于2、6号象点,只能自成一类。这样共有四类,即(1-3),(4-5)2,6。

  ②对这新构成的四类,计算它们之间的相关系数,并列出其相似矩阵,见表9-5-6。

  例如,(1-3)和(4-5)的相关系数计算如下:

  根据表9-5-13中的数据可以计算出(1-3)和(4-5)类之间的相关系数为:

  1-4的相关系数为0.10

  1-5的相关系数为0.50

  3-4的相关系数为0.60

  3-5的相关系数为0.40

  故(1-3)-(4-5)之间的相关系数为

  

  用同样的方法算出(1-3)-2,(1-3)-6,(4-5)-2,(4-5)-6的相关系数分别为0.65,0.15,0.3,0.75,并列于表9-5-6。

象点号
1-3
4-5
2
6
1-3
 
0.40
(0.65)
0.15
4-5
0.40
 
0.3
(0.75)
2
(0.65)
0.3
 
0.20
6
0.15
(0.75)
0.2
 

表 9-5-6

  ③再表9-5-6中找出最大的相关系数,即新的最高相关点,以括号圈示。可见(1-3)-2并为一类,集群中心为0.65;而(4-5)-6归并为另一类,集群中心为0.75。这样六个象点由第②步中的四类归并为两类。即(1-3)-2和(4-5)-6两类。

  ④再计算(1-3)-2和(4-5)-6两类的相关系数,列出相似矩阵。

  根据表9-5-6数据,可以计算出(1-3)-2和(4-5)-6两类之间的相关系数为:

  (1-3)-(4-5)的相关系数为0.4

  (1-3)-6的相关系数为0.15

  2-(4-5)的相关系数为0.30

  2-6的相关系数为0.20

  故(1-3)-2和(4-5)-6之间的相关系数为

  

图9-5-3 分类树

  由分类树可以清楚地看出,在 处(相关系数 ), 将4、5号象点集群为一类;在 , 将1、3号象点集群为一类;接着在 处,又分别将4、5、6号和1、2、3号各集群为一类;最后在 , 将六个象点集群在一起。这样,根据不同的相关性要求,可以将这六个象点集群为不同的类别。

  (四)利用相似距离集群分析举例

  例9-8 设己给出六个象元的相似距离所组成的相似矩阵见表9-5-7。试用集群分析方法对这六个象点进行分类。

象点号
1
2
3
4
5
6
1
 
 
 
 
 
 
2
20.25
 
 
 
 
 
3
31.39
(4.43)
 
 
 
 
4
(10.50)
10.41
18.39
 
 
 
5
24.59
4.69
(6.56)
13.35
 
 
6
21.15
11.95
17.9
(11.95)
(9.98)
 

表 9-5-7

  (因相似矩阵是对称的,故只写一半即可)

  解:

  ①在表9-5-7中,每列选出相似距离最小值,即为最高相关点处,以括号圈示。

  由表9-5-7可见,2、3号象点在 处集群为一类,而以5、6号在 处集群为一类合适,而不是将4、6号集群为一类。因为 。1,4号自成一类。这样六个象点先分为四类,即(2-3),(5-6),1,4四类。

  ②对这四类,计算新的相似距离矩阵见表9-5-8。

  具体过程如下:

  

象点号
2-3
5-6
1
4
2-3
 
 
 
 
5-6
(10.28)
 
 
 
1
25.82
22.87
 
 
4
14.40
(12.65)
(10.5)
 

表 9-5-8

象点号
1-4
(2-3)-(5-6)
1-4
 
18.94
(2-3)-(5-6)
18.94
 

表 9-5-9

  ③在表9-5-8中找出最高相关点( 最小的地方)。以括号圈示。对此再集群分析得知,(2-3)-(5-6)在 处集群归并为一类,而1-4集群归并为另一类,这样共有两类即(2-3)-(5-6)和(1-4)两类。再计算其相似距离为

  

  并列成表9-5-9

  ④绘出分类树,见图9-5-4


图 9-5-4 分类数

  四、回归分析

  从数学观点看,假设有两个(或两组)变量,它们之间以某种关系联系着,如果这种关系联系是确定的,就是一个确定函数。若这种关系联系是非确定的,例如树木的高度 和直径 ,它们是有联系,但这种联系是非确定的,因为直径相同的树,其高度并不一定相同,但一般来讲,直径 越大,其高度 也就越大。变量之间这种非确定的,但在大量观察中保持着某种规律的关系,被称为统计相关,用数学描述如下:

   (9.5.12)

  式中: 是可观察的随机变量;

      是可观察的数学变量(不是随机的);

      是不可观察的随机变量;

      是待点系数。

  假设随机变量 的均值为0,方差为 ,且 无关,那么随机变量 的方差也就是 的方差 之间的这种关系就称为统计相关。而回归分析就是对这种非确定性联系情况,运用统计方法,从几个数学变量所取的值去预测与它们统计相关的另一个随机变量的值。若统计相关中的随机变量,只与一个数学变量有关,就是所谓一元回归问题,与多个数学变量有关,就是所多元回归问题。它们之间的关系可能是线性的,也可能是非线性的。对于非线性问题。往往采用某些数学变换(如取对数等)转变为线性相关来处理。线性关系的一般表达式为

   (9.5.13)

  式中: 为可观察的随机变量;

      为的数学变量;

      为不可观察的随机变量;

      为待点系数。

  假定己知随机变量和数学变量为以下形式

   以及

  现在任务就是根据这此数据,求出 的估值 ,进而建立回归方程式

   (9.5.14)

  对于一元情况,简化为

   (9.5.15)

  有了回归方程,就可将待预测地区的数学变量代入,算出待估计的随机变量。其中,确定参数的问题称为回归分析的估计问题,求出待估值的问题称为回归分析的预测问题。

  (一)一元线性回归的估计问题

  设预测变量为 ,数学变量为 ,实测样本情况见图9-5-5。

  现以直线

   (9.5.16)

  上的点作随机变量 的估计值 ,此直线称为回归直线,此方程称为回归方程。 称为残余值。残余值越小,表明所建立的回归方程越接近于实际,效果越好。正是根据这点来确定回归方程的常数 和回归系数


图 9-5-5 回归直线

  根据最小二乘法有

   ,即 (9.5.17)

   ,即 (9.5.18)

  (9.5.17)和(9.5.18)两式称为决定常数 ,系数 的正规方程。求解得到:

   (9.5.19)

   (9.5.20)

  式中: 为观测次数。

  例9-9 为了确定某砂石中含有成份 和成份 的关系,观测验4块样品,得到的化验数据列成表9-5-10,求其回归方程。

样品标号
成份
成份
样品标号
成份
成份
1
0.009
4.00
8
0.014
1.70
2
0.013
3.44
9
0.016
2.92
3
0.006
3.60
10
0.014
4.80
4
0.025
1.00
11
0.016
3.28
5
0.022
2.04
12
0.012
4.16
6
0.007
4.74
13
0.020
3.35
7
0.036
0.60
14
0.018
2.20

表 9-5-10

  解:

  ①由(9.5.19)和(9.5.20)两式求

  

  ②将 代入回方程为:

  

  定义总的离差平方和

   (9.5.21)

  定义回归平方和

   (9.5.22)

   反映了 的影响, 越大, 的影响越大,回归方程就越有意义;反之回归的意义不大。

  定义残余值 为:

   (9.5.23)

   越小所建立的回归方程确定的 值就越接近于实际值

  定义偏差平方和 为:

   (9.5.24)

   表示除 外其它因素和随机因素对 的影响。可以证明

   (9.5.25)

   越大, 越小,,则 的关系越密切,回归效果越好。而回归效果的好坏也就是 符合程度如何,一般用拟优度 来检验,其定义如下:

   (9.5.26)

   越大(越接近于1),回归方程确定的 与实际样品点符合程度越好;也就是表明 关系越密切,相关性越好。反之, 越小(趋于0), 与实际样品点符合程度越差, 关系很弱,相关性差。可以证明

   (9.5.27)

  其实,这就是相关系数

   (9.5.27)

  拟合优度 用百分数表示,通常分为四个等级,即

   表示公式适合程度最差;

   表示公式适合程度较差;

   表示公式适合程度好;

   表示公式适合程度最好;

  关于多元回归问题的讨论不再进行,请参考有关资料。

  (二)回归分析的预测和分类

  在此不进行一般的数学理论分析,仅结合例题求解说明。

  例9-10 己知某地区有三个成矿区,见图9-5-6符号※处,其砂石储量己知,现在要预报该地区其它部分的矿产储量和进行分类。

  解 ①对该地区网格化,见图9-5-6



图 9-5-6 已知矿区

  ② 对三个己知成矿区进行分析,取三个数学变量 分别对应断层频数,锌矿中含铁量,蚀变区。并通过几次化验和观察,获得矿石储量 的关系如表9-5-11。

判别特性
先验特性
 
矿石储量
断层频数
锌矿含铁量
蚀变区
(百万吨)
1
75
20
0.25
2.7
2
20
8
0.78
0.3
3
3
16
0.30
1.1

表 9-5-11

  ③通过前面介绍过的数学运确定系数和常数为:

  

  由此建立回归方程为

   (百万吨)

  ④将待测地区的三个变量 代入上面的回归方程,即可预测这个区的矿石储量 。如

   (百万吨)

  ⑤根据矿石储量的类别标准,由各区计算矿石储量即可将该地区分类。