第二章 图像信息基本知识
第一节 图像与视觉
设计图像系统,尤其是输出供人观察的照片或屏幕显示的图像系统,就必须充分研究人的视觉系统。因为人的视觉系统才是这类图像系统的最终服务对象,而且输出的图像也最终总是由人的视觉系统来给以评价的。视觉研究可分为视觉生理、视觉特性、视觉模型等方面,也可分为视觉基础和视觉应用研究,近些年来已取得了不少成果。
1. 图像质量评价与视觉心理
对图像认识或理解是由感觉和心理状态来决定的,也就是说,这是和图像内容及观察者的心理因素有关。从图像信息传输角度出发,图像系统评价的真正尺度应该是发信者的意图为收信者所理解的程度,而不是对发信者发出的图像象素信息集合的简单接收。这也就要求人们去研究建立包括人的因素在内的信息理论。
2.画面组成和视觉心理
人的左右视角约为 180度,上下约为60度,人眼中心视力分辨率强,可以进行图像细节的认识,但只能认识图像的一小部分;而周边视力分辨率差,但可认识图像的全貌,并且可以将所视目标特征部分检出,利用检出的目标图像特征去控制眼球的运动,必要时可以再用中心视力来进一步认识这一部分的图像。而对于大画面图像,则充分利用周边视产生较强的临场感,小画面的临场感弱,为了产生充分的临场感,画面尺寸一般应有30度以上的视野。这也就是宽银幕和球幕电影视觉效果好的原因。
3.视觉的时空频率分析
视觉的空间频率特性 是影响图像锐度的主要因素 。视觉神经具有的mach效应和Roca-Sulzer 微分效应以及中枢神经的Craik-obrien积分效应等是视觉信息处理的基础。由此可以将视觉和图像结合起来研究,并应用于图像编码及象质改善技术中。
4.视觉生理和模型的研究
视觉生理主要是指从视觉信息的产生部分──视细胞(图像信息感受器)和其它神经细胞以及大脑高级中枢的神经系统的信息产生、传输和处理的机理。这就涉及神经生理学研究,它对图像工程技术是很有启发性的部分。现在已经能够对部分神经网络进行模型分析,而这方面今后研究的突破就将大大促进图像技术和人工智能的研究。
5.今后研究课题 ,应从以前的基础研究 转到和图像对应的视觉综合化、体系化的研究。
二、视觉信息的产生、传递和处理(一)视觉信息的产生
当外界景象通过眼球的光学系统在视网膜上成象后,视网膜产生相应的生理电图像并经视神经传入大脑。
我们最熟悉的多光谱成像形式就是普通的彩色视觉。人眼的视网膜由感光细胞覆盖,(下图)类似于 CCD芯片上的感受基(像素)。感光细胞吸收来自于光学图像的光线,并通过晶体透镜和角膜聚焦在视网膜上。它们生成了神经脉冲,并通过大约一百万个光学神经纤维传送到大脑。这些脉冲的频率代表了入射光线的强度。
图 2-1-1感光细胞是两种类型的混合,依其物理形状分别称为杆状细胞和锥状细胞。杆状细胞较为敏感,它为我们提供了感光能力强的单色夜视。锥状细胞提供了在较高的光学亮度下的彩色视觉。
锥状细胞有三种形式,这主要按其将光信号转化为神经脉冲的感光化学特性区分的。锥状细胞将电磁光谱的可见部分分为三个波段:红、绿和蓝。由于这个原因,这三种颜色被称为人类视觉的三基色。
感光细胞对光线作出反应,生成神经脉冲,在传输中经过一层双极性细胞和一层神经节细胞。现在流行的人工神经元网络就是以这些视网膜细胞的结构和操作为模型的。一百万左右的神经节细胞的轴突纤维形成了光神经,它们将图像数据传送到大脑。
在视觉信息的产生中,色觉信息的研究有着重要的作用,现在关于色觉的理论有两种: 一种是三色学说,另一种叫四色学说。
由于人类视觉系统的特点,人们在三色系统方面投入了大量的人力和物力来进行电子成像,特别是电视摄像机、数字化仪、显示器及打印机。这样,三色模型具有特殊的重要意义。人们不仅进行彩色图像增强,而且常对三色设备进行彩色图像定量分析。
三色成像系统的常见例子包括:彩色照相和彩色电视(第2章和第3章)。在这种情况下,可见光谱被分为三个波段──红、绿和蓝──近似于人眼的光谱量化。在彩色照像机中,每幅图像由三层不同的摄影乳剂合成。在彩色电视摄像机中,使用了三个图像传感器,并在每个前面分别放置了红、绿和蓝色的滤光片 。为了显示红 、绿和蓝色图像叠加在一起,进行彩色打印或彩色显示。这种叠加近似产生厂真实场景在视网膜上的效果,因此人眼看起来是正常的。
虽然一幅三色数字图像可以认为是三个坐标(两个空间和一个光谱)的一个标量函数,但是一般情况下,将其看作是一幅普通(二维)图像,且在每个像素有三个灰度值(红 、绿和蓝 )更为方便、在另外一些情况下,将其看作是三幅单色数字图像的叠加更为有用。如果你能够将这几种表示有一个清楚的认识,彩色图像处理和分析就变得简单。这样,前面章节中讨论的许多概念几乎不用作什么修改就可以直接应用了。
RGB格式 有几种方法可以定量地表示彩色,如彩色数字图像中像素的颜色。最直接的方法是使用红、绿、蓝的亮度值,大小限定到一定范围,如0到l。我们把这种约定称为RGB格式。每个像素 ──实际上任何可能要量化的颜色──都能用H维空间中第一象限的一个点来表示。三色图像的灰度级直方图是RGB空间的点分布。
一个能发出光波的物体称为有源物体,它的颜色由该物体发出的光波决定,并且使用 RGB相加混色模型。电视机和计算机显示器使用的阴极射线管(cathode ray tube,CRT)就是一个有源物体。CRT使用3个电子枪分别产生红(Red)、绿(Green)和蓝(Blue)三种波长的光,并以各种不同的相对强度综合起来产生颜色,如下图所示。组合这三种光波以产生特定颜色就叫做相加混色,因为这种相加混色是利用 R,G和B颜色分量产生颜色,所以称为 RGB相加混色模型。相加混色是计算机应用中定义颜色的基本方法。
图 2-1-2 彩色显像管产生颜色的原理从理论上讲,任何一种颜色都可用三种基本颜色按不同的比例混合得到。三种颜色的光强越强,到达我们眼睛的光就越多,它们的比例不同,我们看到的颜色也就不同,没有光到达眼睛,就是一片漆黑。当三基色按不同强度相加时,总的光强增强,并可得到任何一种颜色。某一种颜色和这三种颜色之间的关系可用下面的式子来描述:
颜色=R(红色的百分比)+G(绿色的百分比)+B(蓝色的百分比)
当三基色等量相加时,得到白色;等量的红绿相加而蓝为0值时得到黄色;等量的红蓝相加而绿为0时得到品红色;等量的绿蓝相加而红为0时得到青色。这些三基色相加的结果如下图所示。
图 2-1-3 相加混色一幅彩色图像可以看成由许多的点组成的,如下图所示。图像中的单个点称为像素 (pixel),每个像素都有一个值,称为像素值,它表示特定颜色的强度。一个像素值往往用 R,G,B三个分量表示。如果每个像素的每个颜色分量用二进制的1位来表示,那末每个颜色的分量只有“1”和“0”这两个值。这也就是说,每种颜色的强度是100%,或者是0%。在这种情况下,每个像素所显示的颜色是8种可能出现的颜色之一,如表2-1-1所示。
图 2-1-4 一幅图像由许多像素组成
RGB 颜色 000 黑 001 蓝 010 绿 011 青 100 红 101 品红 110 黄 111 白表 2-1-1 相加色
对于标准的电视图形阵列(Video graphics array ,VGA)适配卡的16种标准颜色,其对应的R,G,B值如表2-1-2所示。在 Microsoft公司的Windows中,用代码0~15表示。在表中,代码1~6表示的颜色比较暗,它们是用最大光强值的一半产生的颜色;9~15是用最大光强值产生的。
代码 R G B H S L 颜色 0 0 0 0 160 0 0 黑(Black) 1 0 0 128 160 240 60 蓝(Blue) 2 0 128 0 80 240 60 绿(Green) 3 0 128 128 120 240 60 青(Cyan) 4 128 0 0 0 240 60 红(Red) 5 128 0 128 200 240 60 品红(Magenta) 6 128 128 0 40 240 60 褐色(Dark yellow) 7 192 192 192 160 0 180 白(Light gray) 8 128 128 128 160 0 120 深灰(Dark Gray) 9 0 0 255 160 240 120 淡蓝(Light blue) 10 0 255 0 80 240 120 淡绿(Light green) 11 0 255 255 120 240 120 淡青(Light cyan) 12 255 0 0 0 240 120 淡红(Light Red) 13 255 0 255 200 240 120 淡品红(Light Magenta) 14 255 255 0 40 240 120 黄(yellow) 15 255 255 255 160 0 240 高亮白(Bright white)
表 2-1-2 16色VGA调色板的值在表2-1-1中 ,每种基色的强度 是用8位表示的,因此,可产生
种颜色。但实际上要用一千六百多万种颜色的场合是很少的。在多媒体计算机中,除用 RGB 来表示图像之外,还用色调-饱和度-亮度(hue-saturation-lightness,HSL)颜色模型。
在 HSL 模型中,H定义颜色的波长 ,称为色调;S定义颜色的强度(intensity),表示颜色的深浅程度,称为饱和度;L定义掺入的白光量,称为亮度。用 HSL表示颜色的重要性,是因为它比较容易为画家所理解。若把S和L的值设置为1,当改变H时就是选择不同的纯颜色;减小饱和度S时,就可体现掺入白光的效果;降低亮度时,颜色就暗,相当于掺入黑色。因此在Windows中也用了HSL表示法,16色 VGA调色板的值也表示在表2-1-2中。
打印彩色图像用CMY相减混色模型
用彩色墨水或颜料进行混合,这样得到的颜色称为相减色。在理论上说,任何一种颜色都可以用三种基本颜料按一定比例混合得到。这三种颜色是青色(Cyan)、品红(Magenta)和黄色(Yellow),通常写成CMY,称为 CMY模型。用这种方法产生的颜色之所以称为相减色,乃是因为它减少了为视觉系统识别颜色所需要的反射光。
在相减混色中,当三基色等量相减时得到黑色 ;等量黄色(Y)和品红(M)相减而青色(C)为0时,得到红色(R);等量青色(C)和品红(M)相减而黄色(Y)为0时,得到蓝色(B);等量黄色(Y)和青色(C)相减而品红(M)为0时,得到绿色(G)。这些三基色相减结果如图2-1-5所示。
图 2-1-5 相减混色
彩色打印机采用的就是这种原理,印刷彩色图片也是采用这种原理。按每个像素每种颜色用1位表示,相减法产生的8种颜色如表2-1-3所示。由于彩色墨水和颜料的化学特性,用等量的三基色得到的黑色不是真正的黑色,因此在印刷术中常加一种真正的黑色(black ink),所以CMY又写成CMYK。
青色 品红 黄色 相减色 0 0 0 白 0 0 1 黄 0 1 0 品红 0 1 1 红 1 0 0 青 1 0 1 绿 1 1 0 蓝 1 1 1 黑表 2-1-3 相减色
相加色与相减色之间有一个直接关系,如表 2-1-4所示。利用它们之间的关系,可以把显示的颜色转换成输出打印的颜色。相加混色和相减混色之间成对出现互补色。例如,当RGB为1∶1∶1时,在相加混色中产生白色,而CMY为1∶1∶1时,在相减混色中产生黑色。从另一个角度也可以看它们的互补性。从表2-1-4中可以看到,在RGB中的颜色为1的地方,在CMY对应的位置上,其颜色值为0。例如RGB为0∶1∶0时,对应CMY为1∶0∶1。
相加混色 相减混色 生成的颜色 RGB CMY 000 111 黑 001 110 蓝 010 101 绿 011 100 青 100 011 红 101 010 品红 110 001 黄 111 000 白表 2-1-4 相加色与相减色的关系
注:RGB彩色空间和CMY彩色空间可以使用图2-1-6所示的立方体来表示
图 2-1-6 RGB彩色空间和CMY彩色空间的表示法(二)视觉信息传递
视觉信息传递分为眼球内和眼球外两部分。
1.视觉信息在眼球内的传递
视觉信息在视细胞内形成后传给双极细胞,继而再传给视神经细胞,在这两种细胞之间还插入有双向输出、输入的水平细胞和无足细胞,起着双向反馈调节作用。视细胞送出的是与光照有关的连续电位,双极细胞和水平细胞的输入输出也是连续电位,而视神经细胞输出却是具有“有”、“无”两种状态的脉冲电位。脉冲的幅度一定,但频率则随所受光刺激的强度变化而变化。视神经细胞以后的视觉信息都变成了电脉冲的形式。在大脑中枢神经中以积分作用再将传来的密度调制脉冲信号变成模拟信号。
2.视觉信息在眼球外的传递
视觉信息由眼球经视神经送出后,经视神经交叉处分为两路传到两个外侧膝状体,再经视觉放射到达大脑视区。大脑视区左右两个半球各自与对侧视网膜呈投射关系。许多实验表明,视网膜上各点和大脑视区各点保持着拓扑对应关系。
3.视觉信息的加工处理
人和高级动物都有高度发达而完善的检测、识别、记忆视觉信息的能力。在生物神经系统内普遍存在着侧抑制现象,即刺激某一个神经元使其兴奋,若再刺激该神经元附近的其它神经元时,可以看出后者的兴奋对前者的兴奋有抑制作用。侧抑制的强弱与神经之间距离、兴奋程度有关。由于视神经的侧抑制作用而产生的视觉马赫现象,有增强图像轮廓提高图像反差的作用。并且人可以主观地控制视觉信息传入大脑视区。在大脑视区中有简单型细胞、复杂型细胞 、低级超复杂型细胞 、高级超复杂型细胞等。其中简单型细胞作用是检测图像的明暗边界和线条的位置及方向。复杂型细胞对直线和边界的运动方向敏感,而低级超复杂型细胞作用是检测直线和边界的长度 、宽度 ,高级超复杂型细胞则可检测曲线和边缘曲度等。
当我们观察物体时,眼睛将外界物象编码成神经活动信息送入大脑,这些神经活动借助于神经密码和大脑活动模式,代表着外界条件,而绝没有在脑中形成什么内部图像。
三、视觉特性
(一)视觉运动特性
1.眼球运动及控制
由中央凹中视锥细胞构成的分辨率高的集中视力一般只有2到3度,而视网膜周围由视杆细胞构成的周边视力分辨率低,不能看清图像细节,但周边视力对图像中运动变化部分很灵敏,有特征抽取作用从而控制眼肌转动视轴,使集中视力对准这些部位,以便看清其细节。但光靠这种转动是无法形成整个画面的印象,必须依靠周边视力。例如一个很大的物体,放在离眼睛很近的地方,尽管我们转动,仍不能看清物体的全貌。
眼球运动有两种方式:一种是按正弦形式进行的平稳追踪运动,另一种是以跳跃形式进行的单挛运动。
另外眼球还有一种无意识的象噪声似的微小运动,称为非随意运动,包括颤动、单挛运动、漂移运动。如果没有这些微小运动,人眼就无法看见静止的图像。
2.注视点的分布
人在观察景象时注视点喜欢集中在什么地方呢?经过实验表明:
(1)注视点主要集中在图像黑白交界的部分,尤其集中在拐角处。
(2)在闭合的图形进行实验,注视点容易往图形内侧移动。
(3)注视点容易集中在时隐时现、运动变化的部分。
(4)图像中若存在一些特别的不规则处,则也是注视点容易集中的地方。
3.眼球运动与外界不动性
当我们在看一幅静止图像时,眼球其实始终在不停地运动,也就是说视网膜和图像之间一直存在着相对运动,但是我们还是会感觉到图像是不动的,这是为什么呢?一般认为,在视觉中枢,由眼球运动控制中枢离心性送来与眼球有关的信息,它对从视网膜送到视觉中枢向心性的视觉信号伴随眼球运动而产生的变化,起预测、修正和抵消的作用。起这一作用的离心性信息叫作推理放电。此外这一现象和心理学有很大的关系。
4.运动视觉的其它特性
在视野范围内物体运动,就会有速度感觉,但相同运动速度的物体,给人的速度感觉大小与物体的大小形状有关。大的物体看上去慢,小的物体看上去快,与运动方向水平的棒状物体看上去快,而与之垂直的看上去慢。还有一种运动假象,即当实际静止的几个物体若隐若现时,看上去好象物体在运动。有A、B两个光源相距为d,最初A消失,经过t时后B消失,当时间较大时,看上去 A先消失,而B后消失;若t很小,看上去A、B同时消失,都没有运动的感觉。但当t和d合适时看上去就会感觉到A向B运动,这种运动就叫做假运动。
(二)视觉的空间频率特性
我们平时都会感觉到:当快速运动物体从眼前通过时,是很难看清其细节而只有个粗略的轮廓。只有当物体细节大小、明暗对比以及在眼中呈现时间长短都比较合适时,才能对物体细节有个清楚的认识。这样一种视觉特性可以用视觉的空间频率或视觉时间频率来定量描述。视觉系统的空间和时间频率特性是互相依赖的。对亮度在空间做正弦变化的真正弦光栅,求出人眼对各种节距正弦显示的图案的认识程度,就可以得到视觉空间频率特性。
1.亮度适应和区分
人眼的亮度适应范围量级
同时亮度适应区间不大, 一般 < 64级
例: imagesc(1:10);
colormap(gray);
imagesc(1:128);
图 2-1-7感觉亮度 光的强度
例:马赫带效应
imagesc(1:8);colormap(gray)
图 2-1-8同时对比度──亮背景下显得暗、暗背景下显得亮
例:
colormap(gray);
dark = zeros(256, 256);
dark(64:192, 64:192) = 0.5;
subplot(1,2,1); imshow(dark)
bright = ones(256, 256);
bright(64:192, 64:192) = 0.5;
subplot(1,2,2); imshow(bright)
图 2-1-9(三)视觉时间频率特性
若在视野内将亮度作正弦变化,可以的出与空间频率特性相似的视觉频率特性,也是带通特性。
四、视觉模型
将视觉系统的功能抽象化为简单的模型,并且以此模型为基础来对视觉系统的功能进行研究,或工程上加以模仿,这正是我们为什么要建立视觉模型的原因。
建立模型时,首先要提出假说,然后根据假说建立模型,再根据试验修改模型,反复进行从而使模型完善,假说合理。在建立模型时不一定要把视觉系统全部性质机能都模仿出来,可以针对模型的应用的目的只对要研究的某种或某些特定的机能进行抽象而构建模型。从视觉生理知识来看可以建立数学模型、电子线路模型以及化学模型等视觉模型。其中电子线路模型是我们的研究对象,它可以把视觉系统的一些优越性引入图像通信和信息处理系统加以研究和应用。
下面简单介绍一下神经元模型、黑白视觉模型以及彩色视觉模型。由于视觉生理和特性的复杂性,这些模型都存在着一定的缺陷,有待继续研究完善。
1.神经元模型
从信息处理观点出发,在神经元所具有的各种机能中最重要的是,在突触处许多输入在空间和时间上进行加权的性质,以及细胞的阀值作用。有两种神经元模型:一种是针对研究空间加权特性的不计时间特性的神经元模型;另一种是考虑到时间特性的空间加权特性的模型。
2.黑白视觉模型(对数/线性系统的视觉模型)
3.彩色视觉模型