结构相似性

来自Local Chinese Wikipedia
(重定向自SSIM
跳转到导航 跳转到搜索

结构相似性指标[1](英语:structural similarity indexSSIM index)是一种用以衡量两张数字图像相似程度的指标。当两张图像其中一张为无失真图像,另一张为失真后的图像,二者的结构相似性可以看成是失真图像的图像质量衡量指标。相较于传统所使用的图像质量衡量指标,像是峰值信噪比(英语:PSNR),结构相似性在图像质量的衡量上更能符合人眼对图像质量的判断[2][3]

基本观念[编辑]

结构相似性的基本观念为自然图像是高度结构化的[1],亦即在自然图像中相邻像素之间有很强的关系性,而这样的关系性承载了场景中物体的结构信息。人类视觉系统在观看图像时已经很习惯抽取这样的结构性信息。因此,在设计图像质量衡量指标用以衡量图像失真程度时,结构性失真的衡量是很重要的一环。

定义[编辑]

给定两个信号<math>\mathbf{x}</math>和<math>\mathbf{y}</math>,两者的结构相似性定义为:

<math>\text{SSIM}(\mathbf{x},\mathbf{y})=[l(\mathbf{x},\mathbf{y})]^\alpha[c(\mathbf{x},\mathbf{y})]^\beta[s(\mathbf{x},\mathbf{y})]^\gamma</math>,

<math>l(\mathbf{x},\mathbf{y})=\frac{2\mu_x\mu_y+C_1}{\mu_x^2+\mu_y^2+C_1}</math>,<math>c(\mathbf{x},\mathbf{y})=\frac{2\sigma_x\sigma_y+C_2}{\sigma_x^2+\sigma_y^2+C_2}</math>,<math>s(\mathbf{x},\mathbf{y})=\frac{\sigma_{xy}+C_3}{\sigma_x\sigma_y+C_3}</math>。

其中,<math>l(\mathbf{x},\mathbf{y})</math>比较<math>\mathbf{x}</math>和<math>\mathbf{y}</math>的亮度,<math>c(\mathbf{x},\mathbf{y})</math>比较<math>\mathbf{x}</math>和<math>\mathbf{y}</math>的对比度,<math>s(\mathbf{x},\mathbf{y})</math>比较<math>\mathbf{x}</math>和<math>\mathbf{y}</math>的结构(structure),<math>\alpha>0</math>,<math>\beta>0</math>,<math>\gamma>0</math>,为调整<math>l(\mathbf{x},\mathbf{y})</math>、<math>c(\mathbf{x},\mathbf{y})</math>、<math>s(\mathbf{x},\mathbf{y})</math>相对重要性的参数,<math>\mu_x</math>及<math>\mu_y</math>、<math>\sigma_x</math>及<math>\sigma_y</math>分别为<math>\mathbf{x}</math>和<math>\mathbf{y}</math>的平均值标准差,<math>\sigma_{xy}</math>为<math>\mathbf{x}</math>和<math>\mathbf{y}</math>的协方差,<math>C_1</math>、<math>C_2</math>、<math>C_3</math>皆为常量,用以维持<math>l(\mathbf{x},\mathbf{y})</math>、<math>c(\mathbf{x},\mathbf{y})</math>、<math>s(\mathbf{x},\mathbf{y})</math>的稳定。

结构相似性指标的值越大,代表两个信号的相似性越高。

若使用全等的两张图片去做SSIM运算,也就是说<math>\mu_x=\mu_y</math>且<math>\sigma_x=\sigma_y</math>,如此一来

<math>\text{SSIM}(\mathbf{x},\mathbf{x})=\frac{2\mu_x^2+C_1}{\mu_x^2+\mu_x^2+C_1} \times \frac{2\sigma_x^2+C_2}{\sigma_x^2+\sigma_x^2+C_2} \times \frac{\sigma_{xx}+C_3}{\sigma_x\sigma_x+C_3}=1</math>

实际使用时,简化起见,一般会将参数设为<math>\alpha=\beta=\gamma=1</math>及<math>C_3=C_2/2</math>,得到:

<math>\text{SSIM}(\mathbf{x},\mathbf{y})=\frac{(2\mu_x\mu_y+C_1)(2\sigma_{xy}+C_2)}{(\mu_x^2+\mu_y^2+C_1)(\sigma_x^2+\sigma_y^2+C_2)}</math>。

在计算两张图像的结构相似性指标时,会开一个局部性的视窗,一般为<math>N</math>×<math>N</math>的小区块,计算出视窗内信号的结构相似性指标,每次以像素为单位移动视窗,直到整张图像每个位置的局部结构相似性指标都计算完毕。将全部的局部结构相似性指标平均起来即为两张图像的结构相似性指标。

性质[编辑]

结构相似性指标具有下列性质:

结构相似性指标是对称的,亦即
<math>\text{SSIM}(\mathbf{x},\mathbf{y})=\text{SSIM}(\mathbf{y},\mathbf{x})</math>。
  • 局限性
结构相似性指标的最大值为1,亦即
<math> \forall \mathbf{x},\mathbf{y}, \text{SSIM}(\mathbf{x},\mathbf{y}) \leq 1,</math>。
  • 单一最大值
当衡量的两个信号完全相同时,当且仅当结构相似性指标的值为1。
<math>\text{SSIM}(\mathbf{x},\mathbf{y})=1 \Leftrightarrow \mathbf{x}=\mathbf{y}</math>。

使用[编辑]

实际使用时,一般会将参数设为<math>\alpha=\beta=\gamma=1</math>及<math>C_3=C_2/2</math>,得到:

<math>\text{SSIM}(\mathbf{x},\mathbf{y})=\frac{(2\mu_x\mu_y+C_1)(2\sigma_{xy}+C_2)}{(\mu_x^2+\mu_y^2+C_1)(\sigma_x^2+\sigma_y^2+C_2)}</math>。

在计算两张图像的结构相似性指标时,会开一个局部性的视窗,一般为<math>N</math>×<math>N</math>的小区块,计算出视窗内信号的结构相似性指标,每次以像素为单位移动视窗,直到整张图像每个位置的局部结构相似性指标都计算完毕。将全部的局部结构相似性指标平均起来即为两张图像的结构相似性指标。

比较[编辑]

一般认为,结构相似度指标比均方误差(MS)更适合用来判断两张图像的相似度,原因是结构相似性指标同时考虑图片亮度、对比与结构信息,这跟人类的视觉系统的判断基准较为接近。MSE只考虑两张图片的平均亮度误差而不考虑结构化的信息,所以当图片有些微的亮度改变时,MSE改变会很剧烈,但小亮度改变并不会造成人类把两张图片判断成完全不同。

另外一种计算相似度的方法是使用正规化均方根误差(NRMSE),NRMSE是基于MSE的公式,再除上其中一张图像的亮度,这样的处理使得NRMSE对于整体亮度变化比较不敏感,并且让数值落在比较受限的范围内以便于比较,然而NRMSE没有考虑结构化信息的问题依旧存在。

下面使用了五张照片做实验,辅助说明:

  • Image A:原图
  • Image B:(Image A * 0.5) + 128
  • Image C:255 - Image A
  • Image D:Image A 叠加影子后的结果
  • Image E:对照组
Image A, B, C, D, E
Image A, B, C, D, E

对人类的视觉系统来说,Image A、B、C、D 是一群较为相似的图片,Image E 则是与其他图片毫无相关。

这里是使用Image A跟其他图片进行相似度的比较,一共使用三种方法:均方误差(MSE)、正规化方均根差(NRMSE)、结构相似度指标(SSIM)。

SSIM experiment data
SSIM experiment data

然而在上述的比较实验可以发现,只有结构相似度指标能够正确反映这个关系,结构相似性指标在Image B、C、D之中都得到了较高的相似度(其中Image C为负相关),而唯有Image E得到了接近零的相似度。这代表使用结构相似性指标能够知道Image A、B、C、D之间很相似,而Image E跟其他图片不相似。反之,MSE与NRMSE皆无法在结果上反映出Image E与其他图片的差别。

应用[编辑]

结构相似性指标因其简单而有效,近年来广泛被使用在图像与视频处理的相关应用上,例如图像压缩[4]图像水印[5]无线视频流[6]核磁共振成像[7]等等。

  • 相似性评估:

在图像压缩、图像去噪与图像还原等领域,经常使用结构相似性指标来判断方法的好坏。以图像压缩的应用为例,结构相似度用于比较原图与压缩后的图片的差异。原则上希望压缩后的图片不会跟原图差太多,同时压缩后的图片又可以节省空间。如果原图与压缩后图片之间的结构相似度是接近1的代表这是个优秀的压缩方法,反之则是不佳的压缩方法。 另外,在图像去噪的应用中,有时会采用人工合成的噪声叠加在图片上,并且设计去噪算法去除人工合成上去的噪声。在这种情况能够使用结构相似度直接判断原图跟去噪后的图片之间有多接近。结构相似度越接近1,代表去噪算法能够成功地把噪声去除并将原图还原出来。

  • 图像分类:

因为结构相似性设计上尽量贴近人类的视觉系统,所以计算结构相似性的概念还能用于识别图片中特定的图样。在这类型的应用,通常需要分类算法对特征的平移、旋转与缩放不敏感,所以会使用CW-SSIM取代原本的结构相似度来进行计算。而根据CW-SSIM的作者的描述[8]使用CW-SSIM搭配支持向量机作为分类器,此方法可以在MNIST数据集上达到95%的结果。

限制[编辑]

结构相似性指标有其限制,对于图像出现位移缩放旋转(皆属于非结构性的失真)的情况无法有效的运作。为解决此问题,另已发展出在小波域进行运算的结构相似性指标,称作复小波结构相似性指标[9]complex wavelet SSIMCW-SSIM)。

当图片出现平移、旋转或是缩放时,结构相似度指标会改变得十分剧烈,并很容易将两张类似的图片视为不相似的。原因与在计算SSIM时所使用的局部性视窗有关,平移、旋转或是缩放都会导致视窗内的像素结构完全改变,使SSIM无法正确估计相似度。

下面的实验是使用Image A 跟Image F、G、H计算相似度

  • Image F: Image A 往右平移30像素
  • Image G: Image A 逆时针旋转30度
  • Image H: Image A 长宽各缩短6.25%
Limitation
Limitation

可以看到Image A仅向右移30像素就导致了两张图片前后的SSIM为0.11,上述实验足以说明结构相似性指标的确对这些操作很敏感,要解决这类的问题可以使用复小波结构相似性。

变形[编辑]

多尺度结构相似性[编辑]

多尺度结构相似性multi-scale SSIM,MS-SSIM)尝试去解决结构相似度里面,依赖特定大小的视窗进行计算的问题,因为如果输入的图片的分辨率不同,用户往往需要更改结构相似性的参数,才能得到较合理的结果。多尺度结构相似性,则是把输入图片经过若干次的低通滤波器与两倍下采样,每次下采样之后都计算一次结构相似度。最后的结果会同时考量所有不同尺寸的图片计算出的结构相似性,由此达到指标能自适应不同分辨率的图片的目的。Multi-Scale SSIM Complex Wavelet SSIM 或是 CW-SSIM的作者[10]认为MS-SSIM能得到比SSIM相等或是更好的评量结果。

结构相异性[编辑]

结构相异性(structural dissimilarity,DSSIM)正好是结构相似性的相反。当两张图片相等时,结构相异性为0。反之当两张图片很不相似时,结构相异性可以趋近无限大。

<math display="block">\hbox{DSSIM}(x,y) = \frac{1 - \hbox{SSIM}(x, y)}{2}</math>

另一种结构相异性定义[11][查证请求]为 <math>DSSIM(x,y)=\frac{1}{1-SSIM(x,y)}</math>其中<math>SSIM(x,y)</math>为x与y的结构相似性。当DSSIM越大时,代表两张图片越接近,SSIM越接近1,DSSIM的值也越大,当SSIM=1,也就是DSSIM趋近无限时,和原始视频文档完全一致。

复小波结构相似性[编辑]

结构相似性虽然能大致符合人类的视觉系统的感受,但若图片遇到几何上的转换,例如平移、旋转与缩放时,结构相似性会无法正确描述两张图片的相似程度。因此复小波结构相似性complex wavelet SSIM,CW-SSIM)针对了这个问题进行了改良,CW-SSIM的作者[8]认为与其使用亮度(magnitude)进行比较,不如用相位来进行比较较具有代表性,因此CW-SSIM会在复小波域中计算区域性的相位,并用相位的差异来计算相似性,公式如下:

<math display="block">\text{CW-SSIM}(c_x,c_y)=\bigg(\frac{2 \sum_{i=1}^N |c_{x,i}||c_{y,i}|+K}{\sum_{i=1}^N |c_{x,i}|^2+\sum_{i=1}^N |c_{y,i}|^2+K}\bigg)\bigg(\frac{2|\sum_{i=1}^N c_{x,i}c_{y,i}^*|+K}{2\sum_{i=1}^N |c_{x,i}c_{y,i}^*|+K}\bigg)</math>

其中<math>c_x</math> 是复小波转换后的<math>x</math>信号,而<math>c_y</math>是复小波转换后的<math>y</math>信号,另外<math>K</math>是用于稳定数值的一个常量 如同结构相似性,CW-SSIM的最大值为1,但是不同于结构相似性,CW-SSIM的最小值为0。

参考资料[编辑]

  1. 1.0 1.1 Zhou Wang, Alan C. Bovik, Hamid R. Sheikh, and Eero P. Simoncelli, "Image quality assessment: from error visibility to structural similairty," IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600−612, Apr. 2004.
  2. Zhou Wang and Alan C. Bovik, "Mean squared error: Love it or leave it? - A new look at signal fidelity measures," IEEE Signal Processing Magazine, vol. 26, no. 1, pp 98−117, Jan. 2009.
  3. H.R. Sheikh, M.F. Sabir, and A.C. Bovik, "A statistical evaluation of recent full reference image quality assessment algorithms," IEEE Transactions on Image Processing, vol.15, no.11, pp.3440−3451, Nov. 2006.
  4. T. Richter, K. J. Kim, "A MS-SSIM optimal JPEG 2000 encoder," in Proc. Data Compression Conf., pp.401−410, Mar. 2009.
  5. A. M. Alattar, E. T. Lin, and M. U. Celik, "Digital watermarking of low bit-rate advanced simple profile MPEG-4 compressed video," IEEE Trans. Circuits Syst. Video Technol., vol. 13, no. 8, pp. 787−800, Aug. 2003.
  6. V. Vukadinovi and G. Karlsson, "Trade-offs in bit-rate allocation for wireless video streaming," in Proc. ACM Int. Symp. Modeling, Analysis, and Simulation of Wireless and Mobile Systems, Quebec, Canada, 2005, pp. 349−353
  7. S. A. Reinsberg, S. J. Doran, E. M. Charles-Edwards, and M. O. Leach, "A complete distortion correction for MR images: II. Rectification of static-field inhomogeneities by similarity-based profile mapping," Phys. Med. Biol., vol. 50, no. 11, pp. 2651−2661, June 2005.
  8. 8.0 8.1 Gao, Y.; Rehman, A.; Wang, Z. (September 2011). CW-SSIM based image classification (PDF). IEEE International Conference on Image Processing (ICIP11).
  9. Z. Wang and E. P. Simoncelli, "Translation insensitive image similarity in complex wavelet domain," in Proc. IEEE Int. Conf. Acoustics, Speech, Signal Processing, pp. 573−576, Mar. 2005.
  10. Wang, Z.; Simoncelli, E.P.; Bovik, A.C. (2003-11-01). Multiscale structural similarity for image quality assessment. Conference Record of the Thirty-Seventh Asilomar Conference on Signals, Systems and Computers, 2004. Vol. 2. pp. 1398–1402 Vol.2.
  11. Jian-Jiun Ding, Time frequency analysis and wavelet transform class note,the Department of Electrical Engineering, National Taiwan University (NTU), Taipei, Taiwan, 2007.

外部链接[编辑]