太赫兹科学与电子信息学报  2020, Vol. 18 Issue (6): 1080-1087     DOI: 10.11805/TKYDA2019195
基于特征距离与极谐变换的图像检索算法    [PDF全文]
李俊梅, 万勇, 李祥琴     
荆楚理工学院 计算机工程学院,湖北 荆门 448000
摘要: 为提高图像在数据集中的检索准确度,设计了基于加权距离与多元极谐变换的图像检索算法。在查询图像的色调-饱和度-亮度(HSV)空间内,提取其颜色特征;并引入贝塞尔K分布与非下采样Shearlet变换(NSST)方法得到查询图像的纹理特征,改善其对模糊与亮度变换等操作的稳健性;借助四元极谐变换(QPHT)机制,将图像的QPHT模系数视为形状特征,提高对噪声与几何变换的鲁棒性。通过融合这3种特征,分别计算查询图像与数据库图像之间对应的特征距离,并赋予三者对应的权重,以测量两幅图像之间的相似度,从而准确输出检索结果。测试数据显示,与当前基于内容的图像检索技术相比,所提算法具备更高的检索准确度和鲁棒性,在多种几何变换攻击下,仍可以准确检索出目标。
关键词: 图像检索    非下采样Shearlet变换    HSV空间    颜色特征    纹理特征    四元极谐变换    形状特征    加权距离    
Image retrieval based on weighted feature distance and multivariate polar harmonic transform
LI Junmei, WAN Yong, LI Xiangqin     
College of Computer Engineering, Jingchu University of Technology, Jingmen Hubei 448000, China
Abstract: In order to improve the retrieval accuracy of images in datasets, an image retrieval algorithm based on weighted distance and multivariate polar harmonic transformation is designed by making full use of the texture and shape features of the query object. The color features are extracted in the Hue-Saturation–Value(HSV) space of the query image. Bessel K-distribution and Non-down Sampled Shearlet Transform(NSST) are introduced to obtain the texture features of the query image for improving its robustness to blur and brightness transformation. With the help of the Quaternion Polar Harmonic Transform(QPHT) mechanism, the QPHT modulus of an image is regarded as a shape feature to improve the robustness to noise and geometric transformation. By fusing the three features, the corresponding feature distance between the query image and the database image is calculated, and the corresponding weight of them is given to measure the similarity so as to output the retrieval results accurately. The test data show that this algorithm has higher retrieval accuracy and robustness, which can still accurately retrieve the target under various geometric transformation attacks compared with the current content-based image retrieval technology.
Keywords: image retrieval    Non-down Sampling Shearlet Transform    HSV space    color feature    texture feature    Quaternion Polar Harmonic Transform    shape feature    weighted distance    

随着信息技术和互联网技术的进步,信息多样化程度也日益提高,特别以图像为典型,其容量巨大,使数字图像数据库有了爆炸性的增长[1-2]。这就需要一些有效和高效的方法,允许用户在庞大的图像集中快速搜索目标。为实现此目的,国内外学者提出了相应的图像检索技术,通过用户设定好的目标图像特征,在数据库中挖掘出与搜索目标接近的图像,在图书馆、商标等领域得到了广泛应用[3]

目前较为主流的检索技术,主要依据查询图像的颜色、纹理和形状3种特征,如胡明娣等[4]利用Gamma隶属度与颜色特征,设计了新的检索方法。但该检索技术单纯利用颜色特征来检索目标,忽略了查询图像的纹理和形状特征,易导致其较高的误检率,尤其在各种几何变换条件下,存在较高的误检索现象。Muhammad等[5]提出了融合颜色特征与纹理特征的图像检索方案,通过组合颜色与纹理特征,形成特征矢量,借助欧式距离,计算查询图像与数据库图像之间的相似度,完成检索任务。相对于文献[4],文献[5]融合了2个重要特征,具有更好的描述能力,但其局部二值模式对JPEG压缩等操作的稳健性较弱,限制了算法的精确度。文献[6]通过研究发现,采用查询图像中的1种或2种特征均难以充分描述图像的特征,检索精确度不理想,而联合颜色、纹理与形状等3种特征可以充分描述查询图像,能显著提高检索精确度。Amandeep等[7]利用颜色、纹理和形状特征,设计了新的图像检索方法,通过计算3种特征的距离来判别查询图像与数据库图像之间的相似度,从而输出检索结果。该技术融合了3种重要特征,但其对噪声、模糊等变换缺乏鲁棒性,在复杂图像库中的检索精确度不理想。

基于文献[7]的技术思想,本文设计了基于加权距离与多元极谐变换的图像检索算法,并在海量Image Net数据集和自行构建的复杂图像库中,测试了所提算法的检索准确度。

1 本文图像检索算法

基于加权距离与多元极谐变换的图像检索算法过程见图 1。该算法的整个检索过程划分4个阶段,具体如下。

Fig.1 Retrieval process of the proposed algorithm 图 1 所提算法的检索过程
1.1 颜色特征提取

一般而言,红-绿-蓝(Red-Green-Blue,RGB)是表示彩色图像的颜色特征较为常见的模型,但RGB所描述的信息与人眼所感知颜色之间的差异度较高[6]。因此,在所提算法中,引入HSV颜色空间[8]来描述查询图像的颜色特征。对于给定的查询图像f(x, y),其量化后的H, S, V分量如下[5, 8]

$H = \left\{ \begin{gathered} 0{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} h \in \left[ {0, 24} \right] \cup \left[ {345, 360} \right];\quad \\ 1{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} h \in \left[ {25, 49} \right] \\ 2{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} h \in \left[ {50, 79} \right];\quad \quad \quad \quad \quad \, \\ 3{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} h \in \left[ {80, 159} \right] \\ 4{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} h \in \left[ {160, 194} \right];\quad \quad \, \quad \quad \, \\ 5{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} h \in \left[ {195, 264} \right] \\ 6{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} h \in \left[ {265, 284} \right];\quad \quad \quad \;\;\, \, \, \\ 7{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} h \in \left[ {285, 344} \right] \\ \end{gathered} \right.$ (1)
$S = \left\{ \begin{gathered} 0{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} s \in \left[ {0, 0.15} \right) \\ 1{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} s \in \left[ {0.15, 0.8} \right) \\ 2{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} s \in \left[ {0.8, 1} \right) \\ \end{gathered} \right.$ (2)
$V = \left\{ \begin{gathered} 0{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} v \in \left[ {0, 0.15} \right) \\ 1{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} v \in \left[ {0.15, 0.8} \right) \\ 2{\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} {\kern 1pt} v \in \left[ {0.8, 1} \right) \\ \end{gathered} \right.$ (3)

式中:h为初始的色调信息;s为初始的饱和度信息;v为初始的亮度信息。

为提高检索速度,通过量化级数,对式(1)~式(3)的三维颜色特征实施降维,形成一维颜色特征K

$K = {Q_{\rm{S}}}{Q_{\rm{V}}} \times H + S \times {Q_{\rm{V}}} + V$ (4)

式中:QS, QV分别为S, V的量化级数,根据文献[4]和文献[8]的研究结果,取QS=QV=3。

则式(4)变为:

$K = 9H + 3S + V$ (5)

基于式(5)发现,原来的三维颜色空间降低为一维空间。根据式(1)~式(3)可知,Kmax=71, Kmin=0,这意味着式(5) 的一维颜色空间含有72种特征值。根据上述过程对查询图像f(x, y)的颜色实施量化与降维处理,可得到对应的颜色特征向量C=[C0, C1, C2, …, C72]。

1.2 基于NSST变换与贝塞尔K分布的纹理特征提取

本文引入NSST处理查询图像,根据NSST系数的统计模型对应的形状和尺度参数来描述其纹理特征[9-10]。通过对高频子带完成更稀疏的分解,可以充分捕捉图像的纹理信息,实现最优逼近描述[11],过程见图 2。对于一个连续的小波α,其对应的二维仿射系统为[11]

Fig.2 Multi-scale decomposition process of NSST 图 2 NSST的多尺度分解过程
$M_{\mathit{\boldsymbol{AB}}}(\alpha)=\left\{\alpha_{j, l, k}(x)=|\operatorname{det} \mathit{\boldsymbol{A}}|^{1 / 2} \alpha\left(\boldsymbol{B}^{l} \boldsymbol{A}^{j} x-k\right) \mid j, l \in \mathbf{Z}, k \in \mathbf{Z}^{2}\right\}$ (6)

式中:$\alpha \in {L^2}({R^2})$为连续小波;A为二维可逆膨胀矩阵;B为二维可逆剪切波矩阵;l为尺度;j为方向;k为平移量。

图 3(a)为例,借助NSST方法,对其进行2种不同尺度的分解,形成的NSST系数见图 3(b)图 3(c)。根据NSST系数发现,只有在原始图像边缘上同时具有方向和位置的系数才有显著值,且图像的纹理和细节均被有效描述出来。但是,直接利用NSST系数图像作为纹理特征来实施检索,由于其维数较高,严重影响目标检索效率[12]。文献[13]通过大量的实验发现,NSST系数图像的广义高斯分布较好地描述了不同纹理图像和不同子带的纹理特征,能利用其形状和尺度参数描述查询图像的纹理特征。以图 3(c)所示的4个NSST系数图像为样本,统计其对应的概率直方图,结果见图 4。由图 4发现,这些分布在零附近的概率值呈现出一个尖峰,在峰的两侧呈现出一个较长的拖尾现象,对应的分布峰度为22.56, 22.10, 27.57, 26.34,远大于高斯分布的峰度。因此,需要用非高斯分布来描述NSST系数。

Fig.3 NSST decomposition results of images 图 3 图像的NSST分解结果
Fig.4 Statistical histogram corresponding to each NSST coefficient image in Fig. 3(c) 图 4 图 3(c)中每个NSST系数图像对应的统计直方图

为此,本文引入贝塞尔K分布[14]描述NSST系数的分布特性。贝塞尔K分布是一种常用的非高斯分布统计模型,能够较好地捕获NSST系数的拖尾现象。令gF代表图像经过带通滤波F处理的结果,则其贝塞尔K分布的概率密度函数(Probability Density Function,PDF)模型为[14]

$ {\hspace{0.05em}}f\left(x:{\hspace{0.05em}}p:{\hspace{0.05em}}c\right)=\frac{{\left(\frac{c}{2}\right)}^{-\frac{p}{2}-\frac{1}{4}}{\left|\frac{x}{2}\right|}^{p-\frac{1}{2}}{K}_{p-\frac{1}{2}}\left(\sqrt{\frac{2}{c}}\left|x\right|\right)}{\sqrt{\pi }\Gamma \left(p\right)}$ (7)

式中:f(x:p:c)代表概率密度函数;p为尺度参数;c为形状参数;$\Gamma \left( p \right)$为尺度函数;K为贝塞尔函数[14]

$K(z x)=\frac{\Gamma\left(v+\frac{1}{2}\right)(2 x)^{v}}{\sqrt{\pi} z^{v}} \int_{0}^{+\infty} \frac{\cos (z t) \mathrm{d} t}{\left(t^{2}+x^{2}\right)^{v+1 / 2}}$ (8)

式中:v为一个整数常量;z, x均为输入变量。

为有效估算式(7)中的2个参数p, c,本文引入矩估计方法[15]实现:

${\kern 1pt} p' = \frac{{3\left( {n - 2} \right)\left( {n - 3} \right)m_2^2}}{{\left( {n - 1} \right)\left[ {\left( {n + 1} \right){m_4} - 3\left( {n - 1} \right)m_2^2} \right]}}$ (9)
${\kern 1pt} c' = \frac{{n \times {m_2}}}{{\left( {n - 1} \right)p'}}$ (10)

式中:n为矩估计方法中的NSST系数数量;m2m4分别为二阶和四阶样本中心矩;p', c'分别为p, c的估计结果。

根据文献[15]的详细估算过程,可获取所有样本对应的尺度和形状估算参数p', c'。本文算法使用3级NSST分解查询图像,从而可以获取20个方向子带。借助式(7)统计这20个高通子带的分布,则可得到每个子带相应的尺度和形状估算参数$p{'_i}$, $c{'_i}$(i为高通子带的数量)。最后,将所有的$p{'_i}$, $c{'_i}$实施组合,将其视为纹理特征矢量vT=[$p{'_1}$, $c{'_1}$, $p{'_2}$, $c{'_2}$, …, $p{'_{20}}$, $c{'_{20}}$]。

1.3 基于四元极谐变换的形状特征提取

对于2个相似的目标,其形状高度吻合[16]。在众多图像的形状描述方法中,不变矩对旋转、平移和尺度等几何操作具备理想的稳健性[16]。本文算法引入QPHT[17]描述查询图像的形状特征。

极谐变换[18]包含一系列的正交核,相对于其他不变矩,其图像重构误差和计算复杂度更小,且不受噪声干扰。QPHT在PHT的基础上,考虑其R, G, B三分量之间的关系所形成的多元变换函数,对噪声、几何变换和颜色变化具有理想的稳健性[19]

f(r, θ)代表极坐标中的查询图像,则阶数为n,重复长度为l的QPHT系数${M_{n, l}}$[19]

${M_{n, l}} = \frac{1}{\pi }{\int_0^{2\pi } {\int_0^1 {f\left( {r, \theta } \right)\left[ {{H_{n, l}}\left( {r, \theta } \right)} \right]} } ^*}r{\rm{d}}r{\rm{d}}\theta $ (11)
${H_{n, l}}\left( {r, \theta } \right) = \exp \left( { - u2\pi n{r^2}} \right)\exp \left( { - ul\theta } \right)$ (12)

式中:$u=(i+j+k) / \sqrt{3}$为纯四元数;$\theta $为旋转角度;r为半径。

因QPHT的基函数是正交的,因此,f(r, θ)可借助有限阶QPHT系数来最佳逼近复原$\left( {n \leqslant {n_{\max }}, {\kern 1pt} l \leqslant {l_{\max }}{\kern 1pt} {\kern 1pt} } \right)$。阶数n越大,对查询图像的形状特征描述能力越高:

$f'\left( {r, \theta } \right) = \sum\limits_{n = - \infty }^{ + \infty } {\sum\limits_{l = - \infty }^{ + \infty } {{M_{n, l}}{R_n}\left( r \right)} } \exp \left( {\mu l\theta } \right) \approx \sum\limits_{n = - \infty }^{ + \infty } {\sum\limits_{l = - \infty }^{ + \infty } {{M_{n, l}}\exp \left( {u2\pi r{n^2}} \right)\exp \left( {\mu l\theta } \right)} } $ (13)

式中:$f'\left( {r, \theta } \right)$为重构图像;nmax为最大阶数;lmax为最大重复长度。

${f^r}\left( {r, \theta } \right) = f\left( {r, \theta + \alpha } \right)$代表α引起的f(r, θ)的旋转变化,由文献[19]可知,$f\left( {r, \theta + \alpha } \right)$, f(r, θ)的QPHT系数满足Mn, l(fr)=Mn, l(f)exp(ulα)的关系。对二者取绝对值,得到|Mn, l(fr)|=|Mn, l(f)exp(ulα)|=|Mn, l(f)||exp(ulα)|=|Mn, l(f)|。所以,借助查询目标的QPHT范数,可获取旋转不变性。因QPHT的正交特性主要在单位圆内定义,故其模系数对尺度变换也具备稳健性。此外,若把坐标原点放在查询图像的质心上,能实现平移不变性[19]

根据式(11)处理查询图像,可获取相应的QPHT模系数${M_{n, l}}$,将这些系数进行组合,形状特征矢量$ \mathit{\boldsymbol{F}}=\left[{M}_{0, 0},{\hspace{0.05em}}{M}_{0, 1},{\hspace{0.05em}}{\hspace{0.05em}}{\hspace{0.05em}}{M}_{1, 0},\cdots , {M}_{n, l}{\hspace{0.05em}}\right]$

1.4 基于加权融合特征距离的图像检索

利用贝塞尔K分布的2个参数可以有效计算出2个NSST子带之间的纹理特征相似性,且不同子带的NSST系数是独立的。因此,2个图像之间的总距离是相应的高频NSST子带对应的所有Kullback-Leibler(KLD)距离[20]的总和:

${D_1}\left( {\mathit{\boldsymbol{V}}_{\rm{T}}^{{I_{\rm{Q}}}}, {\kern 1pt} \mathit{\boldsymbol{V}}_{\rm{T}}^{{I_{\rm{S}}}}{\kern 1pt} } \right) = \sum\limits_{j = 1}^J {\sum\limits_{d = 1}^{{D_j}} {f_{\rm{Q}}^{\left( {j, d} \right)}} } \log \left( {\frac{{f_{\rm{Q}}^{\left( {j, d} \right)}}}{{f_{\rm{T}}^{\left( {j, d} \right)}}}} \right)$ (14)

式中:IQ, IS分别为查询图像和数据库中的图像;$ {\mathit{\boldsymbol{V}}}_{\rm{T}}^{{I}_{\rm{Q}}},{\mathit{\boldsymbol{V}}}_{\rm{T}}^{{I}_{\rm{S}}}$分别为查询图像和数据库图像的纹理特征矢量;j为尺度;d为方向;$ {f}_{\rm{Q}}^{\left(j, d\right)},{f}_{\rm{T}}^{\left(j, d\right)}$分别为IQ, IS的贝塞尔K分布的PDF函数。

对于形状特征矢量的相似度测量,引入欧式距离[21]完成,其计算函数如下:

${D_2}\left( {\mathit{\boldsymbol{V}}_{\rm{Shape}}^{{I_{\rm{Q}}}}, {\kern 1pt} {\kern 1pt} \mathit{\boldsymbol{V}}_{\rm{Shape}}^{{I_{\rm{S}}}}{\kern 1pt} } \right) = {\sum\limits_{i = 1}^K {\left( {\mathit{\boldsymbol{V}}_{\rm{Shape}}^{{I_{\rm{Q}}}}\left( i \right) - \mathit{\boldsymbol{V}}_{\rm{Shape}}^{{I_{\rm{S}}}}\left( i \right)} \right)} ^2}$ (15)

式中:$\mathit{\boldsymbol{V}}_{\rm{Shape}}^{{I_{\rm{Q}}}}, {\kern 1pt} {\kern 1pt} \mathit{\boldsymbol{V}}_{\rm{Shape}}^{{I_{\rm{S}}}}$分别为查询图像和数据库图像的形状特征矢量;K为矢量元素的数量。

随后,利用d1距离[7]来测量查询图像和数据库图像的颜色特征矢量的相似度,其函数如下:

${D_3}\left( {\mathit{\boldsymbol{C}}_{\rm{\rm{Color}}}^{{I_{\rm{Q}}}}, {\kern 1pt} \mathit{\boldsymbol{C}}_{\rm{Color}}^{{I_{\rm{S}}}}{\kern 1pt} } \right) = \sum\limits_{i = 1}^n {\frac{{\left| {\mathit{\boldsymbol{C}}_{\rm{Color}}^{\rm{Q}}\left( i \right) - \mathit{\boldsymbol{C}}_{\rm{Color}}^{\rm{S}}\left( i \right)} \right|}}{{\left| {1 + \mathit{\boldsymbol{C}}_{\rm{Color}}^{\rm{Q}}\left( i \right) + \mathit{\boldsymbol{C}}_{\rm{Color}}^{\rm{S}}\left( i \right)} \right|}}} $ (16)

式中:$\mathit{\boldsymbol{C}}_{\rm{Color}}^{{I_{\rm{Q}}}}, {\kern 1pt} \mathit{\boldsymbol{C}}_{\rm{Color}}^{{I_{\rm{S}}}}$分别为查询图像和数据库图像的颜色特征矢量;n为矢量元素的数量。

联合式(14)~式(16),引入权重因子,构建加权特征测量距离:

$D\left( {{I_{\rm{Q}}}, {\kern 1pt} {\kern 1pt} {I_{\rm{S}}}{\kern 1pt} } \right) = {w_1}{D_1}\left( {\mathit{\boldsymbol{V}}_{\rm{T}}^{{I_{\rm{Q}}}}, {\kern 1pt} \mathit{\boldsymbol{V}}_{\rm{T}}^{{I_{\rm{S}}}}{\kern 1pt} } \right) + {w_2}{D_2}\left( {\mathit{\boldsymbol{V}}_{\rm{Shape}}^{{I_{\rm{Q}}}}, {\kern 1pt} \mathit{\boldsymbol{C}}_{\rm{Shape}}^{{I_{\rm{S}}}}{\kern 1pt} } \right) + {w_3}{D_3}\left( {\mathit{\boldsymbol{C}}_{\rm{Color}}^{{I_{\rm{Q}}}}, {\kern 1pt} \mathit{\boldsymbol{C}}_{\rm{Color}}^{{I_{\rm{S}}}}{\kern 1pt} } \right)$ (17)

式中:w1, w2w3分别代表纹理、形状和颜色特征的权重系数,且w1+w2+w3=1。在所提算法中,通过大量测试,取w1=0.2, w2=0.3, w3=0.5。

2 测试结果与分析

为评估所提算法的检索精确度,采用Matlab 2011a平台,在大型数据集Image Net[22]进行测试。Image Net图像库包含了1 419万张标准图像,因实验条件有限,本文从库中随机选择30 000幅图像,以此构建一个测试数据库。为了突出所提算法的检索精确度的优势,将文献[5]和文献[7]的方法作为对照组。通过多次测试,设置如下参数:QS=QV=3, v=2,阶数n=5,重复长度l=5, w1=0.2, w2=0.3, w3=0.5。

2.1 检索结果分析

图 5(a)为查询图像,借助所提算法、文献[5]和文献[7]3种技术,在测试数据库中实施检索,将前10幅检索图像作为输出结果,如图 5所示。由图发现,对于“兔子”查询图像,所提算法具有更高的检索准确率,其输出结果中没有误检索目标,见图 5(b);文献[5]算法,其检索准确性不理想,输出的结果中,存在3幅图像是错误的,见图 5(c)中的“松鼠”、“仓鼠”以及“袋鼠”目标。文献[7]的检索准确性也较高,其输出图像中只有1幅图像是错误的,见图 5(d)中的“仓鼠”图像。原因是所提算法从查询图像的HSV空间中提取了颜色特征,并利用贝塞尔K分布与NSST变换,利用尺度参数与形状参数来描述其纹理特征,可以提供查询图像的最佳逼近描述,充分捕捉图像的纹理信息,另外,通过计算QPHT模系数来形成形状特征,有效获取查询图像的形状信息,再通过组合这3种特征,形成加权距离,提高算法的敏感性,使其具有理想的检索精确度。而文献[5]算法主要是借助查询图像的颜色特征和纹理特征来度量相似性,忽略了形状特征,且旋转局部二值模式难以提供图像的最佳逼近描述,对图像的纹理信息描述能力有待提高,从而使其检索精确度不理想。文献[7]算法则是与所提算法类似,通过提取查询图像的颜色、纹理和形状特征来检索,其对目标信息的描述能力较高,但其只是利用边缘检测方法所获取的边缘信息来视为形状特征,且没有考虑R, G, B三分量之间的关系,限制了其检索准确性。

Fig.5 The retrieval results of three algorithms for "rabbit" image 图 5 三种算法对“兔子”图像的检索结果
2.2 量化测试分析

为客观评估所提算法与文献[5]、文献[7]三者的检索精确度与复杂度,本文引入查全率-查准率曲线[2]和准确率[6]来描述,并统计三者相应的检索时间。其中,Recall-Precise的计算函数如下[2]

${\rm{Precise = }}\frac{{{\rm{No.\;of\;relevant\;images\;retrieved}}}}{{{\rm{Total\;No.\;of\;images\;retrieved}}}}$ (18)
${\rm{Recall = }}\frac{{{\rm{No.\;of\;relevant\;images\;retrieved}}}}{{{\rm{Total\;No.\;of\;relevant\;imagesin\;the\;database}}}}$ (19)

式中:Precise为查准率;Recall为召回率。

检索准确率的函数如下[6]

$A_{\mathrm{C}}=\frac{T_{\mathrm{p}}+T_{\mathrm{N}}}{T_{\mathrm{P}}+F_{\mathrm{p}}+T_{\mathrm{N}}+F_{\mathrm{N}}}$ (20)

式中:TN为漏检的相关图像;Tp为准确检索图像的数量;Fp为数据库中的相关图像的数量;FN为误检图像数量。

为测试3种算法的检索精确度与鲁棒性,在Image Net数据库中选择标准查询样本,见图 6;随后,借助PS软件,对其实施多种不同参数的内容操作,见表 1

Fig.6 Test sample 图 6 测试样本
表 1 查询图像的内容操作及其参数值 Table 1 Content operation and parameter values of query image

通过这些操作后,可形成70幅变换图像。从物联网上下载100幅“骡子图像”、100幅“大象图像”,并联合100幅变换图像,从而构建了一个包含270幅图像的复杂测试数据库。利用所提算法、文献[5]和文献[7]的检索过程,从这个复杂测试数据库中检索目标,通过统计每种算法的检索结果,基于式(18)~式(20),得到的Recall-Precise曲线见图 7,以及返回图像数量为70的准确率统计结果,见表 2。根据图 7发现,当Recall=0.6时,所提算法的查准率仍达到了93.87%。文献[5]和文献[7]的查准率均低于90%,分别为89.19%, 80.39%。另外,从表 2中的统计数据发现,对于复杂数据库,所提算法呈现出更理想的鲁棒性,仍具有更高的检索准确率,达到95.71%。原因是所提算法综合了查询图像的颜色、纹理和形状特征来测量相似度,其采用的NSST能够最大程度地描述图像纹理信息,且采用了QPHT来提取图像的形状特征,使其对各类几何操作具有优异的鲁棒性,在这种复杂的数据库中进行检索时,可呈现出较高的稳健性。文献[5]则是联合颜色与纹理特征来实施检索,没有考虑目标的形状特征,且其采用的旋转局部二值模式对噪声、JPEG压缩等变换的鲁棒性较弱,在复杂数据库中检索时,因对图像特征描述能力不足,易出现较多的误检索结果。文献[7]虽然也综合了查询图像的颜色、纹理和形状特征来检索目标,但其依赖边缘检测方法来描述形状特征,这种边缘算子对内容操作缺乏足够的稳健性,限制了其检索精确度。

Fig.7 Precise-Recall curves of three algorithms 图 7 三种算法的Precise-Recall曲线
表 2 不同算法的检索准确率测试结果(返回图像数量为70)
3 结论

为了提高查询图像的检索精确度,本文设计了基于加权距离与多元极谐变换的图像检索算法。该算法充分结合了查询图像的颜色、纹理与形状特征,增强了算法对图像信息的描述能力。在HSV空间中,获取查询目标的颜色特征。并利用贝塞尔K模型来描述查询目标的NSST系数的分布特征,将其形状和尺度参数视为纹理特征。同时,采用四元极谐变换来计算目标的模系数,视为形状特征,显著增强其对几何变换的鲁棒性。通过对这3种特征实施加权,形成相似度测量函数,以此完成目标检索。在Image Net图像库和自行构建的复杂数据库上测试了所提算法的性能,结果显示其具有较好的检索准确性和稳健性,误检率较低。

参考文献
[1]
吕清秀, 李弼程, 高毫林. 基于距离度量学习的DCT域JPEG图像检索[J]. 太赫兹科学与电子信息学报, 2014, 12(1): 112-118. (LYU Qingxiu, LI Bicheng, GAO Haolin. DCT domain JPEG image retrieval based on distance metric learning[J]. Journal of Terahertz Science and Electronic Information Technology, 2014, 12(1): 112-118. DOI:10.11805/TKYDA201401.0112)
[2]
李明子. 基于紧凑局部描述符聚类矢量签名的Web规模图像检索研究[J]. 科学技术与工程, 2014, 14(31): 84-88. (LI Mingzi. Web-scale image retrieval based on compact local descriptor clustering vector signature[J]. Science and Technology and Engineering, 2014, 14(31): 84-88. DOI:10.3969/j.issn.1671-1815.2014.31.016)
[3]
杨叶芬, 曾东海, 刘海. 逆向学习耦合多属性查询的图像排序/检索优化算法研究[J]. 包装工程, 2015, 36(7): 84-90. (YANG Yefen, ZENG Donghai, LIU Hai. Research on image sorting/retrieval optimization algorithms based on reverse learning coupled with multi-attribute query[J]. Packaging Engineering, 2015, 36(7): 84-90.)
[4]
胡明娣, 霍艳艳. 基于Gamma隶属度的车辆图像检索算法[J]. 西安邮电大学学报, 2019, 24(1): 36-40. (HU Mingdi, HUO Yanyan. Vehicle image retrieval algorithm based on Gamma membership degree[J]. Journal of Xi'an University of Posts and Telecommunications, 2019, 24(1): 36-40. DOI:10.13682/j.issn.2095-6533.2019.01.006)
[5]
MUHAMMAD Sajjad, AMIN Ullah, JAMIL Ahmad. Integrating salient colors with rotational invariant texture features for image representation in retrieval systems[J]. Multimed Tools Application, 2018, 77(12): 4769-4789. DOI:10.1007/s11042-017-5010-5
[6]
白鑫, 卫琳. 基于双级特征提取与度量的图像检索算法[J]. 包装工程, 2018, 39(21): 198-205. (BAI Xin, WEI Lin. Image retrieval algorithm based on two-level feature extraction and measurement[J]. Packaging Engineering, 2018, 39(21): 198-205.)
[7]
KHOKHER A, TALWAR R. A fast and effective image retrieval scheme using color-,texture-,and shape-based histograms[J]. Multimed Tools and Application, 2017, 76(9): 21787-21809. DOI:10.1007/s11042-016-4096-5
[8]
HUA Jizhao, LIU Guanghai, SONG Shuxiang. Content-based image retrieval using color volume histograms[J]. International Journal of Pattern Recognition and Artificial Intelligence, 2019, 33(2): 1011-1023. DOI:10.1142/S021800141940010X
[9]
张烨, 党媛媛, 李昭慧. 基于分块加权的多特征图像检索算法[J]. 广西大学学报(自然科学版), 2018, 43(6): 2258-2265. (ZHANG Ye, DANG Yuanyuan, LI Zhaohui. Multi-feature image retrieval algorithm based on block weighting[J]. Journal of Guangxi University (Natural Science Edition), 2018, 43(6): 2258-2265. DOI:10.13624/j.cnki.issn.1001-7445.2018.2258)
[10]
YIN Ming, WANG Zhicheng, YU Liping. Texture image retrieval based on nonsubsampled Shearlet transform and rotation invariant local phase quantization[J]. Computer Engineering, 2014, 40(10): 258-263. DOI:10.3969/j.issn.1000-3428.2014.10.048
[11]
范帅帅.结合纹理方向性的非下采样剪切波域数字水印算法研究[D].西安:西北大学,2017. (FAN Shuaishuai.Research on non-downsampling shear-domain digital watermarking algorithm combined with texture directivity[D].Xi'an,China:Northwest University,2017.)
[12]
JABASON E,AHMAD M O,SWAMY M N S.Statistical modeling of multimodal neuroimaging data in non-subsampled Shearlet domain using the student's t location-scale distribution[C]//IEEE International Symposium on Circuits&Systems.Baltimore,MD,USA:IEEE,2017:101-104.DOI:10.1109/ISCAS.2017.8050661.
[13]
王治成.基于非下采样剪切波和RI-LPQ的图像检索技术研究[D].合肥:合肥工业大学,2014. (WANG Zhicheng.Research on image retrieval technology based on non-downsampling shear wave and RI-LPQ[D].Hefei,China:Hefei Polytechnic University,2014.)
[14]
LIU Zhiqiang, ZHU Ligu. A novel retrieval method for remote sensing image based on statistical model[J]. Multimedia Tools and Applications, 2018, 77(19): 24643-24662. DOI:10.1007/s11042-018-5649-6
[15]
WANG Xiangyang, LIU Yunan, XU Huan. Blind optimum detector for robust image watermarking in nonsubsampled Shearlet domain[J]. Information Sciences, 2016, 372(19): 634-654. DOI:10.1016/j.ins.2016.08.076
[16]
兰蓉, 郭思忱, 贾世英. 基于纹理与形状特征融合的刑侦图像检索算法[J]. 计算机工程与设计, 2018, 39(4): 1106-1110. (LAN Rong, GUO Sichen, JIA Shiying. A criminal investigation image retrieval algorithm based on fusion of texture and shape features[J]. Computer Engineering and Design, 2018, 39(4): 1106-1110. DOI:10.16208/j.issn1000-7024.2018.04.036)
[17]
WANG Xiangyang, XU Huan, ZHANG Siyu, et al. A color image watermarking approach based on synchronization correction[J]. Fundamental Informatician, 2018, 158(4): 385-407. DOI:10.3233/FI-2018-1654
[18]
肖宁, 李爱军. 基于几何校正与非下采样Shearlet变换的图像水印算法[J]. 信息与控制, 2018, 48(1): 97-106. (XIAO Ning, LI Aijun. Image watermarking algorithm based on geometric correction and non-downsampling Shearlet transform[J]. Information and Control, 2018, 48(1): 97-106. DOI:10.13976/j.cnki.xk.2019.7216)
[19]
WANG Xiangyang, LI Weiyi, YANG Hongying, et al. Quaternion polar complex exponential transform for invariant color image description[J]. Applied Mathematics&Computation, 2015, 256(4): 951-967. DOI:10.1016/j.amc.2015.01.075
[20]
LI Chaorong, HUANG Yuanyuan, ZHU Lihong. Color texture image retrieval based on Gaussian copula models of Gabor wavelets[J]. Pattern Recognition, 2017, 64(7): 118-129. DOI:10.1016/j.patcog.2016.10.030
[21]
ELHADY W E, ALSAMMAK A K, El-MASHAD S Y. Optimized weighted feature voting technique for content-based image retrieval[J]. Journal of Electronic Imaging, 2018, 27(5): 053017-053028. DOI:10.1117/1.JEI.27.5.053017
[22]
曹健, 张俊杰, 李海生, 等. 基于Apache Spark的海量图像并行检索[J]. 计算机应用, 2018, 38(z2): 183-186. (CAO Jian, ZHANG Junjie, LI Haisheng, et al. Distributed retrieval for massive images based on Apache Spark[J]. Journal of Computer Applications, 2018, 38(z2): 183-186.)