基于全局对比度的显著性区域检测

附件C :译文

基于全局对比度的显著性区域检测

Ming-Ming Cheng1 Guo-Xin Zhang1 Niloy J. Mitra2 Xiaolei Huang3 Shi-Min Hu 1

1 TNList, Tsinghua University 2 KAUST 3 Lehigh University

摘要

视觉显著性的可靠估计能够实现即便没有先验知识也可以对图像适当的处理,因此在许多计算机视觉任务中留有一个重要的步骤,这些任务包括图像分割、目标识别和自适应压缩。我们提出一种基于区域对比度的视觉显著性区域检测算法,同时能够对全局对比度差异和空间一致性做出评估。该算法简易、高效并且产出满分辨率的显著图。当采用最大的公开数据集进行评估时,我们的算法比已存的显著性检测方法更优越,具有更高的分辨率和更好的召回率。我们还演示了显著图是如何可以被用来创建用于后续图像处理的高质量分割面具。

1 引言

人们经常毫不费力地判断图像区域的重要性,并且把注意力集中在重要的部分。由于通过显著性区域可以优化分配图像分析和综合计算机资源,所以计算机检测图像的显著性区域存在着重要意义。提取显著图被广泛用在许多计算机视觉应用中,包括对兴趣目标物体图像分割[13, 18]、目标识别[25]、图像的自适应压缩[6]、内容感知图像缩放[28, 33,30, 9]和图像检索[4]等。

显著性源于视觉的独特性、不可预测性、稀缺性以及奇异性,而且它经常被归因于图像属性的变化,比如颜色、梯度、边缘和边界等。视觉显著性是通过包括认知心理学[26, 29]、神经生物学[8, 22]和计算机视觉[17, 2]在内的多学科研究出来的,与我们感知和处理视觉刺激密切相关。人类注意力理论假设人类视力系统仅仅详细处理了部分图像,同时保持其他的图像基本未处理。由Treisman 和Gelade [27],Koch 和Ullman [19]进行的早期工作,以及随后由Itti ,Wolfe 等人提出的注意力理论提议将视觉注意力分为两个阶段:快速的、下意识的、自底向

上的、数据驱动显著性提取;慢速的、任务依赖的、自顶向下的、目标驱动显著

性提取。

我们通过图像对比度来关注自底向上的数据驱动显著性检测。人们普遍认为,人类大脑表皮细胞在其接受域可能是硬编码的,为的是优先响应高对比度刺激

[21]。基于以下观察结果,我们提出了对提取的高分辨率全局显著图的对比度分析:

● 基于全局对比度的方法能够将一个大规模目标从它周围的环境

中分离出来,相对于只在轮廓附近产生高显著值的基于局部对比度的方法更优越。

● 全局考虑能够实现将相近的显著值分配到相似的图像区域,并且

可以均匀的突出整个目标。

● 一个区域的显著性主要依靠它与相近区域的对比度,而与远区域

的对比度相对没有那么重要。

● 显著图应该是能够简单快速的生成,为了实现大图像集合的处理

和促进图像分级与检索的高效率进行。

我们提出了一种基于直方图对比度的方法(HC )来测量显著性。HC-maps 依据与所有其它图像像素的色彩差异来分配像素显著值,以此来产生全分辨率的显著图。我们使用直方图的方法来高效处理,同时使用一种平滑操作来控制量化缺陷。值得注意的是我们的算法是针对自然场景,对高纹理图像场景可能要弱些(见图12)。

图1 输入图像(上),经全局对比度分析得到的高分辨率的显著图(中),显著图可以进一步被用来产生感兴趣物体区域(下)

作为HC-map 的改进,我们结合空间关系创造出了基于区域对比度的(RC )显著性图,我们首先把输入的图像分割为数区域,然后赋予他们显著值。现在一个区域的显著值是通过全局对比度值来计算的,

全局对比度值是通过此区域与图

像中的其他区域的对比以及与其他区域的空间距离来度量。

我们在公开的基准数据集上广泛地评估我们的方法,并且将我们的方法与最先进显著性方法[17, 21, 32, 14, 15, 1, 2, 12]以及人工标注的参考数据进行对比1。实验表明,我们的方法比以往的方法在精度和召回率上都具有明显的改进。总的来说,与HC-map 相比,RC-map 具有更高的精度和召回率,不过是以增加计算量为代价的。令人欣慰的是,我们注意到用我们的显著图提取的显著性分割在绝大多数情况下是符合人工注释的。我们也呈现了显著图在图像分割、内容感知图像缩放和非真实感渲染中的应用。

2 相关工作

我们主要关注把下意识的自底向上的显著性检测作为目标的相关文献,这可能是基于生物学激励,或者是纯粹的计算,抑或是兼顾这两个方面。这些个方法利用低水平的处理来决定图像目标与它们周围的对比度,用到了像亮度、颜色和边缘这样的特征属性。我们把这些算法概括得分为局部方案和全局方案。

基于局部对比度的方法研究图像区域相对于局部邻域相关的稀有度。Koch 和Ullman [19]提出的早期模型受到生物学激励的高度影响,在这个基础上Itti 等人[17]用贯穿多尺度图像特征的中心-周围差异来定义图像目标显著性。Ma 和Zhang [21]提出了一种可供选择的局部对比度分析法来产生显著性图图像,后来通过模糊增长模型被扩充。Harel 等人[14]将Itti 等人的特征图进行标准化来突出显著部分,并且允许和其它重要的显著图像组合。Liu 等人[20]通过将高斯图像金子塔中的对比度线性地组合找到多尺度对比度。最近更多,Goferman 等人[12]同时地做出局部底层线索模型、全局考虑模型、视觉组织规则模型和表层特征模型来强调显著的目标随同其环境。这些使用局部对比度的方法趋向于产生边缘附近的更高显著值,而非一致地强调显著的目标(见图 2)。

图2 (b-i )是由不同的最先进方法计算出的显著图,(j )和(k )分别是我们提出的HC 和RC 方法得到的显著图。绝对多数结果突出了边缘或者低分辨率。也可见图6(以及项目网页)。

基于全局对比度的方法,通过与整体图像的对比度评估一个图像区域的显著性。Zhai 和Shah [32]

通过某个像素与其他所有像素的对比度较来定义像素级显

著性。然而,出于效率考虑,他们仅仅使用亮度信息,因此忽略其它渠道中与众不同的线索。Achanta 等人提出一个谐频的方法,直接使用与平均图像颜色之间的色差来定义像素显著性。然而,这个方法仅仅考虑了一阶平均颜色,并不能充分地分析自然图像中常见的复杂变量。在图6和图7中,我们展示出这些方法中定性的和定量的缺陷。此外,这些方法忽视了图像各部分之间的空间关系,而这个因素是可以对可靠的和一致的显著性探测产生决定性作用的。

3 基于直方图的对比度

生物学视力系统对于视觉信号的对比度很敏感,在对这个生物学视力观察的基础上,我们提出了一种直方图对比度方法(Histogram Contrast, HC)来为用输入图像颜色统计特征的图像像素定义显著值。明确说是,一个像素的显著值是通过与图像中的所有其它像素的色差来定义的。比如,图像I 中的像素I k 的显著值被

定义如下:

S (I k ) =

∀I i ∈I ∑D (I , I ) , (1) k i

其中D (I k , I i ) 是空间L*a*b中的像素I k 和I i 之间的颜色距离度量。方程1经

过扩展像素等级得到以下形式,

S (I k ) =D (I k , I 1) +D (I k , I 2) +⋅⋅⋅+D (I k , I N ) , (2) 其中N 是图像I 中的像素数量。很容易察觉在这种定义之下,由于测量没有考虑空间关系,同样颜色值的像素具有相同的显著值。因此,从具有相同颜色值c j 的像素被组合在一起的角度重新整理方程2,我们就得到每个颜色的显著值如

下,

n

S (I k ) =S (c l ) =∑f j D (c l , c j ) , (3)

j =1

其中,c l 是像素I k 中的颜色值,n 是不同像素颜色的数量,f j 是图像I 中像

素颜色c j 出现的频率。需要注意的是,为了避免显著区域颜色统计受到其他区域

相似颜色的破坏,可以使用变化的窗口面具来开发一个相似的方案。然而,考虑到高效率的要求,我们使用简单的全局方法。

基于直方图的加速。如果简简单单的使用方程1来评估每个图像像素的显著值的话,所花的时间O (N 2) 算起来即使针对中等大小的图像也是很多的。然而如果采用方程式3中的等价的表示形式,所花的时间是O (N ) +O (n 2) ,意味着如果O (n 2) ≤O (N ) ,那么计算效率可以被提高到O (N ) 。因此,加快速度的关键在于

减少图像中的像素数目。然而,真彩色空间包含了2563种可能的颜色,这比图像的像素数量要多的多。

Zhai 和Shah [32]仅仅使用亮度来减少颜色的数目n 。用这种方法,n 2=2562(显然,2562

图3 输入图像(左),我们计算出图像的颜色直方图(中)。直方图中每一个bin 对应的颜色显示在下方的条形中。量化后的图像(右)仅仅使用了43种直方图bin 色彩并且依然保留了显著性检测所需的足够的视觉质量。

颜色空间平滑。 尽管通过使用颜色量化和选取高频颜色来建立紧凑的颜色直方图我们可以高效率地计算出颜色对比度,但是量化本身可能带入瑕疵。一些相似的颜色可能被数量化为不同的值。为了减少这类由于随机性给显著结果引入的噪声,我们采取一套平滑程序来改善每个颜色的显著值。我们用相似颜色的显著值加权平均来代替每个颜色(以L*a*b*距离测量)的显著值。实际上这是一个对颜色特征空间的平滑处理。我们选择m=n/4个最近的颜色作为代表来改善颜色c 的显著值,如下:

1S '(c ) =(m 1) T

m ∑(T i =1m D (c , c i )) S (c i ) , (4) 其中,T =∑i =1D (c , c i ) 是颜色c 和它的m 个最近的颜色c i 之间的距离之和,

归一化因数来自公式∑i =1(T

线性变化的平滑权值(T m D (c , c i )) =(m 1) T 。值得注意一下,我们使用一个D (c , c i )) 来为颜色特征空间中与c 相近的颜色赋予较大的权值。在我们的实验中,

我们发现这样的线性变化的权值比衰减过于剧烈的高

斯权值要好。图4是颜色空间平滑后的效果,按显著值降序排列。注意,相似的柱状图在经过平滑过后彼此非常相近,这表明相似的颜色更可能来被赋予相似的显著值,因此减少了量化的瑕疵(见图7)。

图4 颜色空间平滑前(左)、后(右)每种颜色的显著性值(归一化为范围[0,1])。相应的显著图显示在相应的插图中。

实现细则。为了把颜色空间量化为123种不同的颜色,我们同样把每个颜色通道分为12个不同标准。尽管对于颜色的量化是在RGB 颜色空间中进行的,但是为了与人类感知更加符合,我们在L*a*b*的颜色空间中测量颜色的距离。然而,我们没直接在L*a*b*的颜色空间中进行量化,因为不是所有在范围L*∈[0,100],a*,b*∈[-127,127]中的颜色都与实际颜色必然对应。实验中,我们观察到使用直接的L*a*b*颜色空间量化得到较差的效果。通过在RGB 颜色空间中量化,而在L*a*b*的颜色空间中测量距离,我们得到最好的结果,然而,无论单独在RGB 颜色空间或单独在L*a*b*颜色空间中同时进展量化和距离计算,都得到最差的结果。

图 5 通过Felzenszwalb 和Huttenlocher 的分割方法[11]产生的图像区域(左一),基于区域对比的带距离加权分割图像(左二)、基于区域对比的不带距离加权分割图像(右二)。整合空间内容,我们得到一个高质量的显著性切割图(右一),能比得上人工分割结果。

4 基于区域的对比度

人们对于与周围环境具有强烈对比的那些图像目标区域更注意。除了对比度,空间关系也在人类注意力中扮演了重要角色。通常一个目标区域的显著性,与周围目标区域的高对比度要比与远处目标区域的高对比度更显著。既然当计算像素等级对比度时直接引入空间关系算起来很耗时,

我们引进了一个对比度分析方法:

区域对比度(Region Contrast, RC),为的是将空间关系整合到区域等级对比度计算当中。在RC 当中,我们首先把输入图像分割成数个目标区域,然后计算区域等级上的颜色对比度,并且用这个区域与图像中其他目标区域对比度的加权和为每个区域定义显著性。权值的设置是依照区域空间距离来的,空间距离较远的目标区域被赋予较小的权值,

由稀疏直方图对比得到区域对比度。我们首先使用一种基于图形的图像分割方法把输入图像分割为数个区域[11]。然后我们采用第3部分的方式为每个区域建立颜色直方图。对于一个区域r k ,我们通过测量其与图像中的其他区域的颜色

对比度来计算它的显著值,如下:

(5) S (r k ) =∑w (r i ) D r (r k , r i ) ,

r k ≠r i

其中w (r i ) 是区域r i 的权值,D r (r k , r i ) 是两个区域间的颜色距离度量。这里我们使用r i 中的像素数目w (r i ) 来强调与更大区域的颜色对比度。区域r 1和r 2之间的颜色距离被定义如下:

D r (r 1, r 2) =∑∑f (c 1, i ) f (c 2, j ) D (c 1, i , c 2, j ) (6)

i =1j =1n 1n 2

其中f (c k , i ) 是第i 个颜色c k , i 在第k 个区域r k 中的所有的n k 个颜色中的出现

频率。注意,我们使用一个颜色出现在这个区域中的频率作为这个颜色的权值,来更多的反映这个颜色与主要颜色之间的差别。

由于每个区域只包含整个图像的颜色直方图里的一小部分颜色,因此为每个区域存储和计算正则矩阵是低效率的。我们使用一个稀疏直方图表示法来高效的存储和计算。

空间加权的区域对比度。通过在方程式5中引入的一个空间加权条款,我们进一步包含空间信息,以此来增加较近区域的影响并减少较远区域的影响。特别地,对于任何区域r k ,基于空间加权区域对比度的显著性是这样定义的:

S (r k ) =∑exp(-D s (r k , r i ) /σs 2) w (r i ) D r (r k , r i ) (7)

r k ≠r i

其中,D s (r k , r i ) 是区域r k 和区域r i 之间的空间距离,σs 控制空间权值的强度。越大的σs 值越能减少空间权值的影响,使得较远的区域更有助于当前区域的显著性值。两个区域之间的空间距离被定义为与各自区域的重心之间的欧几里得距离。在我们的试验中,我们使用σs 2=0.4,其像素坐标归一化为[0,1]。

5 实验比较

我们用由Achanta 等人[2]提供的公开数据集评估了我们方法得到的结果。这是我们所知道的最好的数据库,这一套数据库是那一类中最大的,并且拥有人类精确标注了的显著性区域。我们比较了所提出的基于全局对比度方法和现今最先进的显著性检测方法。紧接着[2],我们依据以下来选择其他方法进行对比:引证的数量(IT[15] and SR[13]),新近(GB[12], SR, AC[1],FT[2] and CA[10]),种类(IT 是生物学激励,MZ 是纯粹计算的,GB 是混合法,ST 在频域进行处理,AC 和FT 输出全分辨率显著性图),还有与我们的方法接近的(LC[32])。

我们用我们的方法和其他方法计算数据库中所有1000张图片得到了显著性图。表1比较了每种方法所用的平均时间。我们的算法HC 和RC 是用C++做的。对于其他方法,即IT 、GB 、SR 、FT 和CA ,我们用作者的实现方法,而对于LC 这种算法,由于我们没有找到作者的实现方法,我们是用C++来实现的。对于典型的自然图像,我们的HC 方法需要O(N)的计算时间,这对于实时应用是足够高效率的。比较起来,我们的RC 转化要慢一点,由于它需要图像分割[11],

表1 通过Achanta 等人的方法计算数据库中图像的显著图所用的平均时间。数据库(见项目网页)中绝大部分图像的分辨率为400 300。用一个双核2.6GHz 和2GB RAM的机器对算法进行了测试。

图7 在1000张公开基准图像上经过各种方法得到的显著图经过简单阈值分割得到结果的精度-召回曲线。(左,中)我们的方法中的不同选项与GB[12], MZ[19], FT[2], IT[15], SR[13], AC[1], CA[10], and LC[29]的对比。NHC 表示出我们禁用颜色空间平滑的HC 方法

的天然版本,NRC 表示出我们的禁用空间加权的RC 方法。(右)精度-召回柱状图展示我们的显著性切割算法,使用的是不同的显著图作为初始值。我们的方法RC 显示出1000个图像数据库中的高查准率、高精度和高F β值。(请参考项目网页寻求相应的结果图像。)

为了全面地评估我们用于显著性图像分割的方法的精确度,我们采用不同的客观比较措施来进行两个实验。在第一个实验中,为了分割显著的目标并且计算精度和召回率曲线,我们使用了每一种可能的固定阈值将显著性目标进行二值化,类似于[2]中的固定阈值法实验。在第二个实验中,我们反复迭代应用GrabCut 算法来分割显著的目标,算法是使用定限的显著性图像来初始化的。我们也采用得到的显著性图作为调整内容敏感的图像缩放和非真实感渲染的重要的权值。

通过固定阈值分割。得到显著目标图像的二值分割图的最简单方法是设定阈值T f ∈[0,255]来限定显著性目标图像。为了可靠的比较各种显著性检测方法高

亮显著性物体的效果,我们设定阈值T f 的值在0到255之间变化。图7显示出

精度召回率曲线结果。我们也介绍了加入颜色空间平滑和空间加权方案的好处,连同与其他显著性目标提取方法的客观比较。各种方法所得到的显著性图的视觉比较可以在图2和图6中看出。

图6 显著图的视觉比较。(a )原始图像,通过以下方法得到的显著图:(b )Zhai and Shah ,(c )Goferman 等人,(d) Achanta等人,(e) 我们的HC 方法,(f)我们的 RC方法,(g )基于RC 的显著性切割结果。我们的方法生成均匀突出的显著性区域(见项目网页中全基准数据集中的所有结果)

精度和召回率曲线清楚地说明我们的方法要比其他八种方法优越。曲线端点是有趣的:在最大召回率处T f =0

,所有的像素都保持正数,被认为是前景,因

此所有的方法具有相同的精度和召回值;点(1.0,0.2)暗示,平均来看,20%的图像像素属于基准显著区域。在另一个端点,我们的方法的最小召回值要比其它方法的大,因为通过我们的方法计算出的显著性图更平滑并且包含了更多显著值为255的像素。

显著性切割。我们接下来考虑使用计算的显著性图像来帮助显著物体分割。显著图过去就被用来分割非监督物体:Ma 和Zhang[21]通过在他们的显著性图中进行模糊区域扩增发现了矩形的显著区域。Ko 和Nam[18]使用了一种在图像分割特征上训练的支持矢量机器来选择显著的区域,然后聚集这些区域来提取显著的物体。Han 等人[13]用颜色、纹理和边缘特点建立马尔可夫随机场模型,以此从显著图的种子值中获取到显著性物体区域。更近一点,Achanta 等人[2]在由均值偏移法分割产生的分割图像中对显著值进行平均,然后通过识别分割图像来发现显著的目标,这些图像区域具有的平均显著值高于整幅图像均值显著值两倍大小的阈值。

在我们的方法中,我们反复的应用GrabCut 方法来改善最初由阈值化的显著性图像得到的分割结果(见图8)。传统GrabCut 方法是由人工选中矩形区域进行初始化操作,而我们使用固定的阈值二值化后的显著性图像得到的分割图像来自动地初始化GrabCut ,这个阈值是从我们的固定阈值实验中凭经验选出来的能够得到95%的召回率的阈值。

图8 显著性区域切割。(从左到右依次是)首次分割图、第一次迭代后的子分割图、第二次迭代后的子分割图、最终分割图,人工标记的基准数据。在分割的图像中,蓝色是前景,灰色是背景;在子分割图中,前景是红色,背景是绿色。未知区域没做改动。

一旦初始化了,我们反复的运行GrabCut 方法来改善显著性切割结果(在我们的实验中至多进行四次迭代)。每次迭代过后,我们通过膨胀腐蚀方法作用于当前分割结果,以此得到一个用于下一个GrabCut 迭代的子分割图Trimap 。如图8所示,膨胀后仍然落在外面的区域被设置为背景,在被腐蚀的区域内的区域被设置为前景,剩下的部分被设置为子分割图的未知区域。GrabCut ,其自身就是一个使用高斯模型和图片切割法的迭代过程,在每一个步骤中都帮助改善显著的图像目标区域。更靠近初始显著性物体的福分比距离远的更容易成为那个显著性物体的一部分。因此,我们的新初始化使GrabCut

包含附近的显著性区域并且依

照颜色特点差异排除非显著区域成为可能。在实施过程中,我们设置一个狭窄边界区域(15个像素宽)一直存在于背景中,为的是提高边界区域的收敛速度。

图8展示了两个我们的基于视觉显著性的图像分割算法的例子。在旗帜的例子中,在GrabCut 的迭代期间,不想要的区域被准确的排除在外。在花朵的例子中,我们的显著性切割方法成功地将最初的显著区域扩大(直接从显著性图像目标中获得)并且收敛得到一个精确的分割结果。

为了客观地评估我们用RC-map 作为初始值的新显著性切割方法,我们将我们的结果与由结合迭代GrabCut 方法得到的结果相比较,后者采用的初始值是从由其它方法计算得到的显著性图像中得到的。为了一致性,我们使用在相应的固定阈值实验(见图7)中得到95%召回率的阈值将每个这种显著性图像二值化。图9显示出了结果的视觉比较。平均精度precision 、召回率Recall 和F-measure 在整个基准数据库中进行比较,其中F-measure 被定义如下:

(1+β2)Pr ecision ⨯Re call (8) F β =β2⨯Pr ecision +Recall

我们使用Achanta 等人建议的β2=0.3,相对召回率来更多的加权精度。从比较结果(见图7右和图9)中可以看出,使用我们的RC 和HC 显著图进行的显著区域分割要明显优于其他方法。与数据库中由Achanta 等人得到的最先进的结果(precision = 75%, recall = 83%)相比较,我们结果的准确性更高(precision = 90%, recall =90%)(演示程序可以在项目网页中找到。)

图9 用不同的显著图作为初值的显著性切割结果。相应的显著图在图6中。

内容感知图像缩放。在图像重新定位中,显著图常常被用来指定图像部分的相对重要区域(也可以见图3)。我们尝试将我们的显著图用于Zhang 等人提出的图像缩放方法2中,其方法分散变形能量于图像中的相对不显著区域,然而保留全局和局部图像特征(使用公开可用的作者的实施方法)。图10比较了使用我们的RC-maps 和使用CA[12]显著图的缩放结果。我们的RC 显著图能产生更好的缩放结果,因为显著目标区域是分段光滑的,这对于基于能量的缩放方法是重要的。CA 显著图在目标边界具有更高的显著值,这不太适于像缩放这样的应用,由于这些应用需要整个显著性物体被一致突出。

图10使用CA[12]显著图和我们的RC 显著图的内容敏感图像缩放[33]结果的对比 非真实感渲染。艺术家常常抽象化图像,突出图像中有意义的部分同时掩蔽掉不重要的区域[31]。受此启发,一系列用显著值进行非真实感渲染(NPR )的方法产生并且产生有趣的效果[7]。我们尝试性地将我们的工作与在最近NPR 技术[16]背景下最相关的、最先进的显著性检测算法[2]相比较(见图11)。我们的RC-maps 得到更好的显著性掩饰,这帮助NPR 方法更好的保留重要的图像部分和区域边界中的细节,而掩蔽掉其他的部分。

图11 (中,右)FT 和RC 显著图分别以风格化渲染输入图像(左)。我们的方法生成更好的显著图,见插图,在投和栅栏周围产生改进的细节保留等。

图12 这是具有挑战性的例子,基于我们的直方图的方法涉及用相似颜色作为显著部位的非显著区域(顶部),或者一个使用纹理背景的图像(底部)。(从左到右依次是)输入图像,HC-map ,HC 显著性切割图、RC-map ,RC 显著性切割图。

6 总结和展望

我们提出了基于全局对比度的显著性计算方法,也就是直方图对比度法(HC

和基于空间信息增强的区域对比度法(RC )。HC 方法是高效的,并且产生的结果具有精细的细节;RC 方法生成空间增强的高质量显著图,但是计算效率相对较低。我们在最大的公开数据集上测试了我们的方法并且将我们的方案与其他八种最先进的方法进行比较。实验表明,提议的方案在精度和召回率两个方面都优越,而且简单又高效。

在未来,我们打算研究能够将空间关系与显著性图像计算结合同时保留结果显著图中的细节的高效算法。同时,这需要研究能处理杂乱纹理背景的显著性检测算法,以克服这类背景在我们的全局直方图方法中引入的缺陷(尽管我们没有在数据库中遇到这样的图像)。最后,整合类似人脸、对称性等高水平元素到显著图中可能更有利。我们相信我们提出的显著性图可以用于高效的目标检测[13],可靠的图像分类,提高图像检索效果。

参考文献

[1] R. Achanta, F. Estrada, P. Wils, and S. S¨usstrunk. Salientregion detection and segmentation. In ICVS, pages 66–75.Springer, 2008. 2, 4, 6

[2] R. Achanta, S. Hemami, F. Estrada, and S. S¨usstrunk.Frequency-tuned salient region detection. In CVPR, pages1597–1604, 2009. 1, 2, 4, 5, 6, 7

[3] R. Achanta and S. Susstrunk. Saliency Detection for Content-aware Image Resizing. In ICIP, 2009. 7

[4] T. Chen, M.-M. Cheng, P. Tan, A. Shamir, and S.-M.Hu. Sketch2photo: Internet image montage. ACM TOG,28(5):124:1–10, 2009. 1

[5] C. Christopoulos, A. Skodras, and T. Ebrahimi. The JPEG2000 still image coding system: an overview. IEEE Trans. on Consumer Electronics, 46(4):1103–1127, 2002. 1

[6] D. DeCarlo and A. Santella. Stylization and abstraction of photographs. ACM TOG, 21(3):769–776, 2002. 7

[7] R. Desimone and J. Duncan. Neural mechanisms of selective visual attention. Annual review of neuroscience, 18(1):193–222, 1995. 1

[8] W. Eihhauser and P. Konig. Does luminance-constrast contribute to a saliency map for overt visual attention? European Journal of Neuroscience, 17:1089–1097, 2003. 4

[9] P. Felzenszwalb and D. Huttenlocher. Efficient graph-based image segmentation. IJCV, 59(2):167–181, 2004. 4, 5

[10] S. Goferman, L. Zelnik-Manor, and A. Tal. Context-aware saliency detection. In CVPR, pages 2376–2383, 2010. 2, 4, 5, 6, 7

[11] J. Han, K. Ngan, M. Li, and H. Zhang. Unsupervised extraction of visual attention objects in color images. IEEE TCSV,16(1):141–145, 2006. 1, 6

[12] J. Harel, C. Koch, and P. Perona. Graph-based visual saliency. Advances in neural information processing systems,19:545, 2007. 2, 4, 6

[13] X. Hou and L. Zhang. Saliency detection: A spectral residual approach. In CVPR, pages 1–8, 2007. 2, 4, 5, 6

[14] H. Huang, L. Zhang, and T.-N. Fu. Video painting via motion layer manipulation. Comput. Graph. Forum, 29(7):2055–2064, 2010. 7

[15] L. Itti, C. Koch, and E. Niebur. A model of saliency-based visual attention for rapid scene analysis. IEEE TPAMI,20(11):1254–1259, 1998. 1, 2, 4, 6

[16] B. Ko and J. Nam. Object-of-interest image segmentation based on human attention and semantic region clustering. JOpt Soc Am, 23(10):2462, 2006. 1, 6

[17] C. Koch and S. Ullman. Shifts in selective visual attention: towards the underlying neural circuitry. Human Neurbiology,4:219–227, 1985. 1, 2

[18] T. Liu, Z. Yuan, J. Sun, J. Wang, N. Zheng, X. Tang, and H. Shum. Learning to detect a salient object. In CVPR,pages 1–8, 2007. 2

[19] Y.-F. Ma and H.-J. Zhang. Contrast-based image attention analysis by using fuzzy growing. In ACM Multimedia, pages374–381, 2003. 2, 4, 6

[20] S. K. Mannan, C. Kennard, and M. Husain. The role of visual salience in directing eye movements in visual object agnosia.Current biology, 19(6):247–248, 2009. 1

[21] J. Reynolds and R. Desimone. Interacting roles of attention and visual salience in v4. Neuron, 37(5):853–863, 2003. 1

[22] C. Rother, V. Kolmogorov, and A. Blake. “Grabcut”– Interactive foreground extraction using iterated graph cuts. ACMTOG, 23(3):309–314, 2004. 5, 6

[23] U. Rutishauser, D. Walther, C. Koch, and P. Perona. Is bottom-up attention useful for object recognition? In CVPR,pages II: 37–44, 2004. 1

[24] H. Teuber. Physiological psychology. Annual Review of Psychology,6(1):267–296, 1955. 1

[25] A. M. Triesman and G. Gelade. A feature-integration theory of attention. Cognitive Psychology, 12(1):97–136, 1980. 1

[26] J. M. Wolfe and T. S. Horowitz. What attributes guide the deployment of visual attention and how do they do it? Nature Reviews Neuroscience, pages 5:1–7, 2004. 1

[27] O. S. Yu-Shuen Wang, Chiew-Lan Tai and T.-Y. Lee. Optimized scale-and-stretch for image resizing. ACM Trans.Graph., 27(5), 2008. 1

[28] S. Zeki. Inner vision: An exploration of art and the brain.Oxford University Press, 1999. 7

[29] Y. Zhai and M. Shah. Visual attention detection in video sequences using spatiotemporal cues. In ACM Multimedia,pages 815–824, 2006. 2, 3, 4, 5, 6, 7

[30] G.-X. Zhang, M.-M. Cheng, S.-M. Hu, and R. R. Martin.A shape-preserving approach to image resizing. Comput. Graph. Forum, 28(7):1897–1906, 2009. 1, 7

[31] Y.-F. Zhang, S.-M. Hu, and R. R. Martin. Shrinkability maps for content-aware video resizinresizing. Comput. Graph. Forum,27(7):1797–1804, 2008. 1

译文原文出处:Cheng Ming-Ming, Zhang Guo-Xin, Niloy J.Mitra, Huang Xiaolei, Hu Shi-Min. Global Contrast based Salient Region Detection. IEEE Conference on Computer Vision and Pattern Recognition,2011.

附件C :译文

基于全局对比度的显著性区域检测

Ming-Ming Cheng1 Guo-Xin Zhang1 Niloy J. Mitra2 Xiaolei Huang3 Shi-Min Hu 1

1 TNList, Tsinghua University 2 KAUST 3 Lehigh University

摘要

视觉显著性的可靠估计能够实现即便没有先验知识也可以对图像适当的处理,因此在许多计算机视觉任务中留有一个重要的步骤,这些任务包括图像分割、目标识别和自适应压缩。我们提出一种基于区域对比度的视觉显著性区域检测算法,同时能够对全局对比度差异和空间一致性做出评估。该算法简易、高效并且产出满分辨率的显著图。当采用最大的公开数据集进行评估时,我们的算法比已存的显著性检测方法更优越,具有更高的分辨率和更好的召回率。我们还演示了显著图是如何可以被用来创建用于后续图像处理的高质量分割面具。

1 引言

人们经常毫不费力地判断图像区域的重要性,并且把注意力集中在重要的部分。由于通过显著性区域可以优化分配图像分析和综合计算机资源,所以计算机检测图像的显著性区域存在着重要意义。提取显著图被广泛用在许多计算机视觉应用中,包括对兴趣目标物体图像分割[13, 18]、目标识别[25]、图像的自适应压缩[6]、内容感知图像缩放[28, 33,30, 9]和图像检索[4]等。

显著性源于视觉的独特性、不可预测性、稀缺性以及奇异性,而且它经常被归因于图像属性的变化,比如颜色、梯度、边缘和边界等。视觉显著性是通过包括认知心理学[26, 29]、神经生物学[8, 22]和计算机视觉[17, 2]在内的多学科研究出来的,与我们感知和处理视觉刺激密切相关。人类注意力理论假设人类视力系统仅仅详细处理了部分图像,同时保持其他的图像基本未处理。由Treisman 和Gelade [27],Koch 和Ullman [19]进行的早期工作,以及随后由Itti ,Wolfe 等人提出的注意力理论提议将视觉注意力分为两个阶段:快速的、下意识的、自底向

上的、数据驱动显著性提取;慢速的、任务依赖的、自顶向下的、目标驱动显著

性提取。

我们通过图像对比度来关注自底向上的数据驱动显著性检测。人们普遍认为,人类大脑表皮细胞在其接受域可能是硬编码的,为的是优先响应高对比度刺激

[21]。基于以下观察结果,我们提出了对提取的高分辨率全局显著图的对比度分析:

● 基于全局对比度的方法能够将一个大规模目标从它周围的环境

中分离出来,相对于只在轮廓附近产生高显著值的基于局部对比度的方法更优越。

● 全局考虑能够实现将相近的显著值分配到相似的图像区域,并且

可以均匀的突出整个目标。

● 一个区域的显著性主要依靠它与相近区域的对比度,而与远区域

的对比度相对没有那么重要。

● 显著图应该是能够简单快速的生成,为了实现大图像集合的处理

和促进图像分级与检索的高效率进行。

我们提出了一种基于直方图对比度的方法(HC )来测量显著性。HC-maps 依据与所有其它图像像素的色彩差异来分配像素显著值,以此来产生全分辨率的显著图。我们使用直方图的方法来高效处理,同时使用一种平滑操作来控制量化缺陷。值得注意的是我们的算法是针对自然场景,对高纹理图像场景可能要弱些(见图12)。

图1 输入图像(上),经全局对比度分析得到的高分辨率的显著图(中),显著图可以进一步被用来产生感兴趣物体区域(下)

作为HC-map 的改进,我们结合空间关系创造出了基于区域对比度的(RC )显著性图,我们首先把输入的图像分割为数区域,然后赋予他们显著值。现在一个区域的显著值是通过全局对比度值来计算的,

全局对比度值是通过此区域与图

像中的其他区域的对比以及与其他区域的空间距离来度量。

我们在公开的基准数据集上广泛地评估我们的方法,并且将我们的方法与最先进显著性方法[17, 21, 32, 14, 15, 1, 2, 12]以及人工标注的参考数据进行对比1。实验表明,我们的方法比以往的方法在精度和召回率上都具有明显的改进。总的来说,与HC-map 相比,RC-map 具有更高的精度和召回率,不过是以增加计算量为代价的。令人欣慰的是,我们注意到用我们的显著图提取的显著性分割在绝大多数情况下是符合人工注释的。我们也呈现了显著图在图像分割、内容感知图像缩放和非真实感渲染中的应用。

2 相关工作

我们主要关注把下意识的自底向上的显著性检测作为目标的相关文献,这可能是基于生物学激励,或者是纯粹的计算,抑或是兼顾这两个方面。这些个方法利用低水平的处理来决定图像目标与它们周围的对比度,用到了像亮度、颜色和边缘这样的特征属性。我们把这些算法概括得分为局部方案和全局方案。

基于局部对比度的方法研究图像区域相对于局部邻域相关的稀有度。Koch 和Ullman [19]提出的早期模型受到生物学激励的高度影响,在这个基础上Itti 等人[17]用贯穿多尺度图像特征的中心-周围差异来定义图像目标显著性。Ma 和Zhang [21]提出了一种可供选择的局部对比度分析法来产生显著性图图像,后来通过模糊增长模型被扩充。Harel 等人[14]将Itti 等人的特征图进行标准化来突出显著部分,并且允许和其它重要的显著图像组合。Liu 等人[20]通过将高斯图像金子塔中的对比度线性地组合找到多尺度对比度。最近更多,Goferman 等人[12]同时地做出局部底层线索模型、全局考虑模型、视觉组织规则模型和表层特征模型来强调显著的目标随同其环境。这些使用局部对比度的方法趋向于产生边缘附近的更高显著值,而非一致地强调显著的目标(见图 2)。

图2 (b-i )是由不同的最先进方法计算出的显著图,(j )和(k )分别是我们提出的HC 和RC 方法得到的显著图。绝对多数结果突出了边缘或者低分辨率。也可见图6(以及项目网页)。

基于全局对比度的方法,通过与整体图像的对比度评估一个图像区域的显著性。Zhai 和Shah [32]

通过某个像素与其他所有像素的对比度较来定义像素级显

著性。然而,出于效率考虑,他们仅仅使用亮度信息,因此忽略其它渠道中与众不同的线索。Achanta 等人提出一个谐频的方法,直接使用与平均图像颜色之间的色差来定义像素显著性。然而,这个方法仅仅考虑了一阶平均颜色,并不能充分地分析自然图像中常见的复杂变量。在图6和图7中,我们展示出这些方法中定性的和定量的缺陷。此外,这些方法忽视了图像各部分之间的空间关系,而这个因素是可以对可靠的和一致的显著性探测产生决定性作用的。

3 基于直方图的对比度

生物学视力系统对于视觉信号的对比度很敏感,在对这个生物学视力观察的基础上,我们提出了一种直方图对比度方法(Histogram Contrast, HC)来为用输入图像颜色统计特征的图像像素定义显著值。明确说是,一个像素的显著值是通过与图像中的所有其它像素的色差来定义的。比如,图像I 中的像素I k 的显著值被

定义如下:

S (I k ) =

∀I i ∈I ∑D (I , I ) , (1) k i

其中D (I k , I i ) 是空间L*a*b中的像素I k 和I i 之间的颜色距离度量。方程1经

过扩展像素等级得到以下形式,

S (I k ) =D (I k , I 1) +D (I k , I 2) +⋅⋅⋅+D (I k , I N ) , (2) 其中N 是图像I 中的像素数量。很容易察觉在这种定义之下,由于测量没有考虑空间关系,同样颜色值的像素具有相同的显著值。因此,从具有相同颜色值c j 的像素被组合在一起的角度重新整理方程2,我们就得到每个颜色的显著值如

下,

n

S (I k ) =S (c l ) =∑f j D (c l , c j ) , (3)

j =1

其中,c l 是像素I k 中的颜色值,n 是不同像素颜色的数量,f j 是图像I 中像

素颜色c j 出现的频率。需要注意的是,为了避免显著区域颜色统计受到其他区域

相似颜色的破坏,可以使用变化的窗口面具来开发一个相似的方案。然而,考虑到高效率的要求,我们使用简单的全局方法。

基于直方图的加速。如果简简单单的使用方程1来评估每个图像像素的显著值的话,所花的时间O (N 2) 算起来即使针对中等大小的图像也是很多的。然而如果采用方程式3中的等价的表示形式,所花的时间是O (N ) +O (n 2) ,意味着如果O (n 2) ≤O (N ) ,那么计算效率可以被提高到O (N ) 。因此,加快速度的关键在于

减少图像中的像素数目。然而,真彩色空间包含了2563种可能的颜色,这比图像的像素数量要多的多。

Zhai 和Shah [32]仅仅使用亮度来减少颜色的数目n 。用这种方法,n 2=2562(显然,2562

图3 输入图像(左),我们计算出图像的颜色直方图(中)。直方图中每一个bin 对应的颜色显示在下方的条形中。量化后的图像(右)仅仅使用了43种直方图bin 色彩并且依然保留了显著性检测所需的足够的视觉质量。

颜色空间平滑。 尽管通过使用颜色量化和选取高频颜色来建立紧凑的颜色直方图我们可以高效率地计算出颜色对比度,但是量化本身可能带入瑕疵。一些相似的颜色可能被数量化为不同的值。为了减少这类由于随机性给显著结果引入的噪声,我们采取一套平滑程序来改善每个颜色的显著值。我们用相似颜色的显著值加权平均来代替每个颜色(以L*a*b*距离测量)的显著值。实际上这是一个对颜色特征空间的平滑处理。我们选择m=n/4个最近的颜色作为代表来改善颜色c 的显著值,如下:

1S '(c ) =(m 1) T

m ∑(T i =1m D (c , c i )) S (c i ) , (4) 其中,T =∑i =1D (c , c i ) 是颜色c 和它的m 个最近的颜色c i 之间的距离之和,

归一化因数来自公式∑i =1(T

线性变化的平滑权值(T m D (c , c i )) =(m 1) T 。值得注意一下,我们使用一个D (c , c i )) 来为颜色特征空间中与c 相近的颜色赋予较大的权值。在我们的实验中,

我们发现这样的线性变化的权值比衰减过于剧烈的高

斯权值要好。图4是颜色空间平滑后的效果,按显著值降序排列。注意,相似的柱状图在经过平滑过后彼此非常相近,这表明相似的颜色更可能来被赋予相似的显著值,因此减少了量化的瑕疵(见图7)。

图4 颜色空间平滑前(左)、后(右)每种颜色的显著性值(归一化为范围[0,1])。相应的显著图显示在相应的插图中。

实现细则。为了把颜色空间量化为123种不同的颜色,我们同样把每个颜色通道分为12个不同标准。尽管对于颜色的量化是在RGB 颜色空间中进行的,但是为了与人类感知更加符合,我们在L*a*b*的颜色空间中测量颜色的距离。然而,我们没直接在L*a*b*的颜色空间中进行量化,因为不是所有在范围L*∈[0,100],a*,b*∈[-127,127]中的颜色都与实际颜色必然对应。实验中,我们观察到使用直接的L*a*b*颜色空间量化得到较差的效果。通过在RGB 颜色空间中量化,而在L*a*b*的颜色空间中测量距离,我们得到最好的结果,然而,无论单独在RGB 颜色空间或单独在L*a*b*颜色空间中同时进展量化和距离计算,都得到最差的结果。

图 5 通过Felzenszwalb 和Huttenlocher 的分割方法[11]产生的图像区域(左一),基于区域对比的带距离加权分割图像(左二)、基于区域对比的不带距离加权分割图像(右二)。整合空间内容,我们得到一个高质量的显著性切割图(右一),能比得上人工分割结果。

4 基于区域的对比度

人们对于与周围环境具有强烈对比的那些图像目标区域更注意。除了对比度,空间关系也在人类注意力中扮演了重要角色。通常一个目标区域的显著性,与周围目标区域的高对比度要比与远处目标区域的高对比度更显著。既然当计算像素等级对比度时直接引入空间关系算起来很耗时,

我们引进了一个对比度分析方法:

区域对比度(Region Contrast, RC),为的是将空间关系整合到区域等级对比度计算当中。在RC 当中,我们首先把输入图像分割成数个目标区域,然后计算区域等级上的颜色对比度,并且用这个区域与图像中其他目标区域对比度的加权和为每个区域定义显著性。权值的设置是依照区域空间距离来的,空间距离较远的目标区域被赋予较小的权值,

由稀疏直方图对比得到区域对比度。我们首先使用一种基于图形的图像分割方法把输入图像分割为数个区域[11]。然后我们采用第3部分的方式为每个区域建立颜色直方图。对于一个区域r k ,我们通过测量其与图像中的其他区域的颜色

对比度来计算它的显著值,如下:

(5) S (r k ) =∑w (r i ) D r (r k , r i ) ,

r k ≠r i

其中w (r i ) 是区域r i 的权值,D r (r k , r i ) 是两个区域间的颜色距离度量。这里我们使用r i 中的像素数目w (r i ) 来强调与更大区域的颜色对比度。区域r 1和r 2之间的颜色距离被定义如下:

D r (r 1, r 2) =∑∑f (c 1, i ) f (c 2, j ) D (c 1, i , c 2, j ) (6)

i =1j =1n 1n 2

其中f (c k , i ) 是第i 个颜色c k , i 在第k 个区域r k 中的所有的n k 个颜色中的出现

频率。注意,我们使用一个颜色出现在这个区域中的频率作为这个颜色的权值,来更多的反映这个颜色与主要颜色之间的差别。

由于每个区域只包含整个图像的颜色直方图里的一小部分颜色,因此为每个区域存储和计算正则矩阵是低效率的。我们使用一个稀疏直方图表示法来高效的存储和计算。

空间加权的区域对比度。通过在方程式5中引入的一个空间加权条款,我们进一步包含空间信息,以此来增加较近区域的影响并减少较远区域的影响。特别地,对于任何区域r k ,基于空间加权区域对比度的显著性是这样定义的:

S (r k ) =∑exp(-D s (r k , r i ) /σs 2) w (r i ) D r (r k , r i ) (7)

r k ≠r i

其中,D s (r k , r i ) 是区域r k 和区域r i 之间的空间距离,σs 控制空间权值的强度。越大的σs 值越能减少空间权值的影响,使得较远的区域更有助于当前区域的显著性值。两个区域之间的空间距离被定义为与各自区域的重心之间的欧几里得距离。在我们的试验中,我们使用σs 2=0.4,其像素坐标归一化为[0,1]。

5 实验比较

我们用由Achanta 等人[2]提供的公开数据集评估了我们方法得到的结果。这是我们所知道的最好的数据库,这一套数据库是那一类中最大的,并且拥有人类精确标注了的显著性区域。我们比较了所提出的基于全局对比度方法和现今最先进的显著性检测方法。紧接着[2],我们依据以下来选择其他方法进行对比:引证的数量(IT[15] and SR[13]),新近(GB[12], SR, AC[1],FT[2] and CA[10]),种类(IT 是生物学激励,MZ 是纯粹计算的,GB 是混合法,ST 在频域进行处理,AC 和FT 输出全分辨率显著性图),还有与我们的方法接近的(LC[32])。

我们用我们的方法和其他方法计算数据库中所有1000张图片得到了显著性图。表1比较了每种方法所用的平均时间。我们的算法HC 和RC 是用C++做的。对于其他方法,即IT 、GB 、SR 、FT 和CA ,我们用作者的实现方法,而对于LC 这种算法,由于我们没有找到作者的实现方法,我们是用C++来实现的。对于典型的自然图像,我们的HC 方法需要O(N)的计算时间,这对于实时应用是足够高效率的。比较起来,我们的RC 转化要慢一点,由于它需要图像分割[11],

表1 通过Achanta 等人的方法计算数据库中图像的显著图所用的平均时间。数据库(见项目网页)中绝大部分图像的分辨率为400 300。用一个双核2.6GHz 和2GB RAM的机器对算法进行了测试。

图7 在1000张公开基准图像上经过各种方法得到的显著图经过简单阈值分割得到结果的精度-召回曲线。(左,中)我们的方法中的不同选项与GB[12], MZ[19], FT[2], IT[15], SR[13], AC[1], CA[10], and LC[29]的对比。NHC 表示出我们禁用颜色空间平滑的HC 方法

的天然版本,NRC 表示出我们的禁用空间加权的RC 方法。(右)精度-召回柱状图展示我们的显著性切割算法,使用的是不同的显著图作为初始值。我们的方法RC 显示出1000个图像数据库中的高查准率、高精度和高F β值。(请参考项目网页寻求相应的结果图像。)

为了全面地评估我们用于显著性图像分割的方法的精确度,我们采用不同的客观比较措施来进行两个实验。在第一个实验中,为了分割显著的目标并且计算精度和召回率曲线,我们使用了每一种可能的固定阈值将显著性目标进行二值化,类似于[2]中的固定阈值法实验。在第二个实验中,我们反复迭代应用GrabCut 算法来分割显著的目标,算法是使用定限的显著性图像来初始化的。我们也采用得到的显著性图作为调整内容敏感的图像缩放和非真实感渲染的重要的权值。

通过固定阈值分割。得到显著目标图像的二值分割图的最简单方法是设定阈值T f ∈[0,255]来限定显著性目标图像。为了可靠的比较各种显著性检测方法高

亮显著性物体的效果,我们设定阈值T f 的值在0到255之间变化。图7显示出

精度召回率曲线结果。我们也介绍了加入颜色空间平滑和空间加权方案的好处,连同与其他显著性目标提取方法的客观比较。各种方法所得到的显著性图的视觉比较可以在图2和图6中看出。

图6 显著图的视觉比较。(a )原始图像,通过以下方法得到的显著图:(b )Zhai and Shah ,(c )Goferman 等人,(d) Achanta等人,(e) 我们的HC 方法,(f)我们的 RC方法,(g )基于RC 的显著性切割结果。我们的方法生成均匀突出的显著性区域(见项目网页中全基准数据集中的所有结果)

精度和召回率曲线清楚地说明我们的方法要比其他八种方法优越。曲线端点是有趣的:在最大召回率处T f =0

,所有的像素都保持正数,被认为是前景,因

此所有的方法具有相同的精度和召回值;点(1.0,0.2)暗示,平均来看,20%的图像像素属于基准显著区域。在另一个端点,我们的方法的最小召回值要比其它方法的大,因为通过我们的方法计算出的显著性图更平滑并且包含了更多显著值为255的像素。

显著性切割。我们接下来考虑使用计算的显著性图像来帮助显著物体分割。显著图过去就被用来分割非监督物体:Ma 和Zhang[21]通过在他们的显著性图中进行模糊区域扩增发现了矩形的显著区域。Ko 和Nam[18]使用了一种在图像分割特征上训练的支持矢量机器来选择显著的区域,然后聚集这些区域来提取显著的物体。Han 等人[13]用颜色、纹理和边缘特点建立马尔可夫随机场模型,以此从显著图的种子值中获取到显著性物体区域。更近一点,Achanta 等人[2]在由均值偏移法分割产生的分割图像中对显著值进行平均,然后通过识别分割图像来发现显著的目标,这些图像区域具有的平均显著值高于整幅图像均值显著值两倍大小的阈值。

在我们的方法中,我们反复的应用GrabCut 方法来改善最初由阈值化的显著性图像得到的分割结果(见图8)。传统GrabCut 方法是由人工选中矩形区域进行初始化操作,而我们使用固定的阈值二值化后的显著性图像得到的分割图像来自动地初始化GrabCut ,这个阈值是从我们的固定阈值实验中凭经验选出来的能够得到95%的召回率的阈值。

图8 显著性区域切割。(从左到右依次是)首次分割图、第一次迭代后的子分割图、第二次迭代后的子分割图、最终分割图,人工标记的基准数据。在分割的图像中,蓝色是前景,灰色是背景;在子分割图中,前景是红色,背景是绿色。未知区域没做改动。

一旦初始化了,我们反复的运行GrabCut 方法来改善显著性切割结果(在我们的实验中至多进行四次迭代)。每次迭代过后,我们通过膨胀腐蚀方法作用于当前分割结果,以此得到一个用于下一个GrabCut 迭代的子分割图Trimap 。如图8所示,膨胀后仍然落在外面的区域被设置为背景,在被腐蚀的区域内的区域被设置为前景,剩下的部分被设置为子分割图的未知区域。GrabCut ,其自身就是一个使用高斯模型和图片切割法的迭代过程,在每一个步骤中都帮助改善显著的图像目标区域。更靠近初始显著性物体的福分比距离远的更容易成为那个显著性物体的一部分。因此,我们的新初始化使GrabCut

包含附近的显著性区域并且依

照颜色特点差异排除非显著区域成为可能。在实施过程中,我们设置一个狭窄边界区域(15个像素宽)一直存在于背景中,为的是提高边界区域的收敛速度。

图8展示了两个我们的基于视觉显著性的图像分割算法的例子。在旗帜的例子中,在GrabCut 的迭代期间,不想要的区域被准确的排除在外。在花朵的例子中,我们的显著性切割方法成功地将最初的显著区域扩大(直接从显著性图像目标中获得)并且收敛得到一个精确的分割结果。

为了客观地评估我们用RC-map 作为初始值的新显著性切割方法,我们将我们的结果与由结合迭代GrabCut 方法得到的结果相比较,后者采用的初始值是从由其它方法计算得到的显著性图像中得到的。为了一致性,我们使用在相应的固定阈值实验(见图7)中得到95%召回率的阈值将每个这种显著性图像二值化。图9显示出了结果的视觉比较。平均精度precision 、召回率Recall 和F-measure 在整个基准数据库中进行比较,其中F-measure 被定义如下:

(1+β2)Pr ecision ⨯Re call (8) F β =β2⨯Pr ecision +Recall

我们使用Achanta 等人建议的β2=0.3,相对召回率来更多的加权精度。从比较结果(见图7右和图9)中可以看出,使用我们的RC 和HC 显著图进行的显著区域分割要明显优于其他方法。与数据库中由Achanta 等人得到的最先进的结果(precision = 75%, recall = 83%)相比较,我们结果的准确性更高(precision = 90%, recall =90%)(演示程序可以在项目网页中找到。)

图9 用不同的显著图作为初值的显著性切割结果。相应的显著图在图6中。

内容感知图像缩放。在图像重新定位中,显著图常常被用来指定图像部分的相对重要区域(也可以见图3)。我们尝试将我们的显著图用于Zhang 等人提出的图像缩放方法2中,其方法分散变形能量于图像中的相对不显著区域,然而保留全局和局部图像特征(使用公开可用的作者的实施方法)。图10比较了使用我们的RC-maps 和使用CA[12]显著图的缩放结果。我们的RC 显著图能产生更好的缩放结果,因为显著目标区域是分段光滑的,这对于基于能量的缩放方法是重要的。CA 显著图在目标边界具有更高的显著值,这不太适于像缩放这样的应用,由于这些应用需要整个显著性物体被一致突出。

图10使用CA[12]显著图和我们的RC 显著图的内容敏感图像缩放[33]结果的对比 非真实感渲染。艺术家常常抽象化图像,突出图像中有意义的部分同时掩蔽掉不重要的区域[31]。受此启发,一系列用显著值进行非真实感渲染(NPR )的方法产生并且产生有趣的效果[7]。我们尝试性地将我们的工作与在最近NPR 技术[16]背景下最相关的、最先进的显著性检测算法[2]相比较(见图11)。我们的RC-maps 得到更好的显著性掩饰,这帮助NPR 方法更好的保留重要的图像部分和区域边界中的细节,而掩蔽掉其他的部分。

图11 (中,右)FT 和RC 显著图分别以风格化渲染输入图像(左)。我们的方法生成更好的显著图,见插图,在投和栅栏周围产生改进的细节保留等。

图12 这是具有挑战性的例子,基于我们的直方图的方法涉及用相似颜色作为显著部位的非显著区域(顶部),或者一个使用纹理背景的图像(底部)。(从左到右依次是)输入图像,HC-map ,HC 显著性切割图、RC-map ,RC 显著性切割图。

6 总结和展望

我们提出了基于全局对比度的显著性计算方法,也就是直方图对比度法(HC

和基于空间信息增强的区域对比度法(RC )。HC 方法是高效的,并且产生的结果具有精细的细节;RC 方法生成空间增强的高质量显著图,但是计算效率相对较低。我们在最大的公开数据集上测试了我们的方法并且将我们的方案与其他八种最先进的方法进行比较。实验表明,提议的方案在精度和召回率两个方面都优越,而且简单又高效。

在未来,我们打算研究能够将空间关系与显著性图像计算结合同时保留结果显著图中的细节的高效算法。同时,这需要研究能处理杂乱纹理背景的显著性检测算法,以克服这类背景在我们的全局直方图方法中引入的缺陷(尽管我们没有在数据库中遇到这样的图像)。最后,整合类似人脸、对称性等高水平元素到显著图中可能更有利。我们相信我们提出的显著性图可以用于高效的目标检测[13],可靠的图像分类,提高图像检索效果。

参考文献

[1] R. Achanta, F. Estrada, P. Wils, and S. S¨usstrunk. Salientregion detection and segmentation. In ICVS, pages 66–75.Springer, 2008. 2, 4, 6

[2] R. Achanta, S. Hemami, F. Estrada, and S. S¨usstrunk.Frequency-tuned salient region detection. In CVPR, pages1597–1604, 2009. 1, 2, 4, 5, 6, 7

[3] R. Achanta and S. Susstrunk. Saliency Detection for Content-aware Image Resizing. In ICIP, 2009. 7

[4] T. Chen, M.-M. Cheng, P. Tan, A. Shamir, and S.-M.Hu. Sketch2photo: Internet image montage. ACM TOG,28(5):124:1–10, 2009. 1

[5] C. Christopoulos, A. Skodras, and T. Ebrahimi. The JPEG2000 still image coding system: an overview. IEEE Trans. on Consumer Electronics, 46(4):1103–1127, 2002. 1

[6] D. DeCarlo and A. Santella. Stylization and abstraction of photographs. ACM TOG, 21(3):769–776, 2002. 7

[7] R. Desimone and J. Duncan. Neural mechanisms of selective visual attention. Annual review of neuroscience, 18(1):193–222, 1995. 1

[8] W. Eihhauser and P. Konig. Does luminance-constrast contribute to a saliency map for overt visual attention? European Journal of Neuroscience, 17:1089–1097, 2003. 4

[9] P. Felzenszwalb and D. Huttenlocher. Efficient graph-based image segmentation. IJCV, 59(2):167–181, 2004. 4, 5

[10] S. Goferman, L. Zelnik-Manor, and A. Tal. Context-aware saliency detection. In CVPR, pages 2376–2383, 2010. 2, 4, 5, 6, 7

[11] J. Han, K. Ngan, M. Li, and H. Zhang. Unsupervised extraction of visual attention objects in color images. IEEE TCSV,16(1):141–145, 2006. 1, 6

[12] J. Harel, C. Koch, and P. Perona. Graph-based visual saliency. Advances in neural information processing systems,19:545, 2007. 2, 4, 6

[13] X. Hou and L. Zhang. Saliency detection: A spectral residual approach. In CVPR, pages 1–8, 2007. 2, 4, 5, 6

[14] H. Huang, L. Zhang, and T.-N. Fu. Video painting via motion layer manipulation. Comput. Graph. Forum, 29(7):2055–2064, 2010. 7

[15] L. Itti, C. Koch, and E. Niebur. A model of saliency-based visual attention for rapid scene analysis. IEEE TPAMI,20(11):1254–1259, 1998. 1, 2, 4, 6

[16] B. Ko and J. Nam. Object-of-interest image segmentation based on human attention and semantic region clustering. JOpt Soc Am, 23(10):2462, 2006. 1, 6

[17] C. Koch and S. Ullman. Shifts in selective visual attention: towards the underlying neural circuitry. Human Neurbiology,4:219–227, 1985. 1, 2

[18] T. Liu, Z. Yuan, J. Sun, J. Wang, N. Zheng, X. Tang, and H. Shum. Learning to detect a salient object. In CVPR,pages 1–8, 2007. 2

[19] Y.-F. Ma and H.-J. Zhang. Contrast-based image attention analysis by using fuzzy growing. In ACM Multimedia, pages374–381, 2003. 2, 4, 6

[20] S. K. Mannan, C. Kennard, and M. Husain. The role of visual salience in directing eye movements in visual object agnosia.Current biology, 19(6):247–248, 2009. 1

[21] J. Reynolds and R. Desimone. Interacting roles of attention and visual salience in v4. Neuron, 37(5):853–863, 2003. 1

[22] C. Rother, V. Kolmogorov, and A. Blake. “Grabcut”– Interactive foreground extraction using iterated graph cuts. ACMTOG, 23(3):309–314, 2004. 5, 6

[23] U. Rutishauser, D. Walther, C. Koch, and P. Perona. Is bottom-up attention useful for object recognition? In CVPR,pages II: 37–44, 2004. 1

[24] H. Teuber. Physiological psychology. Annual Review of Psychology,6(1):267–296, 1955. 1

[25] A. M. Triesman and G. Gelade. A feature-integration theory of attention. Cognitive Psychology, 12(1):97–136, 1980. 1

[26] J. M. Wolfe and T. S. Horowitz. What attributes guide the deployment of visual attention and how do they do it? Nature Reviews Neuroscience, pages 5:1–7, 2004. 1

[27] O. S. Yu-Shuen Wang, Chiew-Lan Tai and T.-Y. Lee. Optimized scale-and-stretch for image resizing. ACM Trans.Graph., 27(5), 2008. 1

[28] S. Zeki. Inner vision: An exploration of art and the brain.Oxford University Press, 1999. 7

[29] Y. Zhai and M. Shah. Visual attention detection in video sequences using spatiotemporal cues. In ACM Multimedia,pages 815–824, 2006. 2, 3, 4, 5, 6, 7

[30] G.-X. Zhang, M.-M. Cheng, S.-M. Hu, and R. R. Martin.A shape-preserving approach to image resizing. Comput. Graph. Forum, 28(7):1897–1906, 2009. 1, 7

[31] Y.-F. Zhang, S.-M. Hu, and R. R. Martin. Shrinkability maps for content-aware video resizinresizing. Comput. Graph. Forum,27(7):1797–1804, 2008. 1

译文原文出处:Cheng Ming-Ming, Zhang Guo-Xin, Niloy J.Mitra, Huang Xiaolei, Hu Shi-Min. Global Contrast based Salient Region Detection. IEEE Conference on Computer Vision and Pattern Recognition,2011.


相关文章

  • 图像分割方法综述
  • 第31卷第6期世界科技研究与发展 V01.31No.6 2009年12月1074-1078页 WORLDSCI-TECHR&D Dee・2009 PP・1074-1078 图像分割方法综述宰 魏伟波潘振宽 (青岛大学信息工程学院,青 ...查看


  • 机器人室内定位技术说明书
  • 新型机器人室内定位技术 XXX软件研究所有限公司 一,技术背景 机器人六十年代,自第一台机器人装置诞生以来,机器人的发展经历了一个从低级到高级的发展过程.第一代机器人为示教再现型机器人,是通过计算机来控制多自主的机械装置,通过示教存储程序把 ...查看


  • 基于matlab的图像边缘检测算法研究
  • 本科毕业设计(论文) 检测算法研究 学 院:信息工程学院 专 业:自动化 学 号: 学生姓名: 指导教师: 二○一 年 五月 二十三日 题 目:基于matlab 的图像边缘 基于matlab 的图像边缘检测算法研究 摘要 图像的边缘检测技术 ...查看


  • 静态图像中的感兴趣区域检测技术
  • 第10卷 第2期2005年2月 中国图象图形学报Journal of I m age and Graphics Vol . 10, No . 2 Feb . , 2005 静态图像中的感兴趣区域检测技术 张 鹏 王润生 (国防科学技术大学A ...查看


  • 目标跟踪算法的研究
  • 西北工业大学本科毕业设计论文 目 录 摘 要 ................................................................................................. ...查看


  • 中国县域人均粮食占有量的时空格局
  • 第69卷第12期2014年12月 地理学报 ACTAGEOGRAPHICASINICA Vol.69,No.12December,2014 中国县域人均粮食占有量的时空格局 --基于户籍人口和常住人口的对比分析 李亚婷1,2,潘少奇2,苗长 ...查看


  • 多阈值图像分割
  • 多阈值图像分割概述 摘 要:多阈值分割是现代图像处理中不可或缺的一部分.它主要指通过设定多个阈值将图像中感兴趣的目标标记出来.阈值的选取非常关键,它关系到分割后的结果的好坏.Ostu 法也称之为最大类间法是多阈值图像分割中比较常用且完善的方 ...查看


  • 探索性空间数据分析模型研究_张学良
  • 2007年4月第29卷第2期 当代经济管理 CONTEMPORARYECONOMY&MANAGEMENT Apr.2007Vol.29No.2 ■ 理论研究 TheoriesResearch 探索性空间数据分析模型研究 张学良 (上 ...查看


  • 基于Matlab的图像阈值分割算法研究_李小琦
  • 基于Matlab的图像阈值分割算法研究 李小琦 ()武汉大学珞珈学院计算机科学系,湖北武汉406430 摘 要:重点讨论了图像分割法中的阈值研究法,包括全局阈值法和自适应阈值法.对全局阈值算法中的人工选择 法.迭代式阈值选择法.最大类间方差 ...查看


热门内容