行人检测和跟踪算法理论
行人检测是一个复杂的过程,行人检测框架包含多个组成部分,本章对其中的关键技术进行分析,如行人检测中的特征提取,对行人特征进行分类的分类器的选择以及主要的行人跟踪方法进行介绍。了解行人检测和跟踪方面的相关技术,为本文提出的行人检测及跟踪的方法提供理论依据。
2.1 行人检测关键技术
行人检测技术主要包含两个部分,行人检测时的特征提取和对行人进行识别分类的分类器。选取能够对行人准确描述的特征算子对快速准确的检测到行人至关重要,是行人检测中的关键技术,也是能够高效准确检测到行人的前提。选取合适的分类器对提取到的特征进行快速判别,准确的区分出行人与非行人并将行人识别出来又是行人检测技术的关键部分。
2.1.1 行人检测特征描述
行人检测特征描述是从图像中获取信息并进行信息分析的前期关键步骤。主要体现在特征描述子是否能够高效的描述被检测目标。特征一般是对图像的基本特征如颜色、纹理、边缘等进行组合分析,构建出更具表达能力的高级特征。
1. Haar-like 特征
Haar-like 特征是一种常用的特征描述算子,在计算机视觉领域有广泛的应用。它是由Papageorigiou 等人提出用于人脸检测的描述特征,后又延伸到诸如行人检测等许多方面都有不错的检测效果。常用的Haar-like 特征主要有线性特征、边缘特征、点特征、对角线特征。如下图所示:
Haar-like 特征只是选取了一些简单特征对目标特征进行描述,不能够对目标的特征全面表达,因此其识别程度不高。但haar 特征可以使用积分图进行快速计算,检测速度比较快,因此被广泛应用到检测检测行人等其他目标方面。
2. HOG 特征
方向梯度直方图(Histogram of Oriented Gradient, HOG)是由 Dalal在 2005提出的,特征通过计算和统计图像局部区域的梯度方向直方图来构成,在计算机图像处理中常作为描述物体的特征算子。HOG 特征描述算子的思想是:设定训练样本图像的大小为 64*128 像素,首先将训练样本分成小的连通区域,即细胞单元(cell),细胞单元的大小为 8*8 像素,这样在样本图像中细胞单元的个数为 8×16=128 个。然后分别采集细胞单元中各像素点的梯度或边缘的方向直方图。最后将这些直方图进行组合构成特征描述算子。
计算图像横坐标和纵坐标方向的梯度,并据此计算每个像素位置的梯度方向
值,图像中像素点(x,y)的梯度为:
G x (x,y) =H(x+1, y) -H(x-1, y)
G y (x,y) =H(x,y +1) -H(x,y -1)
其中G x (x,y) ,G y (x,y) ,H(x,y) ,G (x,y) 和α(x,y) 表示对原图像(x,y) 像素点处的水平方向梯度,垂直方向梯度和该像素点的像素值,该像素点的梯度幅度值以及该点的梯度方向。
对于划分后的每个细胞单元,细胞的大小为 8×8 像素。采用 9 个 bin 的直方图来统计这 8×8 个像素的梯度信息,也就是将细胞单元的梯度方向 360 度分成 9个方向块。对细胞单元内每个像素用梯度方向在直方图中进行加权投影(映射到固定的角度范围),就得到了这个细胞单元的梯度方向直方图,就是该细胞单元对应的 9 维特征向量,如图 2.6 所示。
最后把各个细胞单元组合成大的、空间上连通的区间(blocks )。这样,一个 block 内所有 cell 的特征向量串联起来便得到该
block 的 HOG 特征。每一个单元格的特征会以不同的结果多次出现在最后的特征向量中,将归一化之后的块描述符就称之为 HOG 特征描述算子。
与其他的特征描述方法相比,HOG 有很多优点。首先,由于HOG 是在图像的局部方格单元上操作,所以它对图像几何的和光学的形变都能保持很好的不变性,这两种形变只会出现在更大的空间领域上。其次,在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下,只要行人大体上能够保持直立的姿势,可以容许行人有一些细微的肢体动作,这些细微的动作可以被忽略而不影响检测效果。因此HOG 特征是特别适合于做图像中的人体检测的。
因为HOG 是一个局部特征,因此对一大幅图片直接提取特征,不能够得不较好的
效果。
3. LBP特征
LBP (Local binary patterns 局部二值模式)首先由 T. Ojala 和 D. Harwood 在 1994 年提出,用于纹理特征提取,是计算机视觉中用于图像特征分类的一种方法。原始的 LBP 算子定义为在 3*3 的窗口内,以窗口中心像素为阈值,将相邻的 8 个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为 1,否则为 0。这样,3*3 领域内的 8 个点可产生 8bit 的无符号数(二进制编码) ,将二进制编码转换成十进制,即得到该窗口的 LBP 值,并用这个值来反映该区域的纹理信息。如图 2.9 所示:原始的 LBP 由于其仅利用 3*3 邻域去描述图像的信息,导致信息量过少进而容易受到噪声的干扰。针对这种情况,学者们对原始的 LBP 算子进行改进,提出了以中心点为圆心,半径为任意距离 R 的 LBP 算子,即半径为 R 的圆内含有P 个像素点,然后以中心点的灰度值作为阈值对周围P 个点进行阈值化,得到相应的 LBP 特征编码,如图 2.10 所示。
图2 LBP算子示意图
4. HSV特征
HSV(hue,saturation,value)颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集,圆锥的顶面对应于V=1. 它包含RGB 模型中的R=1,G=1,B=1 三个面,所代表的颜色较亮。色彩H 由绕V 轴的旋转角给定。红色对应于 角度0°,绿色对应于角度120°,蓝色对应于角度240°。在HSV 颜色模型中,每一种颜色和它的补色相差180°。饱和度S 取值从0到1,所以圆锥顶面的半径为1。HSV 颜色模型所代表的颜色域是CIE 色度图的一个子集,这个模型中饱和度为百分之百的颜色,其纯度一般小于百分之百。在圆锥的顶点(即原点) 处,V=0,H和S 无定义, 代表黑色。圆锥的顶面中心处S=0,V=1,H无定义,代表白色。从该点到原点代表亮度渐暗的灰色,即具有不同 灰度的灰色。对于这些点,S=0,H的值无定义。可以说,HSV 模型中的V 轴对应于RGB 颜色空间中的主对角线。 在圆锥顶面的圆周上的颜色,V=1,S=1,这种颜色是纯色。HSV 模型对应于画家配色的方法。画家用改变色浓和 色深的方法从某种纯色获得不同色调的颜色,在一种纯色中加入白色以改变色浓,加入黑色以改变色深,同时 加入不同比例的白色,黑色即可获得各种不同的色调。
HSV 色轮HSV 的圆锥模型
图 2.3 HSV 色彩空间模型
Haar 、HOG 、LBP 和HSV 等特征有各自的优缺点,概括如下:
(1)HOG 是比较经典的行人检测特征,具有良好的光照不变性和尺度不变性, 能够较强的描述行人的特征,对环境适应性较强,但同时特征维数过高和计算量较大,实时性难以保证,有待进一步研究。
(2)Haar 特征容易理解,计算简单,特别是引入积分图后,计算量大大降低, 在稀疏行人且遮挡不严重的情况下检测效果较好,实时性较高,但它对光照和阴影敏感,适应性较差,不适合复杂的检测环境。
(3)LBP 能够表征人体局部的轮廓特征,对光线变化等有较强的适应能力,能适应较为复杂的环境,可以检测有一定遮挡的行人,但是其对图像的整体特征表述不够完善。
(4)HSV 计算简单,能够对目标的颜色特征进行快速的提取,计算方便简单迅速,但是其对光线较为敏感,容易受复杂背景的干扰。
行人检测和跟踪算法理论
行人检测是一个复杂的过程,行人检测框架包含多个组成部分,本章对其中的关键技术进行分析,如行人检测中的特征提取,对行人特征进行分类的分类器的选择以及主要的行人跟踪方法进行介绍。了解行人检测和跟踪方面的相关技术,为本文提出的行人检测及跟踪的方法提供理论依据。
2.1 行人检测关键技术
行人检测技术主要包含两个部分,行人检测时的特征提取和对行人进行识别分类的分类器。选取能够对行人准确描述的特征算子对快速准确的检测到行人至关重要,是行人检测中的关键技术,也是能够高效准确检测到行人的前提。选取合适的分类器对提取到的特征进行快速判别,准确的区分出行人与非行人并将行人识别出来又是行人检测技术的关键部分。
2.1.1 行人检测特征描述
行人检测特征描述是从图像中获取信息并进行信息分析的前期关键步骤。主要体现在特征描述子是否能够高效的描述被检测目标。特征一般是对图像的基本特征如颜色、纹理、边缘等进行组合分析,构建出更具表达能力的高级特征。
1. Haar-like 特征
Haar-like 特征是一种常用的特征描述算子,在计算机视觉领域有广泛的应用。它是由Papageorigiou 等人提出用于人脸检测的描述特征,后又延伸到诸如行人检测等许多方面都有不错的检测效果。常用的Haar-like 特征主要有线性特征、边缘特征、点特征、对角线特征。如下图所示:
Haar-like 特征只是选取了一些简单特征对目标特征进行描述,不能够对目标的特征全面表达,因此其识别程度不高。但haar 特征可以使用积分图进行快速计算,检测速度比较快,因此被广泛应用到检测检测行人等其他目标方面。
2. HOG 特征
方向梯度直方图(Histogram of Oriented Gradient, HOG)是由 Dalal在 2005提出的,特征通过计算和统计图像局部区域的梯度方向直方图来构成,在计算机图像处理中常作为描述物体的特征算子。HOG 特征描述算子的思想是:设定训练样本图像的大小为 64*128 像素,首先将训练样本分成小的连通区域,即细胞单元(cell),细胞单元的大小为 8*8 像素,这样在样本图像中细胞单元的个数为 8×16=128 个。然后分别采集细胞单元中各像素点的梯度或边缘的方向直方图。最后将这些直方图进行组合构成特征描述算子。
计算图像横坐标和纵坐标方向的梯度,并据此计算每个像素位置的梯度方向
值,图像中像素点(x,y)的梯度为:
G x (x,y) =H(x+1, y) -H(x-1, y)
G y (x,y) =H(x,y +1) -H(x,y -1)
其中G x (x,y) ,G y (x,y) ,H(x,y) ,G (x,y) 和α(x,y) 表示对原图像(x,y) 像素点处的水平方向梯度,垂直方向梯度和该像素点的像素值,该像素点的梯度幅度值以及该点的梯度方向。
对于划分后的每个细胞单元,细胞的大小为 8×8 像素。采用 9 个 bin 的直方图来统计这 8×8 个像素的梯度信息,也就是将细胞单元的梯度方向 360 度分成 9个方向块。对细胞单元内每个像素用梯度方向在直方图中进行加权投影(映射到固定的角度范围),就得到了这个细胞单元的梯度方向直方图,就是该细胞单元对应的 9 维特征向量,如图 2.6 所示。
最后把各个细胞单元组合成大的、空间上连通的区间(blocks )。这样,一个 block 内所有 cell 的特征向量串联起来便得到该
block 的 HOG 特征。每一个单元格的特征会以不同的结果多次出现在最后的特征向量中,将归一化之后的块描述符就称之为 HOG 特征描述算子。
与其他的特征描述方法相比,HOG 有很多优点。首先,由于HOG 是在图像的局部方格单元上操作,所以它对图像几何的和光学的形变都能保持很好的不变性,这两种形变只会出现在更大的空间领域上。其次,在粗的空域抽样、精细的方向抽样以及较强的局部光学归一化等条件下,只要行人大体上能够保持直立的姿势,可以容许行人有一些细微的肢体动作,这些细微的动作可以被忽略而不影响检测效果。因此HOG 特征是特别适合于做图像中的人体检测的。
因为HOG 是一个局部特征,因此对一大幅图片直接提取特征,不能够得不较好的
效果。
3. LBP特征
LBP (Local binary patterns 局部二值模式)首先由 T. Ojala 和 D. Harwood 在 1994 年提出,用于纹理特征提取,是计算机视觉中用于图像特征分类的一种方法。原始的 LBP 算子定义为在 3*3 的窗口内,以窗口中心像素为阈值,将相邻的 8 个像素的灰度值与其进行比较,若周围像素值大于中心像素值,则该像素点的位置被标记为 1,否则为 0。这样,3*3 领域内的 8 个点可产生 8bit 的无符号数(二进制编码) ,将二进制编码转换成十进制,即得到该窗口的 LBP 值,并用这个值来反映该区域的纹理信息。如图 2.9 所示:原始的 LBP 由于其仅利用 3*3 邻域去描述图像的信息,导致信息量过少进而容易受到噪声的干扰。针对这种情况,学者们对原始的 LBP 算子进行改进,提出了以中心点为圆心,半径为任意距离 R 的 LBP 算子,即半径为 R 的圆内含有P 个像素点,然后以中心点的灰度值作为阈值对周围P 个点进行阈值化,得到相应的 LBP 特征编码,如图 2.10 所示。
图2 LBP算子示意图
4. HSV特征
HSV(hue,saturation,value)颜色空间的模型对应于圆柱坐标系中的一个圆锥形子集,圆锥的顶面对应于V=1. 它包含RGB 模型中的R=1,G=1,B=1 三个面,所代表的颜色较亮。色彩H 由绕V 轴的旋转角给定。红色对应于 角度0°,绿色对应于角度120°,蓝色对应于角度240°。在HSV 颜色模型中,每一种颜色和它的补色相差180°。饱和度S 取值从0到1,所以圆锥顶面的半径为1。HSV 颜色模型所代表的颜色域是CIE 色度图的一个子集,这个模型中饱和度为百分之百的颜色,其纯度一般小于百分之百。在圆锥的顶点(即原点) 处,V=0,H和S 无定义, 代表黑色。圆锥的顶面中心处S=0,V=1,H无定义,代表白色。从该点到原点代表亮度渐暗的灰色,即具有不同 灰度的灰色。对于这些点,S=0,H的值无定义。可以说,HSV 模型中的V 轴对应于RGB 颜色空间中的主对角线。 在圆锥顶面的圆周上的颜色,V=1,S=1,这种颜色是纯色。HSV 模型对应于画家配色的方法。画家用改变色浓和 色深的方法从某种纯色获得不同色调的颜色,在一种纯色中加入白色以改变色浓,加入黑色以改变色深,同时 加入不同比例的白色,黑色即可获得各种不同的色调。
HSV 色轮HSV 的圆锥模型
图 2.3 HSV 色彩空间模型
Haar 、HOG 、LBP 和HSV 等特征有各自的优缺点,概括如下:
(1)HOG 是比较经典的行人检测特征,具有良好的光照不变性和尺度不变性, 能够较强的描述行人的特征,对环境适应性较强,但同时特征维数过高和计算量较大,实时性难以保证,有待进一步研究。
(2)Haar 特征容易理解,计算简单,特别是引入积分图后,计算量大大降低, 在稀疏行人且遮挡不严重的情况下检测效果较好,实时性较高,但它对光照和阴影敏感,适应性较差,不适合复杂的检测环境。
(3)LBP 能够表征人体局部的轮廓特征,对光线变化等有较强的适应能力,能适应较为复杂的环境,可以检测有一定遮挡的行人,但是其对图像的整体特征表述不够完善。
(4)HSV 计算简单,能够对目标的颜色特征进行快速的提取,计算方便简单迅速,但是其对光线较为敏感,容易受复杂背景的干扰。