使用对极几何的多视角分布式视频编码

ComputerEngineeringandApplications计算机工程与应用2010,46(17)

121

使用对极几何的多视角分布式视频编码

2

蔡述庭1,,王钦若1,尹明1

2,CAIShu-ting1,WANGQin-ruo1,YINMing1

广州5100061.广东工业大学自动化学院,

南京2100962.东南大学信息科学与工程学院,

1.FacultyofAutomation,GuangdongUniversityofTechnology,Guangzhou510006,China

2.SchoolofInformationScienceandEngineering,SoutheastUniversity,Nanjing210096,ChinaE-mail:[email protected]

CAIShu-ting,WANGQin-ruo,YINMing.Multi-viewdistributedvideocodingusingepipolargeometry.Computer

(17):EngineeringandApplications,2010,46121-124.Abstract:Toreducethecomplexityofdecoderformulti-viewdistributedvideocodingandsolvetheaccuracyofaccessingside

information,anovelepipolargeometry-baseddisparityestimationalgorithmisusedformulti-viewdistributedvideocodingsystem.Byusingconstraintsofepipolargeometryforredundantinformationofinter-views,proposedsystemappliesanoveldisparitysearchcenterandrestrictstheverticalsearchspacetoacceleratesearching.Experimentsresultsshowthatthemainoperations

(SAD)ofproposedsystemcalculate10timeslessthanMotionJPEG(MJPEG),SumofAbsoluteDifference7timesthanH.263+.

Meanwhile,theproposedsystemgetscompressiongain6~7dBcomparedwithMJPEG,3dBwithH.263+.Keywords:multi-view;distributedvideocoding;epipolargeometry;disparityestimation摘

要:为了降低多视角分布式视频编码中解码器复杂度,解决视角间边信息的获取精度等问题,将一种新的基于对极几何的视

差估计算法用于多视角分布式视频编码系统。提出的系统通过对视角间的冗余信息使用对极几何约束,采用新的视差搜索开始点,限制垂直方向的搜索范围以加快搜索速度。实验结果表明,提出的系统相对于运动JPEG(MJPEG)编码的主要运算绝对差值和(SAD)计算次数减少10倍,相对H.263+减少7倍。同时提出系统相对MJPEG编码有6~7dB增益,相对H.263+有3dB增益。关键词:多视角;分布式视频编码;对极几何;视差估计DOI:10.3778/j.issn.1002-8331.2010.17.034

文章编号:(2010)1002-833117-0121-04

文献标识码:A

中图分类号:TN919.82

1引言

多视角视频在很多方面具有非常好的应用前景,因为它使

得用户能够从不同视角观看静态或者动态的场景。在三维电视电影的多媒体领域,以及军事、安防以及医疗领域的视频监控等方面都有广泛应用,多视角视频的研究已经越来越受到各方面的重视。

虽然多视角视频能够提供激动人心的视觉体验,但其是以巨大的存储和传输带宽为代价的。多视角的视频传感器网络如

相比非多视角的情况,针对同一场景获得的CCD摄像机阵列,

视频数据量要大很多。因此,运动图像专家组(MPEG)三维音视

频Adhoc专家组将多视角视频编码作为一个最具有挑战性问题。

幸运的是多视角获取的同一场景视频数据序列具有大量的冗余数据。可以通过利用时间方向和视角间的相关性来对这些数据进行联合压缩。视差技术用来对一个运动对象从一个视角到另一视角的位移进行补偿,以此来消除视角间的相关性。

运动图像专家组(MPEG)主导了多视角视频编码(Multi-)的一些最新工作[1]。MVC是作为先进viewVideoCoding,MVC

视频编码(AdvancedVideoCoding,)标准的一个扩展。虽AVC然MVC方法获得了较高的压缩效率。但这种编解码结构需要处于传感设备端的编码器具备很高的计算能力。另外,这种结构还需要摄像机之间具备通信能力,否则无法进行联合编码。显然,这些要求对无线视频传感器网络来说都是不现实的。

分布式视频编码(DVC)的兴起为多视角视频编码提出了一种崭新的解决方案。它是基于Slepian-Wolf[2]和Wyner-Ziv[3]编码理论。分布式编码理论证明对于两个或者多个相关信源执行联合编解码可获得的最优速率理论上能够通过单独编码和联合解码来获得。这就允许摄像机间无需通信的情况下来利用视角间的相关性,并可以满足无线视频传感器网络的有限带宽和低功耗限制条件。

在多视角DVC中,边信息可以被通过摄像机的视觉内的运动补偿时间插值或者临近的摄像机的视角间插值来产生。文

基金项目:广东省自然科学基金(theNaturalScienceFoundationofGuangdongProvinceofChinaunderGrantNo.[**************]2)。

作者简介:蔡述庭(1979-),男,博士研究生,讲师,主要研究领域为视频编码;王钦若(1958-),男,教授,主要研究领域为自动化装备,智能控制;

尹明(1975-),男,博士,讲师,主要研究领域为视频编码。

修回日期:

122

2010,46(17)ComputerEngineeringandApplications计算机工程与应用

X

对极平面

p

l′

le

p′e′

C′

献[4]中,一种基于像素差异和运动矢量幅度的融合技术被提出。然而,这些方法都没有能与MCTI相比获得相应的编码增益。在文献[5]中,一种融合单应性矩阵补偿视角间插值(HCII)的边信息产生技术被提出,使得编码增益与传统带MCTI的

但编码端有超过一半的帧都需要传DVC相比提高0.2~0.5dB,

文献[6]将庞大的摄像机阵列划分为传统摄像机统的帧内编码。

和“Wyner-Ziv”摄像机。但这种方法需要反馈,当传感器网络非常庞大时,这么多反馈回路显然是不现实的。文献[7]对每一个立体图像的扫描线建模为分段线性多项式。但实际上分段线性多项式不足以对实际情况建模。

依据对极几何理论,设计一种有效的快速视差估计算法,提高多视角分布式视频编码(MDVC)系统中边信息的准确度,降低解码复杂度,同时获得更好编码增益。

C

图2对极平面图

设三维空间物体上的点X在左右两个图像上分别投影为p

和p′,两摄像机的光学中心C,p和p′称为匹配点,C′的连线称为基线(baseline)。包含基线的任意平面称为对极平面(epipo-)。基线与左右两个图像的交点e、larplanee′称为两图像平面的对极心(epipole),对极平面与图像平面的相交线称为对极线),如l′和l。根据对极几何原理可知,在齐次坐标(epipolarline下有:

(F)(1)p′Fp=0,rank=2

(x,)、(x′,),p、p′的齐次坐标分别为y,1y′,1F为3×3且秩为2的矩阵。

T

2分布式视频编码

分布式信源编码是一个新的编码结构,即多个具有相关性

的信源使用相互独立的编码,而解码时进行联合解码。分布式视频编码现在最为典型的几个模型包括:

斯坦福大学Girod等人提出[8]的斯坦福模型,伯克利大学

以及欧盟信息技术协Ramchandran等人提出[9]的伯克利模型,

会下的未来和新兴技术组(IST-FET)2005年开始支持的DIS-

(http:)。COVER项目//www.discoverdvc.org

为了进一步提高编解码性能,采用了斯坦福模型的离散余弦变换域编码框架,如图1所示。输入视频数据先经过DCT变换,得到低频和高频系数。低频成份通过量化后将校验位通过WZ编码发送。而高频系数通过熵编码直接发送。

3.2基本矩阵的推导

从一点和其外极线之间的映射来推导基础矩阵。对于给定的两个图像,如图3所示,左边图像中任意一点

右边图像中必然存在一个对应的对极线l′。右边图像中任何x,

与左边图线中x匹配的点x′必然位于对极线l′上。图3中有:

(2)x′=Hπx,l′=e′×x′=[e′]×Hπx=Fx其中Hπ=P′P称为单应性矩阵,F=[e′]×Hπ称为基础矩阵。基础矩阵F代表了一个从两维映射到一维的投影空间。

x

π

+

校验位

x

e

l′

e′x′

图3

对极几何映射图

对极几何使得能够约束解码器的视差搜索为基本的一维那么视差搜索可搜索。如果在最小和最大搜索范围上有限制,以进一步约束以减小解码器复杂度。

)编码框图(a

4多视角视频编码

多视角视频的压缩率是其成功应用的首要条件。幸运的是

不同视角间具有很强的相关性。然而,摄像传感器网络的功耗受到严格控制,因此,必须要有一个低复杂度编码器来避免复杂的内部节点间通信。

4.1多视角分布式视频编码

文献[10]提出了一种多视角DVC系统结构,如图4所示。

(b)解码框图图1

斯坦福模型编码框图

配置包括3个摄像机并且假设是静止的。两边视角的编码使用传统的AVC帧内编码。中间视角的采用DVC。从中间视角来看,假设奇数帧是使用AVC编码的关键帧,而偶数帧采用WZ。

这种系统结构的边信息分为两个部分:一种是视角内的,采用MCTI方式来估计产生;另外一种边信息是视角间的,采用单应性矩阵补偿视角间插值HCII边信息估计,获得较好效果。但是从图4中可以看出,这种结构中有一半的传感器采用的还是传统的H.264/AVC编码,虽然是帧内编码方式,编码器无需运动补偿,但相对分布式编码,要想

解码端低频系数进行Turbo解码,同时利用了高频系数部

分进行运动补偿时间差值得到边信息,低频系数解码后再与细化的高频系数一起重构,反DCT变换后得到解码数据帧。

3对极几何

3.1对极几何理论

2所示

蔡述庭,王钦若,尹明:使用对极几何的多视角分布式视频编码2010,46(17)

123

办法尽量减少AVC编码。这样构建如图5所示的编码系统。

摄像机

(对极几何原理,认为两个服从对极几何约束的相邻多视角图像的匹配点应该位于对极线附近,而不是中值预测搜索中心点。根据这个结论,将MPSC正交投影到对极线,其投影点选择为

(Orthogonal开始搜索中心。也称为正交投影对极搜索中心点),如图7所示。ProjectionEpipolarSearchCenter,OPESC

((图4

摄像机(多视角分布式视频编码

图6模块E中值运动向量预测图

((图5采用的多视角分布式视频编码图7中值预测搜索中心点投影图

如图5所示这种情况下,边信息能够通过摄像机序列的时间插值来产生,或者通过临近视角的视角间插值来获取。在实际情况下,如监控摄像机网络这种方法允许低功耗,低复杂度摄像机,且不需要摄像机间通信,这是最大优点。通过采用分布式视频编码,更可以提高无线信道下的传输鲁棒性。

由统计结果证明,在满足对极几何约束的情况下,在不同搜索窗口面积下(搜索窗口以OPESC为中心),采用OPESC找

到最优视差向量的概率要比MPSC的概率普遍有所提高。

另外一个问题是怎样减小搜索空间。由上面证实的推测结果进一步可知越靠近OPESC的候选者越有更高的概率被确定为最优视差向量。因此当垂直搜索范围(VSR)和水平搜索范围(HSR)都是可变时,在预测精度和计算负荷方面可以取一个较好的折中。考虑到大部分多视角摄像机的典型配置,水平视差在整个运动中占主要成份,因此,可以将VSR的值减小来加速解码速度,而不会导致显著的视差搜索质量下降。故此选择

而VSR为4。HSR为16,

如图8所示,采用的基于对极几何的视差搜索算法主要包括两个步骤:首先是将常用的MPSC通过正交投影到对极线,

沿着对极线以OPESC为中心、搜索区域大找到OPESC。然后,

幅减小的空间进行搜索。

4.2多视角视频编解码算法

具体的分布式视频编解码过程依据文献[8],这里主要关心

分布式视频编码一般使用运动补偿时间解码端边信息的产生。

差值(MCTI)来为解码器产生候选预测器。如果时域预测器的参考帧由于包损坏而丢失,但用于重建的块从邻近摄像机视角是可获得的,那么该视角能够提供一个替代的预测器。

将单视角解码扩展到多视角解码,用运动搜索解码在时域、基于对极几何视差估计在空间域对1个块进行解码。对同一个摄像机视频流中的不同数据帧之间的相关性DVC是采用运动补偿时间差值来进行利用,而视角间的相关性的利用相对不是那么容易,基于对极几何,利用改进的视差估计算法,可以更好地利用视角间的相关性得到更准确的边信息。

4.3基于对极几何的视差估计

现在讨论视角间边信息的产生。临近视角的差异可以通过对极几何来约束来描述。为了对快速视差估计有效实行对极几何约束,首要需解决两个基本问题:

(1)确定最优的视差搜索开始点以及一个特殊的符合对极

约束的搜索窗口形状。

(2)进一步减小视差搜索空间,以加速基于对极几何的视差估计,而不会显著降低视角间视频解码效率。

运动开始搜索点的确定对快速运动估计算法是非常重要的,决定了搜索速度和搜索结果的性能。故此大部分快速运动估计算法都使用中值预测开始点来对搜索区域进行运动搜索。

如图6所示,其开始搜索点由中值运动向量预测,包括当前模块的左边、上边、右上边相邻模块的运动向量值用于预测计算。虽然中值预测搜索中心点(MedianPredictedSearch

)TWZTWZ图8OPESC视差搜索融合解码方式图

为了描述简单,假定相邻摄像机的对极几何约束关系的基

础矩阵已经算出。给出了摄像机2视角中的当前模块的质心坐标为(src_centroid_x,),摄像机1视角中对应的对src_centroid_y极线方程为aX+bY+c=0,对极线可以通过齐次坐标乘以基础矩阵求出。计算出对极线后,当前宏模块(src_centroid_x,

)对应的开始搜索点和对应初始视差向

124

2010,46(17)ComputerEngineeringandApplications计算机工程与应用

由表2可以看出,视差算法中最主要的绝对差值和运算数量提出的方法比MJPEG要减少10倍左右,比H.263+减少7倍左右。

量可以由MPSC点的视差向量求出其估计值[11]:

(y)(y)(y)med_centroid_x=src_centroid_x+med_dv_x

(y)(med_centroid_x(y),)ope_centroid_x=ORTHO_PROJa,b,c(y)(y)(y)ope_dv_x=ope_centroid_x-src_centroid_x由于大的匹配窗口获得的匹配结果更为可靠,因此,只在宏模块级进行视差搜索,选用的是16×16。这样做的好处是避免小的匹配窗口容易出现的预测奇异值来破坏视差域的光滑度,而且也可以很好地控制计算代价。

摄像机2的T时刻WZ帧在摄像机1的T时刻WZ帧进行视差搜索。摄像机2的T时刻WZ帧同时对同摄像机T-1时刻WZ帧进行运动搜索解码(获取时间域相关性),故解码方式是一种融合方式。运动搜索范围的选择取决于从一帧到下一帧可能的运动量,而视角间的视差搜索计算量不会太大,因为搜,故此对原始DVC解码增索空间已经大幅缩小(VSR减小了)加的额外计算负担较少。

6结论

提出了一种新的基于对极几何的快速视差估计算法,通过

选定新的搜索开始点,比从传统中值预测搜索开始点提高了搜索的匹配概率;通过约束垂直搜索范围(VSR),极大减小了搜该系统具有低的编码复杂度,索范围,降低了搜索计算复杂度。且不要求传感器之间进行通信。

进一步的研究包括低帧速率下的多视角视频编码,因为在低帧速率情况下,视角间的相关性将大大高于视角内的时间相关性。

参考文献:

[1]MerkleP,MüllerK,SmolicA,etal.Efficientcompressionofmulti-viewvideoexploitinginter-viewdependenciesbasedonH.264/MPEG4-AVC[C]//ProcICME2006,InternationalConferenceonMulti-Toronto,Ontario,Canada,2006.mediaandExpo,

[2]SlepianJ,WolfJ.Noiselesscodingofcorrelatedinformationsources[J].

(4)IEEETransonInformationTheory,1973,19.

ZivJ.Therate-distortionfunctionforsourcecodingwith[3]WynerA,

sideinformationatthedecoder[J].IEEETransonInformationThe-(1)ory,1976,22.

[4]GuoX,LuY,WuF,etal.Distributedmulti-viewvideocoding[J].

5实验结果

仿真代码参考DISCOVER编码(http://www.discoverdvc.)和D.Chen等的代码(http:org//www.stanford.edu/~divad/soft-

)。使用Breakdancing和Ballroom多视角视频序列。ware.html

Breakdancing序列的3个视角第一帧图片如图9所示。

(a)第一视角第一帧

图9

(b)第二视角第一帧(c)第三视角第一帧VisualCommunicationsandImageProcessing2006,SanJose,CA,2006.

[5]OuaretM,DufauxF,EbrahimiT.Fusion-basedmultiviewdistributed

videocoding[C]//4thACMInternationalWorkshoponVideoSurveil-lanceandSensorNetworks2006,SantaBarbara,CA,2006.[6]ZhuX,AaronA,GirodB.Distributedcompressionforlargecamera

arrays[C]//ProcIEEEWorkshoponStatisticalSignalProcessing,2003:30-33.

[7]GehrigN,DragottiPL.Different-distributedandfullyexibleimage

encodersforcamerasensornetworks[C]//ProcIEEEInternationalConferenceonImageProcessing,2005:690-693.

AaronA,RaneS,etal.Distributedvideocoding[C]//Proc[8]GirodB,

IEEESpecialIssueonAdvancesinVideoCodingandDelivery,(1):2005,9371-83.

[9]PuriR,RamchandranK.PRISM:Anewrobustvideocodingarchi-

tecturebasedondistributedcompressionprinciples[C]//ProcAller-tonConferenceonCommunication,ControlandComputing,2002.[10]FredericD,MouradO,TouradjE.Recentadvancesinmulti-view

distributedvideocoding[C]//SPIEMobileMultimedia/ImagePro-cessingforMilitaryandSecurityApplications,Orlando,FL,2007.[11]LuJiang-bo,CaiHua,LouJian-guang,etal.Anepipolargeometry-basedfastdisparityestimationalgorithmformultiviewimageandvideocoding[J].IEEETransactionsonCircuitsandSystems

for

(6):Video

Technology,2007,17737-750.

Breakdancing序列的多视角图像

仿真比较算法包括:提出的使用对极几何的DVC(DVC-)、运动JPEG(MJPEG)、(H.263+)。测试时15帧EGH.263+编码为一个图像组(GOP)。3种编码算法对两组以15f/s传输的多视角视频流编解码后的图像PSNR的结果如表1所示。

表1

两个多视角序列在不同算法下的PSNR

Breakdancing序列平均PSNR/dB

DVC-EGMJPEGH.263+

35.2629.1332.45

Ballroom序列平均PSNR/dB

38.6831.5535.26

由表1可以看到,利用快速视察估计算法来更好获取视角间边信息后,提出的方法相比MJPEG编码获得了大约6到7dB的增益,相比H.263+获得大约3dB增益。

由于绝对差值和在视差估计是最耗时的计算,不同算法中的绝对差值和(SAD)操作的次数统计如表2所示。

表2绝对差值和(SAD)操作数量表

Breakdancing序列

平均SAD

DVC-EGMJPEGH.263+

100.231069.54820.36

Ballroom序列平均SAD

93.581026.27820.36

ComputerEngineeringandApplications计算机工程与应用2010,46(17)

121

使用对极几何的多视角分布式视频编码

2

蔡述庭1,,王钦若1,尹明1

2,CAIShu-ting1,WANGQin-ruo1,YINMing1

广州5100061.广东工业大学自动化学院,

南京2100962.东南大学信息科学与工程学院,

1.FacultyofAutomation,GuangdongUniversityofTechnology,Guangzhou510006,China

2.SchoolofInformationScienceandEngineering,SoutheastUniversity,Nanjing210096,ChinaE-mail:[email protected]

CAIShu-ting,WANGQin-ruo,YINMing.Multi-viewdistributedvideocodingusingepipolargeometry.Computer

(17):EngineeringandApplications,2010,46121-124.Abstract:Toreducethecomplexityofdecoderformulti-viewdistributedvideocodingandsolvetheaccuracyofaccessingside

information,anovelepipolargeometry-baseddisparityestimationalgorithmisusedformulti-viewdistributedvideocodingsystem.Byusingconstraintsofepipolargeometryforredundantinformationofinter-views,proposedsystemappliesanoveldisparitysearchcenterandrestrictstheverticalsearchspacetoacceleratesearching.Experimentsresultsshowthatthemainoperations

(SAD)ofproposedsystemcalculate10timeslessthanMotionJPEG(MJPEG),SumofAbsoluteDifference7timesthanH.263+.

Meanwhile,theproposedsystemgetscompressiongain6~7dBcomparedwithMJPEG,3dBwithH.263+.Keywords:multi-view;distributedvideocoding;epipolargeometry;disparityestimation摘

要:为了降低多视角分布式视频编码中解码器复杂度,解决视角间边信息的获取精度等问题,将一种新的基于对极几何的视

差估计算法用于多视角分布式视频编码系统。提出的系统通过对视角间的冗余信息使用对极几何约束,采用新的视差搜索开始点,限制垂直方向的搜索范围以加快搜索速度。实验结果表明,提出的系统相对于运动JPEG(MJPEG)编码的主要运算绝对差值和(SAD)计算次数减少10倍,相对H.263+减少7倍。同时提出系统相对MJPEG编码有6~7dB增益,相对H.263+有3dB增益。关键词:多视角;分布式视频编码;对极几何;视差估计DOI:10.3778/j.issn.1002-8331.2010.17.034

文章编号:(2010)1002-833117-0121-04

文献标识码:A

中图分类号:TN919.82

1引言

多视角视频在很多方面具有非常好的应用前景,因为它使

得用户能够从不同视角观看静态或者动态的场景。在三维电视电影的多媒体领域,以及军事、安防以及医疗领域的视频监控等方面都有广泛应用,多视角视频的研究已经越来越受到各方面的重视。

虽然多视角视频能够提供激动人心的视觉体验,但其是以巨大的存储和传输带宽为代价的。多视角的视频传感器网络如

相比非多视角的情况,针对同一场景获得的CCD摄像机阵列,

视频数据量要大很多。因此,运动图像专家组(MPEG)三维音视

频Adhoc专家组将多视角视频编码作为一个最具有挑战性问题。

幸运的是多视角获取的同一场景视频数据序列具有大量的冗余数据。可以通过利用时间方向和视角间的相关性来对这些数据进行联合压缩。视差技术用来对一个运动对象从一个视角到另一视角的位移进行补偿,以此来消除视角间的相关性。

运动图像专家组(MPEG)主导了多视角视频编码(Multi-)的一些最新工作[1]。MVC是作为先进viewVideoCoding,MVC

视频编码(AdvancedVideoCoding,)标准的一个扩展。虽AVC然MVC方法获得了较高的压缩效率。但这种编解码结构需要处于传感设备端的编码器具备很高的计算能力。另外,这种结构还需要摄像机之间具备通信能力,否则无法进行联合编码。显然,这些要求对无线视频传感器网络来说都是不现实的。

分布式视频编码(DVC)的兴起为多视角视频编码提出了一种崭新的解决方案。它是基于Slepian-Wolf[2]和Wyner-Ziv[3]编码理论。分布式编码理论证明对于两个或者多个相关信源执行联合编解码可获得的最优速率理论上能够通过单独编码和联合解码来获得。这就允许摄像机间无需通信的情况下来利用视角间的相关性,并可以满足无线视频传感器网络的有限带宽和低功耗限制条件。

在多视角DVC中,边信息可以被通过摄像机的视觉内的运动补偿时间插值或者临近的摄像机的视角间插值来产生。文

基金项目:广东省自然科学基金(theNaturalScienceFoundationofGuangdongProvinceofChinaunderGrantNo.[**************]2)。

作者简介:蔡述庭(1979-),男,博士研究生,讲师,主要研究领域为视频编码;王钦若(1958-),男,教授,主要研究领域为自动化装备,智能控制;

尹明(1975-),男,博士,讲师,主要研究领域为视频编码。

修回日期:

122

2010,46(17)ComputerEngineeringandApplications计算机工程与应用

X

对极平面

p

l′

le

p′e′

C′

献[4]中,一种基于像素差异和运动矢量幅度的融合技术被提出。然而,这些方法都没有能与MCTI相比获得相应的编码增益。在文献[5]中,一种融合单应性矩阵补偿视角间插值(HCII)的边信息产生技术被提出,使得编码增益与传统带MCTI的

但编码端有超过一半的帧都需要传DVC相比提高0.2~0.5dB,

文献[6]将庞大的摄像机阵列划分为传统摄像机统的帧内编码。

和“Wyner-Ziv”摄像机。但这种方法需要反馈,当传感器网络非常庞大时,这么多反馈回路显然是不现实的。文献[7]对每一个立体图像的扫描线建模为分段线性多项式。但实际上分段线性多项式不足以对实际情况建模。

依据对极几何理论,设计一种有效的快速视差估计算法,提高多视角分布式视频编码(MDVC)系统中边信息的准确度,降低解码复杂度,同时获得更好编码增益。

C

图2对极平面图

设三维空间物体上的点X在左右两个图像上分别投影为p

和p′,两摄像机的光学中心C,p和p′称为匹配点,C′的连线称为基线(baseline)。包含基线的任意平面称为对极平面(epipo-)。基线与左右两个图像的交点e、larplanee′称为两图像平面的对极心(epipole),对极平面与图像平面的相交线称为对极线),如l′和l。根据对极几何原理可知,在齐次坐标(epipolarline下有:

(F)(1)p′Fp=0,rank=2

(x,)、(x′,),p、p′的齐次坐标分别为y,1y′,1F为3×3且秩为2的矩阵。

T

2分布式视频编码

分布式信源编码是一个新的编码结构,即多个具有相关性

的信源使用相互独立的编码,而解码时进行联合解码。分布式视频编码现在最为典型的几个模型包括:

斯坦福大学Girod等人提出[8]的斯坦福模型,伯克利大学

以及欧盟信息技术协Ramchandran等人提出[9]的伯克利模型,

会下的未来和新兴技术组(IST-FET)2005年开始支持的DIS-

(http:)。COVER项目//www.discoverdvc.org

为了进一步提高编解码性能,采用了斯坦福模型的离散余弦变换域编码框架,如图1所示。输入视频数据先经过DCT变换,得到低频和高频系数。低频成份通过量化后将校验位通过WZ编码发送。而高频系数通过熵编码直接发送。

3.2基本矩阵的推导

从一点和其外极线之间的映射来推导基础矩阵。对于给定的两个图像,如图3所示,左边图像中任意一点

右边图像中必然存在一个对应的对极线l′。右边图像中任何x,

与左边图线中x匹配的点x′必然位于对极线l′上。图3中有:

(2)x′=Hπx,l′=e′×x′=[e′]×Hπx=Fx其中Hπ=P′P称为单应性矩阵,F=[e′]×Hπ称为基础矩阵。基础矩阵F代表了一个从两维映射到一维的投影空间。

x

π

+

校验位

x

e

l′

e′x′

图3

对极几何映射图

对极几何使得能够约束解码器的视差搜索为基本的一维那么视差搜索可搜索。如果在最小和最大搜索范围上有限制,以进一步约束以减小解码器复杂度。

)编码框图(a

4多视角视频编码

多视角视频的压缩率是其成功应用的首要条件。幸运的是

不同视角间具有很强的相关性。然而,摄像传感器网络的功耗受到严格控制,因此,必须要有一个低复杂度编码器来避免复杂的内部节点间通信。

4.1多视角分布式视频编码

文献[10]提出了一种多视角DVC系统结构,如图4所示。

(b)解码框图图1

斯坦福模型编码框图

配置包括3个摄像机并且假设是静止的。两边视角的编码使用传统的AVC帧内编码。中间视角的采用DVC。从中间视角来看,假设奇数帧是使用AVC编码的关键帧,而偶数帧采用WZ。

这种系统结构的边信息分为两个部分:一种是视角内的,采用MCTI方式来估计产生;另外一种边信息是视角间的,采用单应性矩阵补偿视角间插值HCII边信息估计,获得较好效果。但是从图4中可以看出,这种结构中有一半的传感器采用的还是传统的H.264/AVC编码,虽然是帧内编码方式,编码器无需运动补偿,但相对分布式编码,要想

解码端低频系数进行Turbo解码,同时利用了高频系数部

分进行运动补偿时间差值得到边信息,低频系数解码后再与细化的高频系数一起重构,反DCT变换后得到解码数据帧。

3对极几何

3.1对极几何理论

2所示

蔡述庭,王钦若,尹明:使用对极几何的多视角分布式视频编码2010,46(17)

123

办法尽量减少AVC编码。这样构建如图5所示的编码系统。

摄像机

(对极几何原理,认为两个服从对极几何约束的相邻多视角图像的匹配点应该位于对极线附近,而不是中值预测搜索中心点。根据这个结论,将MPSC正交投影到对极线,其投影点选择为

(Orthogonal开始搜索中心。也称为正交投影对极搜索中心点),如图7所示。ProjectionEpipolarSearchCenter,OPESC

((图4

摄像机(多视角分布式视频编码

图6模块E中值运动向量预测图

((图5采用的多视角分布式视频编码图7中值预测搜索中心点投影图

如图5所示这种情况下,边信息能够通过摄像机序列的时间插值来产生,或者通过临近视角的视角间插值来获取。在实际情况下,如监控摄像机网络这种方法允许低功耗,低复杂度摄像机,且不需要摄像机间通信,这是最大优点。通过采用分布式视频编码,更可以提高无线信道下的传输鲁棒性。

由统计结果证明,在满足对极几何约束的情况下,在不同搜索窗口面积下(搜索窗口以OPESC为中心),采用OPESC找

到最优视差向量的概率要比MPSC的概率普遍有所提高。

另外一个问题是怎样减小搜索空间。由上面证实的推测结果进一步可知越靠近OPESC的候选者越有更高的概率被确定为最优视差向量。因此当垂直搜索范围(VSR)和水平搜索范围(HSR)都是可变时,在预测精度和计算负荷方面可以取一个较好的折中。考虑到大部分多视角摄像机的典型配置,水平视差在整个运动中占主要成份,因此,可以将VSR的值减小来加速解码速度,而不会导致显著的视差搜索质量下降。故此选择

而VSR为4。HSR为16,

如图8所示,采用的基于对极几何的视差搜索算法主要包括两个步骤:首先是将常用的MPSC通过正交投影到对极线,

沿着对极线以OPESC为中心、搜索区域大找到OPESC。然后,

幅减小的空间进行搜索。

4.2多视角视频编解码算法

具体的分布式视频编解码过程依据文献[8],这里主要关心

分布式视频编码一般使用运动补偿时间解码端边信息的产生。

差值(MCTI)来为解码器产生候选预测器。如果时域预测器的参考帧由于包损坏而丢失,但用于重建的块从邻近摄像机视角是可获得的,那么该视角能够提供一个替代的预测器。

将单视角解码扩展到多视角解码,用运动搜索解码在时域、基于对极几何视差估计在空间域对1个块进行解码。对同一个摄像机视频流中的不同数据帧之间的相关性DVC是采用运动补偿时间差值来进行利用,而视角间的相关性的利用相对不是那么容易,基于对极几何,利用改进的视差估计算法,可以更好地利用视角间的相关性得到更准确的边信息。

4.3基于对极几何的视差估计

现在讨论视角间边信息的产生。临近视角的差异可以通过对极几何来约束来描述。为了对快速视差估计有效实行对极几何约束,首要需解决两个基本问题:

(1)确定最优的视差搜索开始点以及一个特殊的符合对极

约束的搜索窗口形状。

(2)进一步减小视差搜索空间,以加速基于对极几何的视差估计,而不会显著降低视角间视频解码效率。

运动开始搜索点的确定对快速运动估计算法是非常重要的,决定了搜索速度和搜索结果的性能。故此大部分快速运动估计算法都使用中值预测开始点来对搜索区域进行运动搜索。

如图6所示,其开始搜索点由中值运动向量预测,包括当前模块的左边、上边、右上边相邻模块的运动向量值用于预测计算。虽然中值预测搜索中心点(MedianPredictedSearch

)TWZTWZ图8OPESC视差搜索融合解码方式图

为了描述简单,假定相邻摄像机的对极几何约束关系的基

础矩阵已经算出。给出了摄像机2视角中的当前模块的质心坐标为(src_centroid_x,),摄像机1视角中对应的对src_centroid_y极线方程为aX+bY+c=0,对极线可以通过齐次坐标乘以基础矩阵求出。计算出对极线后,当前宏模块(src_centroid_x,

)对应的开始搜索点和对应初始视差向

124

2010,46(17)ComputerEngineeringandApplications计算机工程与应用

由表2可以看出,视差算法中最主要的绝对差值和运算数量提出的方法比MJPEG要减少10倍左右,比H.263+减少7倍左右。

量可以由MPSC点的视差向量求出其估计值[11]:

(y)(y)(y)med_centroid_x=src_centroid_x+med_dv_x

(y)(med_centroid_x(y),)ope_centroid_x=ORTHO_PROJa,b,c(y)(y)(y)ope_dv_x=ope_centroid_x-src_centroid_x由于大的匹配窗口获得的匹配结果更为可靠,因此,只在宏模块级进行视差搜索,选用的是16×16。这样做的好处是避免小的匹配窗口容易出现的预测奇异值来破坏视差域的光滑度,而且也可以很好地控制计算代价。

摄像机2的T时刻WZ帧在摄像机1的T时刻WZ帧进行视差搜索。摄像机2的T时刻WZ帧同时对同摄像机T-1时刻WZ帧进行运动搜索解码(获取时间域相关性),故解码方式是一种融合方式。运动搜索范围的选择取决于从一帧到下一帧可能的运动量,而视角间的视差搜索计算量不会太大,因为搜,故此对原始DVC解码增索空间已经大幅缩小(VSR减小了)加的额外计算负担较少。

6结论

提出了一种新的基于对极几何的快速视差估计算法,通过

选定新的搜索开始点,比从传统中值预测搜索开始点提高了搜索的匹配概率;通过约束垂直搜索范围(VSR),极大减小了搜该系统具有低的编码复杂度,索范围,降低了搜索计算复杂度。且不要求传感器之间进行通信。

进一步的研究包括低帧速率下的多视角视频编码,因为在低帧速率情况下,视角间的相关性将大大高于视角内的时间相关性。

参考文献:

[1]MerkleP,MüllerK,SmolicA,etal.Efficientcompressionofmulti-viewvideoexploitinginter-viewdependenciesbasedonH.264/MPEG4-AVC[C]//ProcICME2006,InternationalConferenceonMulti-Toronto,Ontario,Canada,2006.mediaandExpo,

[2]SlepianJ,WolfJ.Noiselesscodingofcorrelatedinformationsources[J].

(4)IEEETransonInformationTheory,1973,19.

ZivJ.Therate-distortionfunctionforsourcecodingwith[3]WynerA,

sideinformationatthedecoder[J].IEEETransonInformationThe-(1)ory,1976,22.

[4]GuoX,LuY,WuF,etal.Distributedmulti-viewvideocoding[J].

5实验结果

仿真代码参考DISCOVER编码(http://www.discoverdvc.)和D.Chen等的代码(http:org//www.stanford.edu/~divad/soft-

)。使用Breakdancing和Ballroom多视角视频序列。ware.html

Breakdancing序列的3个视角第一帧图片如图9所示。

(a)第一视角第一帧

图9

(b)第二视角第一帧(c)第三视角第一帧VisualCommunicationsandImageProcessing2006,SanJose,CA,2006.

[5]OuaretM,DufauxF,EbrahimiT.Fusion-basedmultiviewdistributed

videocoding[C]//4thACMInternationalWorkshoponVideoSurveil-lanceandSensorNetworks2006,SantaBarbara,CA,2006.[6]ZhuX,AaronA,GirodB.Distributedcompressionforlargecamera

arrays[C]//ProcIEEEWorkshoponStatisticalSignalProcessing,2003:30-33.

[7]GehrigN,DragottiPL.Different-distributedandfullyexibleimage

encodersforcamerasensornetworks[C]//ProcIEEEInternationalConferenceonImageProcessing,2005:690-693.

AaronA,RaneS,etal.Distributedvideocoding[C]//Proc[8]GirodB,

IEEESpecialIssueonAdvancesinVideoCodingandDelivery,(1):2005,9371-83.

[9]PuriR,RamchandranK.PRISM:Anewrobustvideocodingarchi-

tecturebasedondistributedcompressionprinciples[C]//ProcAller-tonConferenceonCommunication,ControlandComputing,2002.[10]FredericD,MouradO,TouradjE.Recentadvancesinmulti-view

distributedvideocoding[C]//SPIEMobileMultimedia/ImagePro-cessingforMilitaryandSecurityApplications,Orlando,FL,2007.[11]LuJiang-bo,CaiHua,LouJian-guang,etal.Anepipolargeometry-basedfastdisparityestimationalgorithmformultiviewimageandvideocoding[J].IEEETransactionsonCircuitsandSystems

for

(6):Video

Technology,2007,17737-750.

Breakdancing序列的多视角图像

仿真比较算法包括:提出的使用对极几何的DVC(DVC-)、运动JPEG(MJPEG)、(H.263+)。测试时15帧EGH.263+编码为一个图像组(GOP)。3种编码算法对两组以15f/s传输的多视角视频流编解码后的图像PSNR的结果如表1所示。

表1

两个多视角序列在不同算法下的PSNR

Breakdancing序列平均PSNR/dB

DVC-EGMJPEGH.263+

35.2629.1332.45

Ballroom序列平均PSNR/dB

38.6831.5535.26

由表1可以看到,利用快速视察估计算法来更好获取视角间边信息后,提出的方法相比MJPEG编码获得了大约6到7dB的增益,相比H.263+获得大约3dB增益。

由于绝对差值和在视差估计是最耗时的计算,不同算法中的绝对差值和(SAD)操作的次数统计如表2所示。

表2绝对差值和(SAD)操作数量表

Breakdancing序列

平均SAD

DVC-EGMJPEGH.263+

100.231069.54820.36

Ballroom序列平均SAD

93.581026.27820.36


相关文章

  • 聊聊各种消费级应用需要哪些知识和能力?
  • 来这里找志同道合的小伙伴! VR 在游戏和互动娱乐方面的前景已经很清晰了.对于很多人来说,那是让他们这么多年没有放弃的原因.但是 VR 还有更多的潜力--成为一个像手机一样改变世界的真正全新的计算平台. 虽然这一愿景已经持续了几十年,并且在 ...查看


  • 人脸识别的原理和发展
  • 人脸识别系统的原理与发展应用 [摘要]地球上居住着近70亿人.每个人的面孔都是由额头.眉毛.眼睛.鼻子.嘴巴.双颊等区域组合而成,它们之间的大体位置关系也是固定的,大小不过七八寸见方.然而,即使是面容极其相似的双胞胎,其家人通常也能够非常容 ...查看


  • 河道监控工程设计方案 1
  • 河道改造工程监控设计方案 根据****政府及****水务局加强河道防洪监测监控的要求,在汛期能更好地 监测和监控洪水对国家财产和人民生命安全的损失, 桐梓县水务局需要建立一套 河道防洪监测监控系统.该方案为水域视频监控系统, 为能及时了解区 ...查看


  • 网络监控解决方案
  • 目 1.1 1.2 1.3 1.4 录 第1章 概述 . ........................................................................................... ...查看


  • 备战2014中考阅读[生于二维码时代]
  • 生于二维码时代 阮华君 近年来,二维码在中国大行其道.车票机票.电视屏幕.报纸题头.商品标签.广告图片.服装饰品.电影海报.景点门票„„到处都有它的身影.二维码又称二维条码,是条形码的升级.它诞生于日本,是用某种特定几何图形按一定规律在平面 ...查看


  • 网络毕业论文选题
  • 毕业论文(设计) 题 目 学 院 学 院 专 业 学生姓名 学 号 年级 级 指导教师 毕业教务处制表 毕业 毕业二〇一五年 九月二十 日 一.写作说明 专业从事毕业论文写作与发表相关服务,本团队擅长案例数据分析.编程仿真.图表制作.毕业设 ...查看


  • 执法办案区域方案模板V1.0
  • 浙江大华技术股份有限公司 目录 第一章 概述 ................................................................................................. ...查看


  • 地理信息系统重点总结
  • 第一章 1.什么是GIS?它具有什么特点? 答:地理信息系统(GIS , Geographic Information System)是在计算机硬.软件系统支持下, 对现实世界(资源与环境)的研究和变迁的各类空间数据及描述这些空间数据特性的 ...查看


  • ##学校全媒体资源平台建设方案
  • 校园全媒体资源平台 建设方案 南京远古软件有限公司 2016年8月 目录 第一章平台建设概述 ......................................................................... ...查看


热门内容