ComputerEngineeringandApplications计算机工程与应用2010,46(17)
121
使用对极几何的多视角分布式视频编码
2
蔡述庭1,,王钦若1,尹明1
2,CAIShu-ting1,WANGQin-ruo1,YINMing1
广州5100061.广东工业大学自动化学院,
南京2100962.东南大学信息科学与工程学院,
1.FacultyofAutomation,GuangdongUniversityofTechnology,Guangzhou510006,China
2.SchoolofInformationScienceandEngineering,SoutheastUniversity,Nanjing210096,ChinaE-mail:[email protected]
CAIShu-ting,WANGQin-ruo,YINMing.Multi-viewdistributedvideocodingusingepipolargeometry.Computer
(17):EngineeringandApplications,2010,46121-124.Abstract:Toreducethecomplexityofdecoderformulti-viewdistributedvideocodingandsolvetheaccuracyofaccessingside
information,anovelepipolargeometry-baseddisparityestimationalgorithmisusedformulti-viewdistributedvideocodingsystem.Byusingconstraintsofepipolargeometryforredundantinformationofinter-views,proposedsystemappliesanoveldisparitysearchcenterandrestrictstheverticalsearchspacetoacceleratesearching.Experimentsresultsshowthatthemainoperations
(SAD)ofproposedsystemcalculate10timeslessthanMotionJPEG(MJPEG),SumofAbsoluteDifference7timesthanH.263+.
Meanwhile,theproposedsystemgetscompressiongain6~7dBcomparedwithMJPEG,3dBwithH.263+.Keywords:multi-view;distributedvideocoding;epipolargeometry;disparityestimation摘
要:为了降低多视角分布式视频编码中解码器复杂度,解决视角间边信息的获取精度等问题,将一种新的基于对极几何的视
差估计算法用于多视角分布式视频编码系统。提出的系统通过对视角间的冗余信息使用对极几何约束,采用新的视差搜索开始点,限制垂直方向的搜索范围以加快搜索速度。实验结果表明,提出的系统相对于运动JPEG(MJPEG)编码的主要运算绝对差值和(SAD)计算次数减少10倍,相对H.263+减少7倍。同时提出系统相对MJPEG编码有6~7dB增益,相对H.263+有3dB增益。关键词:多视角;分布式视频编码;对极几何;视差估计DOI:10.3778/j.issn.1002-8331.2010.17.034
文章编号:(2010)1002-833117-0121-04
文献标识码:A
中图分类号:TN919.82
1引言
多视角视频在很多方面具有非常好的应用前景,因为它使
得用户能够从不同视角观看静态或者动态的场景。在三维电视电影的多媒体领域,以及军事、安防以及医疗领域的视频监控等方面都有广泛应用,多视角视频的研究已经越来越受到各方面的重视。
虽然多视角视频能够提供激动人心的视觉体验,但其是以巨大的存储和传输带宽为代价的。多视角的视频传感器网络如
相比非多视角的情况,针对同一场景获得的CCD摄像机阵列,
视频数据量要大很多。因此,运动图像专家组(MPEG)三维音视
频Adhoc专家组将多视角视频编码作为一个最具有挑战性问题。
幸运的是多视角获取的同一场景视频数据序列具有大量的冗余数据。可以通过利用时间方向和视角间的相关性来对这些数据进行联合压缩。视差技术用来对一个运动对象从一个视角到另一视角的位移进行补偿,以此来消除视角间的相关性。
运动图像专家组(MPEG)主导了多视角视频编码(Multi-)的一些最新工作[1]。MVC是作为先进viewVideoCoding,MVC
视频编码(AdvancedVideoCoding,)标准的一个扩展。虽AVC然MVC方法获得了较高的压缩效率。但这种编解码结构需要处于传感设备端的编码器具备很高的计算能力。另外,这种结构还需要摄像机之间具备通信能力,否则无法进行联合编码。显然,这些要求对无线视频传感器网络来说都是不现实的。
分布式视频编码(DVC)的兴起为多视角视频编码提出了一种崭新的解决方案。它是基于Slepian-Wolf[2]和Wyner-Ziv[3]编码理论。分布式编码理论证明对于两个或者多个相关信源执行联合编解码可获得的最优速率理论上能够通过单独编码和联合解码来获得。这就允许摄像机间无需通信的情况下来利用视角间的相关性,并可以满足无线视频传感器网络的有限带宽和低功耗限制条件。
在多视角DVC中,边信息可以被通过摄像机的视觉内的运动补偿时间插值或者临近的摄像机的视角间插值来产生。文
基金项目:广东省自然科学基金(theNaturalScienceFoundationofGuangdongProvinceofChinaunderGrantNo.[**************]2)。
作者简介:蔡述庭(1979-),男,博士研究生,讲师,主要研究领域为视频编码;王钦若(1958-),男,教授,主要研究领域为自动化装备,智能控制;
尹明(1975-),男,博士,讲师,主要研究领域为视频编码。
修回日期:
122
2010,46(17)ComputerEngineeringandApplications计算机工程与应用
X
对极平面
p
l′
le
p′e′
C′
献[4]中,一种基于像素差异和运动矢量幅度的融合技术被提出。然而,这些方法都没有能与MCTI相比获得相应的编码增益。在文献[5]中,一种融合单应性矩阵补偿视角间插值(HCII)的边信息产生技术被提出,使得编码增益与传统带MCTI的
但编码端有超过一半的帧都需要传DVC相比提高0.2~0.5dB,
文献[6]将庞大的摄像机阵列划分为传统摄像机统的帧内编码。
和“Wyner-Ziv”摄像机。但这种方法需要反馈,当传感器网络非常庞大时,这么多反馈回路显然是不现实的。文献[7]对每一个立体图像的扫描线建模为分段线性多项式。但实际上分段线性多项式不足以对实际情况建模。
依据对极几何理论,设计一种有效的快速视差估计算法,提高多视角分布式视频编码(MDVC)系统中边信息的准确度,降低解码复杂度,同时获得更好编码增益。
C
图2对极平面图
设三维空间物体上的点X在左右两个图像上分别投影为p
和p′,两摄像机的光学中心C,p和p′称为匹配点,C′的连线称为基线(baseline)。包含基线的任意平面称为对极平面(epipo-)。基线与左右两个图像的交点e、larplanee′称为两图像平面的对极心(epipole),对极平面与图像平面的相交线称为对极线),如l′和l。根据对极几何原理可知,在齐次坐标(epipolarline下有:
(F)(1)p′Fp=0,rank=2
(x,)、(x′,),p、p′的齐次坐标分别为y,1y′,1F为3×3且秩为2的矩阵。
T
2分布式视频编码
分布式信源编码是一个新的编码结构,即多个具有相关性
的信源使用相互独立的编码,而解码时进行联合解码。分布式视频编码现在最为典型的几个模型包括:
斯坦福大学Girod等人提出[8]的斯坦福模型,伯克利大学
以及欧盟信息技术协Ramchandran等人提出[9]的伯克利模型,
会下的未来和新兴技术组(IST-FET)2005年开始支持的DIS-
(http:)。COVER项目//www.discoverdvc.org
为了进一步提高编解码性能,采用了斯坦福模型的离散余弦变换域编码框架,如图1所示。输入视频数据先经过DCT变换,得到低频和高频系数。低频成份通过量化后将校验位通过WZ编码发送。而高频系数通过熵编码直接发送。
3.2基本矩阵的推导
从一点和其外极线之间的映射来推导基础矩阵。对于给定的两个图像,如图3所示,左边图像中任意一点
右边图像中必然存在一个对应的对极线l′。右边图像中任何x,
与左边图线中x匹配的点x′必然位于对极线l′上。图3中有:
(2)x′=Hπx,l′=e′×x′=[e′]×Hπx=Fx其中Hπ=P′P称为单应性矩阵,F=[e′]×Hπ称为基础矩阵。基础矩阵F代表了一个从两维映射到一维的投影空间。
x
π
+
校验位
x
e
l′
Hπ
e′x′
图3
对极几何映射图
对极几何使得能够约束解码器的视差搜索为基本的一维那么视差搜索可搜索。如果在最小和最大搜索范围上有限制,以进一步约束以减小解码器复杂度。
)编码框图(a
4多视角视频编码
多视角视频的压缩率是其成功应用的首要条件。幸运的是
不同视角间具有很强的相关性。然而,摄像传感器网络的功耗受到严格控制,因此,必须要有一个低复杂度编码器来避免复杂的内部节点间通信。
4.1多视角分布式视频编码
文献[10]提出了一种多视角DVC系统结构,如图4所示。
(b)解码框图图1
斯坦福模型编码框图
配置包括3个摄像机并且假设是静止的。两边视角的编码使用传统的AVC帧内编码。中间视角的采用DVC。从中间视角来看,假设奇数帧是使用AVC编码的关键帧,而偶数帧采用WZ。
这种系统结构的边信息分为两个部分:一种是视角内的,采用MCTI方式来估计产生;另外一种边信息是视角间的,采用单应性矩阵补偿视角间插值HCII边信息估计,获得较好效果。但是从图4中可以看出,这种结构中有一半的传感器采用的还是传统的H.264/AVC编码,虽然是帧内编码方式,编码器无需运动补偿,但相对分布式编码,要想
解码端低频系数进行Turbo解码,同时利用了高频系数部
分进行运动补偿时间差值得到边信息,低频系数解码后再与细化的高频系数一起重构,反DCT变换后得到解码数据帧。
3对极几何
3.1对极几何理论
2所示
蔡述庭,王钦若,尹明:使用对极几何的多视角分布式视频编码2010,46(17)
123
办法尽量减少AVC编码。这样构建如图5所示的编码系统。
摄像机
(对极几何原理,认为两个服从对极几何约束的相邻多视角图像的匹配点应该位于对极线附近,而不是中值预测搜索中心点。根据这个结论,将MPSC正交投影到对极线,其投影点选择为
(Orthogonal开始搜索中心。也称为正交投影对极搜索中心点),如图7所示。ProjectionEpipolarSearchCenter,OPESC
((图4
摄像机(多视角分布式视频编码
图6模块E中值运动向量预测图
((图5采用的多视角分布式视频编码图7中值预测搜索中心点投影图
如图5所示这种情况下,边信息能够通过摄像机序列的时间插值来产生,或者通过临近视角的视角间插值来获取。在实际情况下,如监控摄像机网络这种方法允许低功耗,低复杂度摄像机,且不需要摄像机间通信,这是最大优点。通过采用分布式视频编码,更可以提高无线信道下的传输鲁棒性。
由统计结果证明,在满足对极几何约束的情况下,在不同搜索窗口面积下(搜索窗口以OPESC为中心),采用OPESC找
到最优视差向量的概率要比MPSC的概率普遍有所提高。
另外一个问题是怎样减小搜索空间。由上面证实的推测结果进一步可知越靠近OPESC的候选者越有更高的概率被确定为最优视差向量。因此当垂直搜索范围(VSR)和水平搜索范围(HSR)都是可变时,在预测精度和计算负荷方面可以取一个较好的折中。考虑到大部分多视角摄像机的典型配置,水平视差在整个运动中占主要成份,因此,可以将VSR的值减小来加速解码速度,而不会导致显著的视差搜索质量下降。故此选择
而VSR为4。HSR为16,
如图8所示,采用的基于对极几何的视差搜索算法主要包括两个步骤:首先是将常用的MPSC通过正交投影到对极线,
沿着对极线以OPESC为中心、搜索区域大找到OPESC。然后,
幅减小的空间进行搜索。
4.2多视角视频编解码算法
具体的分布式视频编解码过程依据文献[8],这里主要关心
分布式视频编码一般使用运动补偿时间解码端边信息的产生。
差值(MCTI)来为解码器产生候选预测器。如果时域预测器的参考帧由于包损坏而丢失,但用于重建的块从邻近摄像机视角是可获得的,那么该视角能够提供一个替代的预测器。
将单视角解码扩展到多视角解码,用运动搜索解码在时域、基于对极几何视差估计在空间域对1个块进行解码。对同一个摄像机视频流中的不同数据帧之间的相关性DVC是采用运动补偿时间差值来进行利用,而视角间的相关性的利用相对不是那么容易,基于对极几何,利用改进的视差估计算法,可以更好地利用视角间的相关性得到更准确的边信息。
4.3基于对极几何的视差估计
现在讨论视角间边信息的产生。临近视角的差异可以通过对极几何来约束来描述。为了对快速视差估计有效实行对极几何约束,首要需解决两个基本问题:
(1)确定最优的视差搜索开始点以及一个特殊的符合对极
约束的搜索窗口形状。
(2)进一步减小视差搜索空间,以加速基于对极几何的视差估计,而不会显著降低视角间视频解码效率。
运动开始搜索点的确定对快速运动估计算法是非常重要的,决定了搜索速度和搜索结果的性能。故此大部分快速运动估计算法都使用中值预测开始点来对搜索区域进行运动搜索。
如图6所示,其开始搜索点由中值运动向量预测,包括当前模块的左边、上边、右上边相邻模块的运动向量值用于预测计算。虽然中值预测搜索中心点(MedianPredictedSearch
)TWZTWZ图8OPESC视差搜索融合解码方式图
为了描述简单,假定相邻摄像机的对极几何约束关系的基
础矩阵已经算出。给出了摄像机2视角中的当前模块的质心坐标为(src_centroid_x,),摄像机1视角中对应的对src_centroid_y极线方程为aX+bY+c=0,对极线可以通过齐次坐标乘以基础矩阵求出。计算出对极线后,当前宏模块(src_centroid_x,
)对应的开始搜索点和对应初始视差向
124
2010,46(17)ComputerEngineeringandApplications计算机工程与应用
由表2可以看出,视差算法中最主要的绝对差值和运算数量提出的方法比MJPEG要减少10倍左右,比H.263+减少7倍左右。
量可以由MPSC点的视差向量求出其估计值[11]:
(y)(y)(y)med_centroid_x=src_centroid_x+med_dv_x
(y)(med_centroid_x(y),)ope_centroid_x=ORTHO_PROJa,b,c(y)(y)(y)ope_dv_x=ope_centroid_x-src_centroid_x由于大的匹配窗口获得的匹配结果更为可靠,因此,只在宏模块级进行视差搜索,选用的是16×16。这样做的好处是避免小的匹配窗口容易出现的预测奇异值来破坏视差域的光滑度,而且也可以很好地控制计算代价。
摄像机2的T时刻WZ帧在摄像机1的T时刻WZ帧进行视差搜索。摄像机2的T时刻WZ帧同时对同摄像机T-1时刻WZ帧进行运动搜索解码(获取时间域相关性),故解码方式是一种融合方式。运动搜索范围的选择取决于从一帧到下一帧可能的运动量,而视角间的视差搜索计算量不会太大,因为搜,故此对原始DVC解码增索空间已经大幅缩小(VSR减小了)加的额外计算负担较少。
6结论
提出了一种新的基于对极几何的快速视差估计算法,通过
选定新的搜索开始点,比从传统中值预测搜索开始点提高了搜索的匹配概率;通过约束垂直搜索范围(VSR),极大减小了搜该系统具有低的编码复杂度,索范围,降低了搜索计算复杂度。且不要求传感器之间进行通信。
进一步的研究包括低帧速率下的多视角视频编码,因为在低帧速率情况下,视角间的相关性将大大高于视角内的时间相关性。
参考文献:
[1]MerkleP,MüllerK,SmolicA,etal.Efficientcompressionofmulti-viewvideoexploitinginter-viewdependenciesbasedonH.264/MPEG4-AVC[C]//ProcICME2006,InternationalConferenceonMulti-Toronto,Ontario,Canada,2006.mediaandExpo,
[2]SlepianJ,WolfJ.Noiselesscodingofcorrelatedinformationsources[J].
(4)IEEETransonInformationTheory,1973,19.
ZivJ.Therate-distortionfunctionforsourcecodingwith[3]WynerA,
sideinformationatthedecoder[J].IEEETransonInformationThe-(1)ory,1976,22.
[4]GuoX,LuY,WuF,etal.Distributedmulti-viewvideocoding[J].
5实验结果
仿真代码参考DISCOVER编码(http://www.discoverdvc.)和D.Chen等的代码(http:org//www.stanford.edu/~divad/soft-
)。使用Breakdancing和Ballroom多视角视频序列。ware.html
Breakdancing序列的3个视角第一帧图片如图9所示。
(a)第一视角第一帧
图9
(b)第二视角第一帧(c)第三视角第一帧VisualCommunicationsandImageProcessing2006,SanJose,CA,2006.
[5]OuaretM,DufauxF,EbrahimiT.Fusion-basedmultiviewdistributed
videocoding[C]//4thACMInternationalWorkshoponVideoSurveil-lanceandSensorNetworks2006,SantaBarbara,CA,2006.[6]ZhuX,AaronA,GirodB.Distributedcompressionforlargecamera
arrays[C]//ProcIEEEWorkshoponStatisticalSignalProcessing,2003:30-33.
[7]GehrigN,DragottiPL.Different-distributedandfullyexibleimage
encodersforcamerasensornetworks[C]//ProcIEEEInternationalConferenceonImageProcessing,2005:690-693.
AaronA,RaneS,etal.Distributedvideocoding[C]//Proc[8]GirodB,
IEEESpecialIssueonAdvancesinVideoCodingandDelivery,(1):2005,9371-83.
[9]PuriR,RamchandranK.PRISM:Anewrobustvideocodingarchi-
tecturebasedondistributedcompressionprinciples[C]//ProcAller-tonConferenceonCommunication,ControlandComputing,2002.[10]FredericD,MouradO,TouradjE.Recentadvancesinmulti-view
distributedvideocoding[C]//SPIEMobileMultimedia/ImagePro-cessingforMilitaryandSecurityApplications,Orlando,FL,2007.[11]LuJiang-bo,CaiHua,LouJian-guang,etal.Anepipolargeometry-basedfastdisparityestimationalgorithmformultiviewimageandvideocoding[J].IEEETransactionsonCircuitsandSystems
for
(6):Video
Technology,2007,17737-750.
Breakdancing序列的多视角图像
仿真比较算法包括:提出的使用对极几何的DVC(DVC-)、运动JPEG(MJPEG)、(H.263+)。测试时15帧EGH.263+编码为一个图像组(GOP)。3种编码算法对两组以15f/s传输的多视角视频流编解码后的图像PSNR的结果如表1所示。
表1
两个多视角序列在不同算法下的PSNR
Breakdancing序列平均PSNR/dB
DVC-EGMJPEGH.263+
35.2629.1332.45
Ballroom序列平均PSNR/dB
38.6831.5535.26
由表1可以看到,利用快速视察估计算法来更好获取视角间边信息后,提出的方法相比MJPEG编码获得了大约6到7dB的增益,相比H.263+获得大约3dB增益。
由于绝对差值和在视差估计是最耗时的计算,不同算法中的绝对差值和(SAD)操作的次数统计如表2所示。
表2绝对差值和(SAD)操作数量表
Breakdancing序列
平均SAD
DVC-EGMJPEGH.263+
100.231069.54820.36
Ballroom序列平均SAD
93.581026.27820.36
ComputerEngineeringandApplications计算机工程与应用2010,46(17)
121
使用对极几何的多视角分布式视频编码
2
蔡述庭1,,王钦若1,尹明1
2,CAIShu-ting1,WANGQin-ruo1,YINMing1
广州5100061.广东工业大学自动化学院,
南京2100962.东南大学信息科学与工程学院,
1.FacultyofAutomation,GuangdongUniversityofTechnology,Guangzhou510006,China
2.SchoolofInformationScienceandEngineering,SoutheastUniversity,Nanjing210096,ChinaE-mail:[email protected]
CAIShu-ting,WANGQin-ruo,YINMing.Multi-viewdistributedvideocodingusingepipolargeometry.Computer
(17):EngineeringandApplications,2010,46121-124.Abstract:Toreducethecomplexityofdecoderformulti-viewdistributedvideocodingandsolvetheaccuracyofaccessingside
information,anovelepipolargeometry-baseddisparityestimationalgorithmisusedformulti-viewdistributedvideocodingsystem.Byusingconstraintsofepipolargeometryforredundantinformationofinter-views,proposedsystemappliesanoveldisparitysearchcenterandrestrictstheverticalsearchspacetoacceleratesearching.Experimentsresultsshowthatthemainoperations
(SAD)ofproposedsystemcalculate10timeslessthanMotionJPEG(MJPEG),SumofAbsoluteDifference7timesthanH.263+.
Meanwhile,theproposedsystemgetscompressiongain6~7dBcomparedwithMJPEG,3dBwithH.263+.Keywords:multi-view;distributedvideocoding;epipolargeometry;disparityestimation摘
要:为了降低多视角分布式视频编码中解码器复杂度,解决视角间边信息的获取精度等问题,将一种新的基于对极几何的视
差估计算法用于多视角分布式视频编码系统。提出的系统通过对视角间的冗余信息使用对极几何约束,采用新的视差搜索开始点,限制垂直方向的搜索范围以加快搜索速度。实验结果表明,提出的系统相对于运动JPEG(MJPEG)编码的主要运算绝对差值和(SAD)计算次数减少10倍,相对H.263+减少7倍。同时提出系统相对MJPEG编码有6~7dB增益,相对H.263+有3dB增益。关键词:多视角;分布式视频编码;对极几何;视差估计DOI:10.3778/j.issn.1002-8331.2010.17.034
文章编号:(2010)1002-833117-0121-04
文献标识码:A
中图分类号:TN919.82
1引言
多视角视频在很多方面具有非常好的应用前景,因为它使
得用户能够从不同视角观看静态或者动态的场景。在三维电视电影的多媒体领域,以及军事、安防以及医疗领域的视频监控等方面都有广泛应用,多视角视频的研究已经越来越受到各方面的重视。
虽然多视角视频能够提供激动人心的视觉体验,但其是以巨大的存储和传输带宽为代价的。多视角的视频传感器网络如
相比非多视角的情况,针对同一场景获得的CCD摄像机阵列,
视频数据量要大很多。因此,运动图像专家组(MPEG)三维音视
频Adhoc专家组将多视角视频编码作为一个最具有挑战性问题。
幸运的是多视角获取的同一场景视频数据序列具有大量的冗余数据。可以通过利用时间方向和视角间的相关性来对这些数据进行联合压缩。视差技术用来对一个运动对象从一个视角到另一视角的位移进行补偿,以此来消除视角间的相关性。
运动图像专家组(MPEG)主导了多视角视频编码(Multi-)的一些最新工作[1]。MVC是作为先进viewVideoCoding,MVC
视频编码(AdvancedVideoCoding,)标准的一个扩展。虽AVC然MVC方法获得了较高的压缩效率。但这种编解码结构需要处于传感设备端的编码器具备很高的计算能力。另外,这种结构还需要摄像机之间具备通信能力,否则无法进行联合编码。显然,这些要求对无线视频传感器网络来说都是不现实的。
分布式视频编码(DVC)的兴起为多视角视频编码提出了一种崭新的解决方案。它是基于Slepian-Wolf[2]和Wyner-Ziv[3]编码理论。分布式编码理论证明对于两个或者多个相关信源执行联合编解码可获得的最优速率理论上能够通过单独编码和联合解码来获得。这就允许摄像机间无需通信的情况下来利用视角间的相关性,并可以满足无线视频传感器网络的有限带宽和低功耗限制条件。
在多视角DVC中,边信息可以被通过摄像机的视觉内的运动补偿时间插值或者临近的摄像机的视角间插值来产生。文
基金项目:广东省自然科学基金(theNaturalScienceFoundationofGuangdongProvinceofChinaunderGrantNo.[**************]2)。
作者简介:蔡述庭(1979-),男,博士研究生,讲师,主要研究领域为视频编码;王钦若(1958-),男,教授,主要研究领域为自动化装备,智能控制;
尹明(1975-),男,博士,讲师,主要研究领域为视频编码。
修回日期:
122
2010,46(17)ComputerEngineeringandApplications计算机工程与应用
X
对极平面
p
l′
le
p′e′
C′
献[4]中,一种基于像素差异和运动矢量幅度的融合技术被提出。然而,这些方法都没有能与MCTI相比获得相应的编码增益。在文献[5]中,一种融合单应性矩阵补偿视角间插值(HCII)的边信息产生技术被提出,使得编码增益与传统带MCTI的
但编码端有超过一半的帧都需要传DVC相比提高0.2~0.5dB,
文献[6]将庞大的摄像机阵列划分为传统摄像机统的帧内编码。
和“Wyner-Ziv”摄像机。但这种方法需要反馈,当传感器网络非常庞大时,这么多反馈回路显然是不现实的。文献[7]对每一个立体图像的扫描线建模为分段线性多项式。但实际上分段线性多项式不足以对实际情况建模。
依据对极几何理论,设计一种有效的快速视差估计算法,提高多视角分布式视频编码(MDVC)系统中边信息的准确度,降低解码复杂度,同时获得更好编码增益。
C
图2对极平面图
设三维空间物体上的点X在左右两个图像上分别投影为p
和p′,两摄像机的光学中心C,p和p′称为匹配点,C′的连线称为基线(baseline)。包含基线的任意平面称为对极平面(epipo-)。基线与左右两个图像的交点e、larplanee′称为两图像平面的对极心(epipole),对极平面与图像平面的相交线称为对极线),如l′和l。根据对极几何原理可知,在齐次坐标(epipolarline下有:
(F)(1)p′Fp=0,rank=2
(x,)、(x′,),p、p′的齐次坐标分别为y,1y′,1F为3×3且秩为2的矩阵。
T
2分布式视频编码
分布式信源编码是一个新的编码结构,即多个具有相关性
的信源使用相互独立的编码,而解码时进行联合解码。分布式视频编码现在最为典型的几个模型包括:
斯坦福大学Girod等人提出[8]的斯坦福模型,伯克利大学
以及欧盟信息技术协Ramchandran等人提出[9]的伯克利模型,
会下的未来和新兴技术组(IST-FET)2005年开始支持的DIS-
(http:)。COVER项目//www.discoverdvc.org
为了进一步提高编解码性能,采用了斯坦福模型的离散余弦变换域编码框架,如图1所示。输入视频数据先经过DCT变换,得到低频和高频系数。低频成份通过量化后将校验位通过WZ编码发送。而高频系数通过熵编码直接发送。
3.2基本矩阵的推导
从一点和其外极线之间的映射来推导基础矩阵。对于给定的两个图像,如图3所示,左边图像中任意一点
右边图像中必然存在一个对应的对极线l′。右边图像中任何x,
与左边图线中x匹配的点x′必然位于对极线l′上。图3中有:
(2)x′=Hπx,l′=e′×x′=[e′]×Hπx=Fx其中Hπ=P′P称为单应性矩阵,F=[e′]×Hπ称为基础矩阵。基础矩阵F代表了一个从两维映射到一维的投影空间。
x
π
+
校验位
x
e
l′
Hπ
e′x′
图3
对极几何映射图
对极几何使得能够约束解码器的视差搜索为基本的一维那么视差搜索可搜索。如果在最小和最大搜索范围上有限制,以进一步约束以减小解码器复杂度。
)编码框图(a
4多视角视频编码
多视角视频的压缩率是其成功应用的首要条件。幸运的是
不同视角间具有很强的相关性。然而,摄像传感器网络的功耗受到严格控制,因此,必须要有一个低复杂度编码器来避免复杂的内部节点间通信。
4.1多视角分布式视频编码
文献[10]提出了一种多视角DVC系统结构,如图4所示。
(b)解码框图图1
斯坦福模型编码框图
配置包括3个摄像机并且假设是静止的。两边视角的编码使用传统的AVC帧内编码。中间视角的采用DVC。从中间视角来看,假设奇数帧是使用AVC编码的关键帧,而偶数帧采用WZ。
这种系统结构的边信息分为两个部分:一种是视角内的,采用MCTI方式来估计产生;另外一种边信息是视角间的,采用单应性矩阵补偿视角间插值HCII边信息估计,获得较好效果。但是从图4中可以看出,这种结构中有一半的传感器采用的还是传统的H.264/AVC编码,虽然是帧内编码方式,编码器无需运动补偿,但相对分布式编码,要想
解码端低频系数进行Turbo解码,同时利用了高频系数部
分进行运动补偿时间差值得到边信息,低频系数解码后再与细化的高频系数一起重构,反DCT变换后得到解码数据帧。
3对极几何
3.1对极几何理论
2所示
蔡述庭,王钦若,尹明:使用对极几何的多视角分布式视频编码2010,46(17)
123
办法尽量减少AVC编码。这样构建如图5所示的编码系统。
摄像机
(对极几何原理,认为两个服从对极几何约束的相邻多视角图像的匹配点应该位于对极线附近,而不是中值预测搜索中心点。根据这个结论,将MPSC正交投影到对极线,其投影点选择为
(Orthogonal开始搜索中心。也称为正交投影对极搜索中心点),如图7所示。ProjectionEpipolarSearchCenter,OPESC
((图4
摄像机(多视角分布式视频编码
图6模块E中值运动向量预测图
((图5采用的多视角分布式视频编码图7中值预测搜索中心点投影图
如图5所示这种情况下,边信息能够通过摄像机序列的时间插值来产生,或者通过临近视角的视角间插值来获取。在实际情况下,如监控摄像机网络这种方法允许低功耗,低复杂度摄像机,且不需要摄像机间通信,这是最大优点。通过采用分布式视频编码,更可以提高无线信道下的传输鲁棒性。
由统计结果证明,在满足对极几何约束的情况下,在不同搜索窗口面积下(搜索窗口以OPESC为中心),采用OPESC找
到最优视差向量的概率要比MPSC的概率普遍有所提高。
另外一个问题是怎样减小搜索空间。由上面证实的推测结果进一步可知越靠近OPESC的候选者越有更高的概率被确定为最优视差向量。因此当垂直搜索范围(VSR)和水平搜索范围(HSR)都是可变时,在预测精度和计算负荷方面可以取一个较好的折中。考虑到大部分多视角摄像机的典型配置,水平视差在整个运动中占主要成份,因此,可以将VSR的值减小来加速解码速度,而不会导致显著的视差搜索质量下降。故此选择
而VSR为4。HSR为16,
如图8所示,采用的基于对极几何的视差搜索算法主要包括两个步骤:首先是将常用的MPSC通过正交投影到对极线,
沿着对极线以OPESC为中心、搜索区域大找到OPESC。然后,
幅减小的空间进行搜索。
4.2多视角视频编解码算法
具体的分布式视频编解码过程依据文献[8],这里主要关心
分布式视频编码一般使用运动补偿时间解码端边信息的产生。
差值(MCTI)来为解码器产生候选预测器。如果时域预测器的参考帧由于包损坏而丢失,但用于重建的块从邻近摄像机视角是可获得的,那么该视角能够提供一个替代的预测器。
将单视角解码扩展到多视角解码,用运动搜索解码在时域、基于对极几何视差估计在空间域对1个块进行解码。对同一个摄像机视频流中的不同数据帧之间的相关性DVC是采用运动补偿时间差值来进行利用,而视角间的相关性的利用相对不是那么容易,基于对极几何,利用改进的视差估计算法,可以更好地利用视角间的相关性得到更准确的边信息。
4.3基于对极几何的视差估计
现在讨论视角间边信息的产生。临近视角的差异可以通过对极几何来约束来描述。为了对快速视差估计有效实行对极几何约束,首要需解决两个基本问题:
(1)确定最优的视差搜索开始点以及一个特殊的符合对极
约束的搜索窗口形状。
(2)进一步减小视差搜索空间,以加速基于对极几何的视差估计,而不会显著降低视角间视频解码效率。
运动开始搜索点的确定对快速运动估计算法是非常重要的,决定了搜索速度和搜索结果的性能。故此大部分快速运动估计算法都使用中值预测开始点来对搜索区域进行运动搜索。
如图6所示,其开始搜索点由中值运动向量预测,包括当前模块的左边、上边、右上边相邻模块的运动向量值用于预测计算。虽然中值预测搜索中心点(MedianPredictedSearch
)TWZTWZ图8OPESC视差搜索融合解码方式图
为了描述简单,假定相邻摄像机的对极几何约束关系的基
础矩阵已经算出。给出了摄像机2视角中的当前模块的质心坐标为(src_centroid_x,),摄像机1视角中对应的对src_centroid_y极线方程为aX+bY+c=0,对极线可以通过齐次坐标乘以基础矩阵求出。计算出对极线后,当前宏模块(src_centroid_x,
)对应的开始搜索点和对应初始视差向
124
2010,46(17)ComputerEngineeringandApplications计算机工程与应用
由表2可以看出,视差算法中最主要的绝对差值和运算数量提出的方法比MJPEG要减少10倍左右,比H.263+减少7倍左右。
量可以由MPSC点的视差向量求出其估计值[11]:
(y)(y)(y)med_centroid_x=src_centroid_x+med_dv_x
(y)(med_centroid_x(y),)ope_centroid_x=ORTHO_PROJa,b,c(y)(y)(y)ope_dv_x=ope_centroid_x-src_centroid_x由于大的匹配窗口获得的匹配结果更为可靠,因此,只在宏模块级进行视差搜索,选用的是16×16。这样做的好处是避免小的匹配窗口容易出现的预测奇异值来破坏视差域的光滑度,而且也可以很好地控制计算代价。
摄像机2的T时刻WZ帧在摄像机1的T时刻WZ帧进行视差搜索。摄像机2的T时刻WZ帧同时对同摄像机T-1时刻WZ帧进行运动搜索解码(获取时间域相关性),故解码方式是一种融合方式。运动搜索范围的选择取决于从一帧到下一帧可能的运动量,而视角间的视差搜索计算量不会太大,因为搜,故此对原始DVC解码增索空间已经大幅缩小(VSR减小了)加的额外计算负担较少。
6结论
提出了一种新的基于对极几何的快速视差估计算法,通过
选定新的搜索开始点,比从传统中值预测搜索开始点提高了搜索的匹配概率;通过约束垂直搜索范围(VSR),极大减小了搜该系统具有低的编码复杂度,索范围,降低了搜索计算复杂度。且不要求传感器之间进行通信。
进一步的研究包括低帧速率下的多视角视频编码,因为在低帧速率情况下,视角间的相关性将大大高于视角内的时间相关性。
参考文献:
[1]MerkleP,MüllerK,SmolicA,etal.Efficientcompressionofmulti-viewvideoexploitinginter-viewdependenciesbasedonH.264/MPEG4-AVC[C]//ProcICME2006,InternationalConferenceonMulti-Toronto,Ontario,Canada,2006.mediaandExpo,
[2]SlepianJ,WolfJ.Noiselesscodingofcorrelatedinformationsources[J].
(4)IEEETransonInformationTheory,1973,19.
ZivJ.Therate-distortionfunctionforsourcecodingwith[3]WynerA,
sideinformationatthedecoder[J].IEEETransonInformationThe-(1)ory,1976,22.
[4]GuoX,LuY,WuF,etal.Distributedmulti-viewvideocoding[J].
5实验结果
仿真代码参考DISCOVER编码(http://www.discoverdvc.)和D.Chen等的代码(http:org//www.stanford.edu/~divad/soft-
)。使用Breakdancing和Ballroom多视角视频序列。ware.html
Breakdancing序列的3个视角第一帧图片如图9所示。
(a)第一视角第一帧
图9
(b)第二视角第一帧(c)第三视角第一帧VisualCommunicationsandImageProcessing2006,SanJose,CA,2006.
[5]OuaretM,DufauxF,EbrahimiT.Fusion-basedmultiviewdistributed
videocoding[C]//4thACMInternationalWorkshoponVideoSurveil-lanceandSensorNetworks2006,SantaBarbara,CA,2006.[6]ZhuX,AaronA,GirodB.Distributedcompressionforlargecamera
arrays[C]//ProcIEEEWorkshoponStatisticalSignalProcessing,2003:30-33.
[7]GehrigN,DragottiPL.Different-distributedandfullyexibleimage
encodersforcamerasensornetworks[C]//ProcIEEEInternationalConferenceonImageProcessing,2005:690-693.
AaronA,RaneS,etal.Distributedvideocoding[C]//Proc[8]GirodB,
IEEESpecialIssueonAdvancesinVideoCodingandDelivery,(1):2005,9371-83.
[9]PuriR,RamchandranK.PRISM:Anewrobustvideocodingarchi-
tecturebasedondistributedcompressionprinciples[C]//ProcAller-tonConferenceonCommunication,ControlandComputing,2002.[10]FredericD,MouradO,TouradjE.Recentadvancesinmulti-view
distributedvideocoding[C]//SPIEMobileMultimedia/ImagePro-cessingforMilitaryandSecurityApplications,Orlando,FL,2007.[11]LuJiang-bo,CaiHua,LouJian-guang,etal.Anepipolargeometry-basedfastdisparityestimationalgorithmformultiviewimageandvideocoding[J].IEEETransactionsonCircuitsandSystems
for
(6):Video
Technology,2007,17737-750.
Breakdancing序列的多视角图像
仿真比较算法包括:提出的使用对极几何的DVC(DVC-)、运动JPEG(MJPEG)、(H.263+)。测试时15帧EGH.263+编码为一个图像组(GOP)。3种编码算法对两组以15f/s传输的多视角视频流编解码后的图像PSNR的结果如表1所示。
表1
两个多视角序列在不同算法下的PSNR
Breakdancing序列平均PSNR/dB
DVC-EGMJPEGH.263+
35.2629.1332.45
Ballroom序列平均PSNR/dB
38.6831.5535.26
由表1可以看到,利用快速视察估计算法来更好获取视角间边信息后,提出的方法相比MJPEG编码获得了大约6到7dB的增益,相比H.263+获得大约3dB增益。
由于绝对差值和在视差估计是最耗时的计算,不同算法中的绝对差值和(SAD)操作的次数统计如表2所示。
表2绝对差值和(SAD)操作数量表
Breakdancing序列
平均SAD
DVC-EGMJPEGH.263+
100.231069.54820.36
Ballroom序列平均SAD
93.581026.27820.36