第13卷第3期
2013年6月
JoumaIof
交通运输系统工程与信息
TransponationSystemsEn西neeringandI山mationTechnology
m5
V01.13
June
No.32013
文章编号:1009.6744(2013)03_0121
大规模交通流预测方法研究
孙占全8,刘威,朱效民
(山东省计算中心山东省计算机网络重点实验室,济南250014)
摘要:随着交通信息化的快速发展,可供分析的交通流数据量越来越大,如何利用大
规模交通流数据进行交通预测分析是智能交通的重要研究内容.为解决大规模交通流数据预测问题,本文提出了一种基于分层抽样与k均值聚类相结合的抽样方法,并与基于序贯最小优化方法的支持向量机结合,进行大规模交通流预测.实例分析结果表明,本文提出的聚类方法比现有抽样方法的抽样质量有所提高,基于序贯最小优化方法的支持向量机可有效提高交通流预测的精度.因此,本文提出的方法对于大规模交通流预
测是有效的.关键词:
智能交通;拥挤判别;抽样;k均值聚类
文献标识码:A
中图分类号:U268.6
TrafncFlowForecastingBased
on
LargeScaleTrafncFlowData
SUNZhan-quan,UU
(Shandong
Wei,ZHU
Xiao—min
250014,China)
ComputerScienceCenter,ShandongPmVincialKeyL.aboratoryofComputerNetwork,Jinan
Abs位驰t:
Winlthedevelopmentoftramcinfo珊atization,increasing
to
amount
aa
of
trafEicdata
can
be
collected.Howtmnsponation
makemostofthe
m瓶c
datatoforecasttramcnowis
c11JcialworkoftheinteUigentsamplingmethodbased
Vector
on
systems(ITs).Toresolvethispmblem,thispaperpmposes
the
combinationofstrati6edsamplingmethodandk—meansclustering.Thesupport
on
IfIachine(SVM)based
resultsshowthatthe
on
sequence
optilnizationmethodisused
on
to
forecaLsttmmcnow
p啪meters.Theanalysis
to
samplingqualitybasedSVMalsopmblems.
gets
theproposedsamplingmethodisItproves
that
the
method
is
ref0册ed.The
emcient
fbrecastingprecisionbased
the
improved.
solve
large—scaletramcforecasting
Key、阳rds:
CLC
inteUigem
transpomti伽system;t珀mc
con窘estion
identification;saIIlpling;k—rr呦11s
A
cIustedng
n岫ber:
U268.6
Doc岫entcode:
收稿日期:2013-ol驷
修回日期:2013_02-26
录用日期:2013m3艄
基金项目:国家自然科学青年基金项目(61004115);国家科技支持计划项目(2012BAH09803)作者简介:孙占全(1977一),男,黑龙江哈尔滨人,副研究员,博士.+通讯作者:sunzhq@keylab.net.
万方数据
122
交通运输系统工程与信息
2013年6月
1
引言
交通流预测是智能交通系统的实时交通信号控制、交通分配、路径诱导、自动导航、事故检测等的前提,因此,交通流预测是智能交通领域的研究热点¨J.许多专家和学者致力于交通流预测的研
究,大量的预测模型已被研究,常用的预测方法有
平均值法、ARMA、线性回归、非参数回归、神经网络、支持向量机等心J,支持向量机建立在统计学习的VC维理论和结构风险最小原理基础上,较好地解决了非线性、高维数和局部极小点等实际问题,被认为是最有效的交通流预测模型之一.随着智能交通基础设施的不断完善,积累了越来越多的交通流数据,支持向量机的计算量随数据量呈指数增长,如何在充分利用大量交通流数据的同时保证交通流分析的实时性是目前的研究难点.提高大规模数据挖掘速度主要有两种方法:一是抽样方法,从大规模数据中抽样,在抽样数据基础上,构建数据挖掘模型,这样构建模型迅速有效,然而,如何提高抽样样本的质量仍待解决;二是算法并行化,通过分布式计算或并行计算实现算法并行化,从而提高算法的计算速度口J.
抽样是从大量的数据中抽取与探索问题有关的数据子集,这个样本应该包含足够的信息,且易于处理.对数据进行抽样很有必要,不同的数据抽样方法对训练结果模型的精度有很大影响.目前几种常用的抽样方法有简单随机抽样、系统抽样、整群抽样、分层抽样等.通常认为分层抽样的质量要好于其他方法,在分层后,通常采用随机抽样的方法获取抽样样本,为进一步提高抽样样本的质量,可以将分层后的样本根据相似度进行聚类,从不同类中按照比例抽取相应的样本,这样可以有效提升抽样样本的覆盖率,从而提高样本质量.本文提出了分层抽样与k均值聚类结合的抽样方法,既将分层的样本用k均值聚类方法进行聚类,然后,从每
类中按比例进行抽样.
支持向量机是有效的分类和回归工具,许多支持向量机软件模型已被提出,如libsVM、lightSVM、ls—sVM等,LibsVM被认为是最有效的支持向量机
模型Hj,广泛应用到实际中.随着训练样本数的增
长,支持向量机的计算和存储需求呈指数增长,致使很多实际问题都无法解决,支持向量机的核心是
二次规划问题,文献[5]通过分块方式实现二次规
万方数据
划的加速求解,文献[6]提出了序贯最小优化方法(SOM),将块的大小减少到2个向量,是非常有效的一种加速方法,并应用到很多领域,本文将采用该支持向量机模型对交通流进行预测,从而提高大规模交通流预测的速度.最后,通过实例分析来验证算法的有效性.
2基于k均值聚类的分层抽样方法
本方法首先利用分层抽样方法对原始数据进行分层,然后对各分层数据利用k均值方法进行无监督聚类,最后从各聚类中抽取样本,方法详细介
绍如下.2.1样本分层
分层抽样法是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位.基于分层抽样的分层方法如下.
(1)分层特征的确定.
分层特征是抽样前对总体进行分组的依据.在实际测量时可以根据实际的需要选取相应的分层
特征.
(2)各层样本量分配的确定.
各层样本量的分配是层内样本与总样本之间的一种分配关系,主要有均匀分配、比例分配和最优分配3种分配方法.考虑到测量的复杂性、实用性等因素,本文使用样本量的比例分配方法.
在样本分层之后,如何对各个分层选取合适的抽样样本,仍然是值得研究的问题.目前大多数选
择随机抽样的方法,根据比例抽取相应的样本,这
样并不能保证抽到该层内各种类型的样本,如果抽取的样本不能覆盖样本集的各种特性,将会降低抽样的质量.为提高抽样质量,需要选取覆盖各种特性的样本,即选取的样本更具代表性.聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,是一种发现这种内在结构的技术,聚
类技术经常被称为无监督学习.通过聚类可以将相
近特性的样本聚在一起,然后再在个聚类中按照样本数比例随机选取相应的样本数,这样抽取的样本更具代表性.同时,k均值聚类是针对各个分层的,样本量会大大降低,适合于对海量数据的处理.
2.2基于k均值聚类的抽样
k均值聚类
给定观察样本集D=(菇,,菇:,…,戈。),其中每
2.2.1
第13卷第3期大规模交通流预测方法研究
123
个样本是d维向量,k均值聚类就是要将n个样本划分成|j}(尼≤n)个子集S=(S。,S:,…,|s。),目标上使得类内的方差和最小,即
^
min∑∑0鼍一pi
0
2
(1)
Hl’5
5i
式中化是5i中所有点的均值.
距离测度通常选为欧几里得距离,定义如下
厂i———————一
州舻√乏1‰飞I
2
(2)
式中
戈i=(x¨戈∽…,zi。)和巧=(巧。,%,…,勺。)
是两个m维数据对象.
k均值聚类算法的步骤总结如下.
Step
1从D中随机取lj}个元素,作为||}个簇
各自的中心.
Step
2分别计算剩下元素到后个簇中心的相异度,将这些元素分别划归到相异度最低的簇.
Step
3根据聚类结果,重新计算南个簇各自
的中心,计算方法是取簇中所有元素各自维度的算
术平均数.
Step4
将D中全部元素按照新的中心重新
聚类.
Step5重复step4,直到聚类结果不再变化.Step
6将结果输出.
2.2.2基于k均值聚类的样本抽取方法
基于分层与k均值距离的样本抽取方法步骤
总结如下.
Stepl
对原始数据进行简单统计分析,确定
样本数及各种特征对应的样本数比例,确定所要抽样的样本数比例.
Step
2根据样本特征对样本进行分层分析,得到相互独立的样本集.
Step
3针对各分层得到的样本子集,利用k
均值聚类对样本进行聚类分析,然后根据各类样本
数确定抽样比例.
Step
4将抽样结果输出.
3基于SMO的支持向量机算法
一3.1支持向量机
支持向量机首先将输入单元映射到高维特征空间,然后找一个分割超平面使得两类之间的边缘最大,边缘最大化是二次规划问题,通过引入拉格朗日乘子可以变换成对偶问题来解决.在没有任何
万方数据
有关映射知识的情况下,支持向量机通过使用特征空间函数的点积来找最优的超平面,这个函数的点
积称为核函数.最优超平面的解可以写成很少输入
点的组合形式,这几个点称为支持向量.
给定训练集(石i,yi),i=1,2,…,n,其中戈i∈∥,yi∈{±1},一个到高维特征空间的非线性变
换(多(.),∥璺3RⅣ),支持向量机要求解下列
方程
毋碧{寺II加II2+c;£)
s.t.
yi(咖1(zi)埘+6)≥l—fiVi=1,…,n
氧≥O
V江1,…,凡
(3)
式中
训和6在特征空间定义线性分类器;C是惩
罚系数,可以根据具体问题事先指定;£为松弛变
量,江1,2,…,凡;中(・)为映射函数.支持向量机
尽量保证正样本的输出值大于+1,负样本的输出值小于一l,不满足这个条件的样本需加一个非零松弛变量直,这样将给目标函数增加一个惩罚项.问题优化是为了保证解有最大边缘,通过引入拉格朗日乘子,优化问题可转换成它的对偶形式
-嘎n寺∑∑yi乃ai哟K(戈i,勺)一∑q
(4)
s・t・
亡乞咒ai
2
u
,、
i=1
0≤ai≤C,i=l,2,…,n
式中
di是拉格朗日系数,江1,2,…,n;n是训练
样本数;K(xi,戈i)=(少(xi)・西(戈i))是核函数.对偶问题的求解要比原问题容易得多.
通过优化计算求得a’,6+后,用式(15)的决策函数来确定测试样本应属于哪一类
以石)=sgn(∑),iai+K(戈i,并)+6+)
(5)
3.2序贯最小优化法(SMo)
SMO算法可以看作式(4)分解算法的极端特例,该算法在每次迭代中将工作集的大小固定为
2,方法归纳如下.
Stepl设a1为最初的可行解,|j}=1.
Step
2如果a‘是式(4)最优解,停止.否则
选择2个元素B={i,_『}c{l,…,n},定义Ⅳ;
{1,…,n}\曰,d:和a:是a‘的子向量,分别对应
着N和B.
124
交通运输系统工程与信息
2013年6月
Step
3求解对应变量d。的子问题
呼扣㈦门【吕:剐习
-[e㈡蚓
扣哟,暖挑]
∞’
+(一e口+Q删口:)7+常数
sub.
0≤仪。,q≤C
r
,tdI+yio【i2一yN
step4设d∥是式(6)的最优解,a铲1一
a;:T,设后一|j}+1,返回到step
2.
4
基于抽样与支持向量机结合的交通流
预测
设戈i表示交通流参数的当前值;戈1,.一,戈。表
示相关的历史数据;p表示预测当前交通流值所用的历史数据维数;通过构造预测模型,用戈,,…,戈。预测戈i的值.历史交通流参数用x={五,x:,…,x。}表示,预测的交通流参数用y表示,基于抽样与支持向量机结合的方法进行交通流预测.
(1)根据交通流预测模型,生成训练样本,设定抽样比例参数和支持向量机核参数.
(2)根据参数l,的取值范围,将其分成z段,样本根据分段值进行划分,每份样本数为ni(i=1,
2,…,2).
(3)针对每份样本进行k均值聚类分析,生成k个聚类,根据各聚类的样本数,按比例从各个聚
类中随机抽样,生成训练抽样样本.
(4)将抽样的训练样本输入到基于序贯最小优化法的支持向量机,利用训练的支持向量机模型对交通流预测.
5
实例分析
为验证本文提出的抽样方法的有效性,利用济
南市交警支队提供的线圈检测器采集的交通流数
据进行交通流预测分析,实例分析如下.5.1数据来源
2007年1月1日至2007年6月1日采集济南市经十路与山师东路和环山路交叉口的交通流数据为研究对象,交通流检测器为线圈检测器,采集
万方数据
时间间隔为5min,一天有288个时间采集点,采集
的交通流数据包括流量、速度、时间占有率等,数据
如表1所示,共有53187条数据.通过对交通流数
据建模,利用历史数据对当前采集点进行交通流
预测.
表1原始数据样例
Table1
S蛐ple
ofininaldata∞urce
5.2交通流预测模型
设y表示当前交通流参数值,向量x=(X,,五,…,xM)表示当前路口前Ⅳ1个采集点的值,向量日=(H。,H:,…,HM)表示当前路口前Ⅳ2个历史周期采集的交通流参数值,向量z=[x,H]作为
交通流预测的输入特征变量.在本实例中,Ⅳ.=
10,Ⅳ2=5,共15个特征变量,需要5天的历史数据预测当前的交通流参数,根据预测模型,共生成
51
747个样本.选取30000个样本作为训练样本,
其余的21747个样本作为测试样本.
5.3交通流预测
如果将30000个样本作为支持向量机的输入,计算量会很大,用本文提出的抽样方法对其进行抽样,抽样率设为0.2.交通流参数主要有流量、
速度和时间占有率,对于流量,根据交通流量参数
的检测值,5矗n内单车道流量在0到250辆之间,以50为单位,根据交通流量把样本分成5份,每份的样本数分别为447、1
769、5713、10445、11627,
对每份样本进行k均值聚类,聚类数为5,聚类后按样本比例抽取20%左右的样本,最后,每份样本抽取的样本数分别为75、371、1
120、2049、2349,
共5966个.以这些抽取的样本对支持向量机进行
训练,用测试样本进行测试,得到的结果如表2
所示.
表2流量预测分析结果
Table2
TmmcnowVol砌efor嘲s恤g
r鹤lllts
第13卷第3期大规模交通流预测方法研究
125
对于速度,城市道路的车辆速度在0—100
kⅡ∥h
之间,大多集中在30一60km之间,因此,将速度分
成[0,30],(30,40],(40,50],(50,60],(60—100]等5段,根据当前预测速度值将训练样本分成5份,每份样本分别为5
902、12362、8
696、2863、
178个,利用基于k均值聚类的抽样,每份抽签的
样本数为l
226、2509、1
752、588、28.以这些抽取
的样本对支持向量机进行训练,用测试样本进行测试,得到的结果如表3所示.
表3速度预测分析结果
Table3
T豫舾cspeedforec懿廿ngr鹤lllts
对于时间占有率,取百分值,即原始采集数据的100倍,取值范围在[O,100]之间,以20为单位,将其分成5段,根据预测时间占有率取值,将训练
样本分成5份,每份的样本数分别为8
499、1546、
4538、13429、l
988.通过基于k均值聚类的抽样
方法,分别抽取l697、341、959、2
670、386个样本.
以这些抽取的样本对支持向量机进行训练,用测试样本进行测试,用支持向量机作为训练器,得到的
结果如表4所示.
表4时间占有率预测分析结果
Table4
occup卸cy
fbrecasting懈lllts
为了比较,用随机抽样的方法和分层抽样法分别对各交通流参数进行抽样,在训练样本中抽取
20%左右的样本用于训练,21747个测试样本做测
试,用基于序贯最小优化法的支持向量机进行预
测,得到的结果如表2至表4所示.5.4结果分析
从不同抽样分析的训练结果看,在MSE和
MAE指标上,基于本文提出的基于分层与k均值
万方数据
聚类的抽样方法得到的交通流预测结果质量要高于基于随机抽样、分层抽样得到的交通流预测结果,而MAPE的预测结果基本相同.
6研究结论
随着交通流数据规模的不断增长,可用于交通
流分析的数据越来越多,而交通流分析的实时要求
较高,如何提高交通流预测的速度对智能交通系统的应用具有重要意义.抽样是处理大规模数据的重要方法,本文将抽样方法用于对交通流数据的分析,为提高抽样的质量,提出了基于分层与k均值结合的抽样方法,通过对实际交通流数据的分析,
本文提出的抽样方法质量比现有的抽样方法好,交
通流分析结果的精度有所提高.在预测模型上,本文采用了基于序贯最小优化法的支持向量机作为
交通流预测模型,在保证交通流预测精度的前提
下,大大提高了交通流分析的速度,通过实例分析,
得到较满意的结果.因此,本文提出的抽样方法用于大规模数据的交通流预测是合适的.
参考文献:
[1]杨兆升.基础交通信息融合技术及其应用[M].北
京:中国铁道出版社,2005.[YANG
z
s.Basictmnsponation
info丌rIation
fusion
technologyand
its
application[M].Beijing:China
Railway
Publishing
House,2005,][2]
GhoshB,BasuB,0’MahonyM.Multivariateshort.
teml皿瓶c
flow
foTeeastingusing
time-series
analysis
[J].
IEEE
Transactions
on
InteuigentTransponation
Systems,20()9,lO(2):246.254.
[3]
杜子芳.抽样技术及其应用[M].北京:清华大学出版社,2005.
[Duz
F.saIIlplingtechnique
and
印plications
[M].
Beijing:
Tsinghuauniversity
Press,2005.][4]
changc
c,“ncJ.LIBSVM:Alibraryf.or
suppon
vector
machines[J].
AcMTmnsactions
on
Inteuigent
SystemsandTechnology,20l1,27(2):1-27.
[5]
BoserB,GuyonI,VapnikV.Atminingalgorithmforoptimal
margin
classmers[c].
The5thAnnual
Worksh叩on
ComputationalLeaHlingTheory,1992.
[6]
FanRE,chenPH,LincJ.workingset
selection
usingsecondorder
infbmation
fortminingsVM[J].
Jo哪al
0f
Machine
k锄ing
Research,2005(6):
1889.1918.
大规模交通流预测方法研究
作者:
作者单位:刊名:英文刊名:年,卷(期):
孙占全, 刘威, 朱效民, SUN Zhan-quan, LIU Wei, ZHU Xiao-min山东省计算中心山东省计算机网络重点实验室,济南,250014
交通运输系统工程与信息
Journal of Transportation Systems Engineering and Information Technology2013,13(3)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_jtysxtgcyxx201303019.aspx
第13卷第3期
2013年6月
JoumaIof
交通运输系统工程与信息
TransponationSystemsEn西neeringandI山mationTechnology
m5
V01.13
June
No.32013
文章编号:1009.6744(2013)03_0121
大规模交通流预测方法研究
孙占全8,刘威,朱效民
(山东省计算中心山东省计算机网络重点实验室,济南250014)
摘要:随着交通信息化的快速发展,可供分析的交通流数据量越来越大,如何利用大
规模交通流数据进行交通预测分析是智能交通的重要研究内容.为解决大规模交通流数据预测问题,本文提出了一种基于分层抽样与k均值聚类相结合的抽样方法,并与基于序贯最小优化方法的支持向量机结合,进行大规模交通流预测.实例分析结果表明,本文提出的聚类方法比现有抽样方法的抽样质量有所提高,基于序贯最小优化方法的支持向量机可有效提高交通流预测的精度.因此,本文提出的方法对于大规模交通流预
测是有效的.关键词:
智能交通;拥挤判别;抽样;k均值聚类
文献标识码:A
中图分类号:U268.6
TrafncFlowForecastingBased
on
LargeScaleTrafncFlowData
SUNZhan-quan,UU
(Shandong
Wei,ZHU
Xiao—min
250014,China)
ComputerScienceCenter,ShandongPmVincialKeyL.aboratoryofComputerNetwork,Jinan
Abs位驰t:
Winlthedevelopmentoftramcinfo珊atization,increasing
to
amount
aa
of
trafEicdata
can
be
collected.Howtmnsponation
makemostofthe
m瓶c
datatoforecasttramcnowis
c11JcialworkoftheinteUigentsamplingmethodbased
Vector
on
systems(ITs).Toresolvethispmblem,thispaperpmposes
the
combinationofstrati6edsamplingmethodandk—meansclustering.Thesupport
on
IfIachine(SVM)based
resultsshowthatthe
on
sequence
optilnizationmethodisused
on
to
forecaLsttmmcnow
p啪meters.Theanalysis
to
samplingqualitybasedSVMalsopmblems.
gets
theproposedsamplingmethodisItproves
that
the
method
is
ref0册ed.The
emcient
fbrecastingprecisionbased
the
improved.
solve
large—scaletramcforecasting
Key、阳rds:
CLC
inteUigem
transpomti伽system;t珀mc
con窘estion
identification;saIIlpling;k—rr呦11s
A
cIustedng
n岫ber:
U268.6
Doc岫entcode:
收稿日期:2013-ol驷
修回日期:2013_02-26
录用日期:2013m3艄
基金项目:国家自然科学青年基金项目(61004115);国家科技支持计划项目(2012BAH09803)作者简介:孙占全(1977一),男,黑龙江哈尔滨人,副研究员,博士.+通讯作者:sunzhq@keylab.net.
万方数据
122
交通运输系统工程与信息
2013年6月
1
引言
交通流预测是智能交通系统的实时交通信号控制、交通分配、路径诱导、自动导航、事故检测等的前提,因此,交通流预测是智能交通领域的研究热点¨J.许多专家和学者致力于交通流预测的研
究,大量的预测模型已被研究,常用的预测方法有
平均值法、ARMA、线性回归、非参数回归、神经网络、支持向量机等心J,支持向量机建立在统计学习的VC维理论和结构风险最小原理基础上,较好地解决了非线性、高维数和局部极小点等实际问题,被认为是最有效的交通流预测模型之一.随着智能交通基础设施的不断完善,积累了越来越多的交通流数据,支持向量机的计算量随数据量呈指数增长,如何在充分利用大量交通流数据的同时保证交通流分析的实时性是目前的研究难点.提高大规模数据挖掘速度主要有两种方法:一是抽样方法,从大规模数据中抽样,在抽样数据基础上,构建数据挖掘模型,这样构建模型迅速有效,然而,如何提高抽样样本的质量仍待解决;二是算法并行化,通过分布式计算或并行计算实现算法并行化,从而提高算法的计算速度口J.
抽样是从大量的数据中抽取与探索问题有关的数据子集,这个样本应该包含足够的信息,且易于处理.对数据进行抽样很有必要,不同的数据抽样方法对训练结果模型的精度有很大影响.目前几种常用的抽样方法有简单随机抽样、系统抽样、整群抽样、分层抽样等.通常认为分层抽样的质量要好于其他方法,在分层后,通常采用随机抽样的方法获取抽样样本,为进一步提高抽样样本的质量,可以将分层后的样本根据相似度进行聚类,从不同类中按照比例抽取相应的样本,这样可以有效提升抽样样本的覆盖率,从而提高样本质量.本文提出了分层抽样与k均值聚类结合的抽样方法,既将分层的样本用k均值聚类方法进行聚类,然后,从每
类中按比例进行抽样.
支持向量机是有效的分类和回归工具,许多支持向量机软件模型已被提出,如libsVM、lightSVM、ls—sVM等,LibsVM被认为是最有效的支持向量机
模型Hj,广泛应用到实际中.随着训练样本数的增
长,支持向量机的计算和存储需求呈指数增长,致使很多实际问题都无法解决,支持向量机的核心是
二次规划问题,文献[5]通过分块方式实现二次规
万方数据
划的加速求解,文献[6]提出了序贯最小优化方法(SOM),将块的大小减少到2个向量,是非常有效的一种加速方法,并应用到很多领域,本文将采用该支持向量机模型对交通流进行预测,从而提高大规模交通流预测的速度.最后,通过实例分析来验证算法的有效性.
2基于k均值聚类的分层抽样方法
本方法首先利用分层抽样方法对原始数据进行分层,然后对各分层数据利用k均值方法进行无监督聚类,最后从各聚类中抽取样本,方法详细介
绍如下.2.1样本分层
分层抽样法是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位.基于分层抽样的分层方法如下.
(1)分层特征的确定.
分层特征是抽样前对总体进行分组的依据.在实际测量时可以根据实际的需要选取相应的分层
特征.
(2)各层样本量分配的确定.
各层样本量的分配是层内样本与总样本之间的一种分配关系,主要有均匀分配、比例分配和最优分配3种分配方法.考虑到测量的复杂性、实用性等因素,本文使用样本量的比例分配方法.
在样本分层之后,如何对各个分层选取合适的抽样样本,仍然是值得研究的问题.目前大多数选
择随机抽样的方法,根据比例抽取相应的样本,这
样并不能保证抽到该层内各种类型的样本,如果抽取的样本不能覆盖样本集的各种特性,将会降低抽样的质量.为提高抽样质量,需要选取覆盖各种特性的样本,即选取的样本更具代表性.聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,是一种发现这种内在结构的技术,聚
类技术经常被称为无监督学习.通过聚类可以将相
近特性的样本聚在一起,然后再在个聚类中按照样本数比例随机选取相应的样本数,这样抽取的样本更具代表性.同时,k均值聚类是针对各个分层的,样本量会大大降低,适合于对海量数据的处理.
2.2基于k均值聚类的抽样
k均值聚类
给定观察样本集D=(菇,,菇:,…,戈。),其中每
2.2.1
第13卷第3期大规模交通流预测方法研究
123
个样本是d维向量,k均值聚类就是要将n个样本划分成|j}(尼≤n)个子集S=(S。,S:,…,|s。),目标上使得类内的方差和最小,即
^
min∑∑0鼍一pi
0
2
(1)
Hl’5
5i
式中化是5i中所有点的均值.
距离测度通常选为欧几里得距离,定义如下
厂i———————一
州舻√乏1‰飞I
2
(2)
式中
戈i=(x¨戈∽…,zi。)和巧=(巧。,%,…,勺。)
是两个m维数据对象.
k均值聚类算法的步骤总结如下.
Step
1从D中随机取lj}个元素,作为||}个簇
各自的中心.
Step
2分别计算剩下元素到后个簇中心的相异度,将这些元素分别划归到相异度最低的簇.
Step
3根据聚类结果,重新计算南个簇各自
的中心,计算方法是取簇中所有元素各自维度的算
术平均数.
Step4
将D中全部元素按照新的中心重新
聚类.
Step5重复step4,直到聚类结果不再变化.Step
6将结果输出.
2.2.2基于k均值聚类的样本抽取方法
基于分层与k均值距离的样本抽取方法步骤
总结如下.
Stepl
对原始数据进行简单统计分析,确定
样本数及各种特征对应的样本数比例,确定所要抽样的样本数比例.
Step
2根据样本特征对样本进行分层分析,得到相互独立的样本集.
Step
3针对各分层得到的样本子集,利用k
均值聚类对样本进行聚类分析,然后根据各类样本
数确定抽样比例.
Step
4将抽样结果输出.
3基于SMO的支持向量机算法
一3.1支持向量机
支持向量机首先将输入单元映射到高维特征空间,然后找一个分割超平面使得两类之间的边缘最大,边缘最大化是二次规划问题,通过引入拉格朗日乘子可以变换成对偶问题来解决.在没有任何
万方数据
有关映射知识的情况下,支持向量机通过使用特征空间函数的点积来找最优的超平面,这个函数的点
积称为核函数.最优超平面的解可以写成很少输入
点的组合形式,这几个点称为支持向量.
给定训练集(石i,yi),i=1,2,…,n,其中戈i∈∥,yi∈{±1},一个到高维特征空间的非线性变
换(多(.),∥璺3RⅣ),支持向量机要求解下列
方程
毋碧{寺II加II2+c;£)
s.t.
yi(咖1(zi)埘+6)≥l—fiVi=1,…,n
氧≥O
V江1,…,凡
(3)
式中
训和6在特征空间定义线性分类器;C是惩
罚系数,可以根据具体问题事先指定;£为松弛变
量,江1,2,…,凡;中(・)为映射函数.支持向量机
尽量保证正样本的输出值大于+1,负样本的输出值小于一l,不满足这个条件的样本需加一个非零松弛变量直,这样将给目标函数增加一个惩罚项.问题优化是为了保证解有最大边缘,通过引入拉格朗日乘子,优化问题可转换成它的对偶形式
-嘎n寺∑∑yi乃ai哟K(戈i,勺)一∑q
(4)
s・t・
亡乞咒ai
2
u
,、
i=1
0≤ai≤C,i=l,2,…,n
式中
di是拉格朗日系数,江1,2,…,n;n是训练
样本数;K(xi,戈i)=(少(xi)・西(戈i))是核函数.对偶问题的求解要比原问题容易得多.
通过优化计算求得a’,6+后,用式(15)的决策函数来确定测试样本应属于哪一类
以石)=sgn(∑),iai+K(戈i,并)+6+)
(5)
3.2序贯最小优化法(SMo)
SMO算法可以看作式(4)分解算法的极端特例,该算法在每次迭代中将工作集的大小固定为
2,方法归纳如下.
Stepl设a1为最初的可行解,|j}=1.
Step
2如果a‘是式(4)最优解,停止.否则
选择2个元素B={i,_『}c{l,…,n},定义Ⅳ;
{1,…,n}\曰,d:和a:是a‘的子向量,分别对应
着N和B.
124
交通运输系统工程与信息
2013年6月
Step
3求解对应变量d。的子问题
呼扣㈦门【吕:剐习
-[e㈡蚓
扣哟,暖挑]
∞’
+(一e口+Q删口:)7+常数
sub.
0≤仪。,q≤C
r
,tdI+yio【i2一yN
step4设d∥是式(6)的最优解,a铲1一
a;:T,设后一|j}+1,返回到step
2.
4
基于抽样与支持向量机结合的交通流
预测
设戈i表示交通流参数的当前值;戈1,.一,戈。表
示相关的历史数据;p表示预测当前交通流值所用的历史数据维数;通过构造预测模型,用戈,,…,戈。预测戈i的值.历史交通流参数用x={五,x:,…,x。}表示,预测的交通流参数用y表示,基于抽样与支持向量机结合的方法进行交通流预测.
(1)根据交通流预测模型,生成训练样本,设定抽样比例参数和支持向量机核参数.
(2)根据参数l,的取值范围,将其分成z段,样本根据分段值进行划分,每份样本数为ni(i=1,
2,…,2).
(3)针对每份样本进行k均值聚类分析,生成k个聚类,根据各聚类的样本数,按比例从各个聚
类中随机抽样,生成训练抽样样本.
(4)将抽样的训练样本输入到基于序贯最小优化法的支持向量机,利用训练的支持向量机模型对交通流预测.
5
实例分析
为验证本文提出的抽样方法的有效性,利用济
南市交警支队提供的线圈检测器采集的交通流数
据进行交通流预测分析,实例分析如下.5.1数据来源
2007年1月1日至2007年6月1日采集济南市经十路与山师东路和环山路交叉口的交通流数据为研究对象,交通流检测器为线圈检测器,采集
万方数据
时间间隔为5min,一天有288个时间采集点,采集
的交通流数据包括流量、速度、时间占有率等,数据
如表1所示,共有53187条数据.通过对交通流数
据建模,利用历史数据对当前采集点进行交通流
预测.
表1原始数据样例
Table1
S蛐ple
ofininaldata∞urce
5.2交通流预测模型
设y表示当前交通流参数值,向量x=(X,,五,…,xM)表示当前路口前Ⅳ1个采集点的值,向量日=(H。,H:,…,HM)表示当前路口前Ⅳ2个历史周期采集的交通流参数值,向量z=[x,H]作为
交通流预测的输入特征变量.在本实例中,Ⅳ.=
10,Ⅳ2=5,共15个特征变量,需要5天的历史数据预测当前的交通流参数,根据预测模型,共生成
51
747个样本.选取30000个样本作为训练样本,
其余的21747个样本作为测试样本.
5.3交通流预测
如果将30000个样本作为支持向量机的输入,计算量会很大,用本文提出的抽样方法对其进行抽样,抽样率设为0.2.交通流参数主要有流量、
速度和时间占有率,对于流量,根据交通流量参数
的检测值,5矗n内单车道流量在0到250辆之间,以50为单位,根据交通流量把样本分成5份,每份的样本数分别为447、1
769、5713、10445、11627,
对每份样本进行k均值聚类,聚类数为5,聚类后按样本比例抽取20%左右的样本,最后,每份样本抽取的样本数分别为75、371、1
120、2049、2349,
共5966个.以这些抽取的样本对支持向量机进行
训练,用测试样本进行测试,得到的结果如表2
所示.
表2流量预测分析结果
Table2
TmmcnowVol砌efor嘲s恤g
r鹤lllts
第13卷第3期大规模交通流预测方法研究
125
对于速度,城市道路的车辆速度在0—100
kⅡ∥h
之间,大多集中在30一60km之间,因此,将速度分
成[0,30],(30,40],(40,50],(50,60],(60—100]等5段,根据当前预测速度值将训练样本分成5份,每份样本分别为5
902、12362、8
696、2863、
178个,利用基于k均值聚类的抽样,每份抽签的
样本数为l
226、2509、1
752、588、28.以这些抽取
的样本对支持向量机进行训练,用测试样本进行测试,得到的结果如表3所示.
表3速度预测分析结果
Table3
T豫舾cspeedforec懿廿ngr鹤lllts
对于时间占有率,取百分值,即原始采集数据的100倍,取值范围在[O,100]之间,以20为单位,将其分成5段,根据预测时间占有率取值,将训练
样本分成5份,每份的样本数分别为8
499、1546、
4538、13429、l
988.通过基于k均值聚类的抽样
方法,分别抽取l697、341、959、2
670、386个样本.
以这些抽取的样本对支持向量机进行训练,用测试样本进行测试,用支持向量机作为训练器,得到的
结果如表4所示.
表4时间占有率预测分析结果
Table4
occup卸cy
fbrecasting懈lllts
为了比较,用随机抽样的方法和分层抽样法分别对各交通流参数进行抽样,在训练样本中抽取
20%左右的样本用于训练,21747个测试样本做测
试,用基于序贯最小优化法的支持向量机进行预
测,得到的结果如表2至表4所示.5.4结果分析
从不同抽样分析的训练结果看,在MSE和
MAE指标上,基于本文提出的基于分层与k均值
万方数据
聚类的抽样方法得到的交通流预测结果质量要高于基于随机抽样、分层抽样得到的交通流预测结果,而MAPE的预测结果基本相同.
6研究结论
随着交通流数据规模的不断增长,可用于交通
流分析的数据越来越多,而交通流分析的实时要求
较高,如何提高交通流预测的速度对智能交通系统的应用具有重要意义.抽样是处理大规模数据的重要方法,本文将抽样方法用于对交通流数据的分析,为提高抽样的质量,提出了基于分层与k均值结合的抽样方法,通过对实际交通流数据的分析,
本文提出的抽样方法质量比现有的抽样方法好,交
通流分析结果的精度有所提高.在预测模型上,本文采用了基于序贯最小优化法的支持向量机作为
交通流预测模型,在保证交通流预测精度的前提
下,大大提高了交通流分析的速度,通过实例分析,
得到较满意的结果.因此,本文提出的抽样方法用于大规模数据的交通流预测是合适的.
参考文献:
[1]杨兆升.基础交通信息融合技术及其应用[M].北
京:中国铁道出版社,2005.[YANG
z
s.Basictmnsponation
info丌rIation
fusion
technologyand
its
application[M].Beijing:China
Railway
Publishing
House,2005,][2]
GhoshB,BasuB,0’MahonyM.Multivariateshort.
teml皿瓶c
flow
foTeeastingusing
time-series
analysis
[J].
IEEE
Transactions
on
InteuigentTransponation
Systems,20()9,lO(2):246.254.
[3]
杜子芳.抽样技术及其应用[M].北京:清华大学出版社,2005.
[Duz
F.saIIlplingtechnique
and
印plications
[M].
Beijing:
Tsinghuauniversity
Press,2005.][4]
changc
c,“ncJ.LIBSVM:Alibraryf.or
suppon
vector
machines[J].
AcMTmnsactions
on
Inteuigent
SystemsandTechnology,20l1,27(2):1-27.
[5]
BoserB,GuyonI,VapnikV.Atminingalgorithmforoptimal
margin
classmers[c].
The5thAnnual
Worksh叩on
ComputationalLeaHlingTheory,1992.
[6]
FanRE,chenPH,LincJ.workingset
selection
usingsecondorder
infbmation
fortminingsVM[J].
Jo哪al
0f
Machine
k锄ing
Research,2005(6):
1889.1918.
大规模交通流预测方法研究
作者:
作者单位:刊名:英文刊名:年,卷(期):
孙占全, 刘威, 朱效民, SUN Zhan-quan, LIU Wei, ZHU Xiao-min山东省计算中心山东省计算机网络重点实验室,济南,250014
交通运输系统工程与信息
Journal of Transportation Systems Engineering and Information Technology2013,13(3)
本文链接:http://d.g.wanfangdata.com.cn/Periodical_jtysxtgcyxx201303019.aspx