大规模交通流预测方法研究

第13卷第3期

2013年6月

JoumaIof

交通运输系统工程与信息

TransponationSystemsEn西neeringandI山mationTechnology

m5

V01.13

June

No.32013

文章编号:1009.6744(2013)03_0121

大规模交通流预测方法研究

孙占全8,刘威,朱效民

(山东省计算中心山东省计算机网络重点实验室,济南250014)

摘要:随着交通信息化的快速发展,可供分析的交通流数据量越来越大,如何利用大

规模交通流数据进行交通预测分析是智能交通的重要研究内容.为解决大规模交通流数据预测问题,本文提出了一种基于分层抽样与k均值聚类相结合的抽样方法,并与基于序贯最小优化方法的支持向量机结合,进行大规模交通流预测.实例分析结果表明,本文提出的聚类方法比现有抽样方法的抽样质量有所提高,基于序贯最小优化方法的支持向量机可有效提高交通流预测的精度.因此,本文提出的方法对于大规模交通流预

测是有效的.关键词:

智能交通;拥挤判别;抽样;k均值聚类

文献标识码:A

中图分类号:U268.6

TrafncFlowForecastingBased

on

LargeScaleTrafncFlowData

SUNZhan-quan,UU

(Shandong

Wei,ZHU

Xiao—min

250014,China)

ComputerScienceCenter,ShandongPmVincialKeyL.aboratoryofComputerNetwork,Jinan

Abs位驰t:

Winlthedevelopmentoftramcinfo珊atization,increasing

to

amount

aa

of

trafEicdata

can

be

collected.Howtmnsponation

makemostofthe

m瓶c

datatoforecasttramcnowis

c11JcialworkoftheinteUigentsamplingmethodbased

Vector

on

systems(ITs).Toresolvethispmblem,thispaperpmposes

the

combinationofstrati6edsamplingmethodandk—meansclustering.Thesupport

on

IfIachine(SVM)based

resultsshowthatthe

on

sequence

optilnizationmethodisused

on

to

forecaLsttmmcnow

p啪meters.Theanalysis

to

samplingqualitybasedSVMalsopmblems.

gets

theproposedsamplingmethodisItproves

that

the

method

is

ref0册ed.The

emcient

fbrecastingprecisionbased

the

improved.

solve

large—scaletramcforecasting

Key、阳rds:

CLC

inteUigem

transpomti伽system;t珀mc

con窘estion

identification;saIIlpling;k—rr呦11s

cIustedng

n岫ber:

U268.6

Doc岫entcode:

收稿日期:2013-ol驷

修回日期:2013_02-26

录用日期:2013m3艄

基金项目:国家自然科学青年基金项目(61004115);国家科技支持计划项目(2012BAH09803)作者简介:孙占全(1977一),男,黑龙江哈尔滨人,副研究员,博士.+通讯作者:sunzhq@keylab.net.

万方数据

122

交通运输系统工程与信息

2013年6月

引言

交通流预测是智能交通系统的实时交通信号控制、交通分配、路径诱导、自动导航、事故检测等的前提,因此,交通流预测是智能交通领域的研究热点¨J.许多专家和学者致力于交通流预测的研

究,大量的预测模型已被研究,常用的预测方法有

平均值法、ARMA、线性回归、非参数回归、神经网络、支持向量机等心J,支持向量机建立在统计学习的VC维理论和结构风险最小原理基础上,较好地解决了非线性、高维数和局部极小点等实际问题,被认为是最有效的交通流预测模型之一.随着智能交通基础设施的不断完善,积累了越来越多的交通流数据,支持向量机的计算量随数据量呈指数增长,如何在充分利用大量交通流数据的同时保证交通流分析的实时性是目前的研究难点.提高大规模数据挖掘速度主要有两种方法:一是抽样方法,从大规模数据中抽样,在抽样数据基础上,构建数据挖掘模型,这样构建模型迅速有效,然而,如何提高抽样样本的质量仍待解决;二是算法并行化,通过分布式计算或并行计算实现算法并行化,从而提高算法的计算速度口J.

抽样是从大量的数据中抽取与探索问题有关的数据子集,这个样本应该包含足够的信息,且易于处理.对数据进行抽样很有必要,不同的数据抽样方法对训练结果模型的精度有很大影响.目前几种常用的抽样方法有简单随机抽样、系统抽样、整群抽样、分层抽样等.通常认为分层抽样的质量要好于其他方法,在分层后,通常采用随机抽样的方法获取抽样样本,为进一步提高抽样样本的质量,可以将分层后的样本根据相似度进行聚类,从不同类中按照比例抽取相应的样本,这样可以有效提升抽样样本的覆盖率,从而提高样本质量.本文提出了分层抽样与k均值聚类结合的抽样方法,既将分层的样本用k均值聚类方法进行聚类,然后,从每

类中按比例进行抽样.

支持向量机是有效的分类和回归工具,许多支持向量机软件模型已被提出,如libsVM、lightSVM、ls—sVM等,LibsVM被认为是最有效的支持向量机

模型Hj,广泛应用到实际中.随着训练样本数的增

长,支持向量机的计算和存储需求呈指数增长,致使很多实际问题都无法解决,支持向量机的核心是

二次规划问题,文献[5]通过分块方式实现二次规

万方数据

划的加速求解,文献[6]提出了序贯最小优化方法(SOM),将块的大小减少到2个向量,是非常有效的一种加速方法,并应用到很多领域,本文将采用该支持向量机模型对交通流进行预测,从而提高大规模交通流预测的速度.最后,通过实例分析来验证算法的有效性.

2基于k均值聚类的分层抽样方法

本方法首先利用分层抽样方法对原始数据进行分层,然后对各分层数据利用k均值方法进行无监督聚类,最后从各聚类中抽取样本,方法详细介

绍如下.2.1样本分层

分层抽样法是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位.基于分层抽样的分层方法如下.

(1)分层特征的确定.

分层特征是抽样前对总体进行分组的依据.在实际测量时可以根据实际的需要选取相应的分层

特征.

(2)各层样本量分配的确定.

各层样本量的分配是层内样本与总样本之间的一种分配关系,主要有均匀分配、比例分配和最优分配3种分配方法.考虑到测量的复杂性、实用性等因素,本文使用样本量的比例分配方法.

在样本分层之后,如何对各个分层选取合适的抽样样本,仍然是值得研究的问题.目前大多数选

择随机抽样的方法,根据比例抽取相应的样本,这

样并不能保证抽到该层内各种类型的样本,如果抽取的样本不能覆盖样本集的各种特性,将会降低抽样的质量.为提高抽样质量,需要选取覆盖各种特性的样本,即选取的样本更具代表性.聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,是一种发现这种内在结构的技术,聚

类技术经常被称为无监督学习.通过聚类可以将相

近特性的样本聚在一起,然后再在个聚类中按照样本数比例随机选取相应的样本数,这样抽取的样本更具代表性.同时,k均值聚类是针对各个分层的,样本量会大大降低,适合于对海量数据的处理.

2.2基于k均值聚类的抽样

k均值聚类

给定观察样本集D=(菇,,菇:,…,戈。),其中每

2.2.1

第13卷第3期大规模交通流预测方法研究

123

个样本是d维向量,k均值聚类就是要将n个样本划分成|j}(尼≤n)个子集S=(S。,S:,…,|s。),目标上使得类内的方差和最小,即

min∑∑0鼍一pi

(1)

Hl’5

5i

式中化是5i中所有点的均值.

距离测度通常选为欧几里得距离,定义如下

厂i———————一

州舻√乏1‰飞I

(2)

式中

戈i=(x¨戈∽…,zi。)和巧=(巧。,%,…,勺。)

是两个m维数据对象.

k均值聚类算法的步骤总结如下.

Step

1从D中随机取lj}个元素,作为||}个簇

各自的中心.

Step

2分别计算剩下元素到后个簇中心的相异度,将这些元素分别划归到相异度最低的簇.

Step

3根据聚类结果,重新计算南个簇各自

的中心,计算方法是取簇中所有元素各自维度的算

术平均数.

Step4

将D中全部元素按照新的中心重新

聚类.

Step5重复step4,直到聚类结果不再变化.Step

6将结果输出.

2.2.2基于k均值聚类的样本抽取方法

基于分层与k均值距离的样本抽取方法步骤

总结如下.

Stepl

对原始数据进行简单统计分析,确定

样本数及各种特征对应的样本数比例,确定所要抽样的样本数比例.

Step

2根据样本特征对样本进行分层分析,得到相互独立的样本集.

Step

3针对各分层得到的样本子集,利用k

均值聚类对样本进行聚类分析,然后根据各类样本

数确定抽样比例.

Step

4将抽样结果输出.

3基于SMO的支持向量机算法

一3.1支持向量机

支持向量机首先将输入单元映射到高维特征空间,然后找一个分割超平面使得两类之间的边缘最大,边缘最大化是二次规划问题,通过引入拉格朗日乘子可以变换成对偶问题来解决.在没有任何

万方数据

有关映射知识的情况下,支持向量机通过使用特征空间函数的点积来找最优的超平面,这个函数的点

积称为核函数.最优超平面的解可以写成很少输入

点的组合形式,这几个点称为支持向量.

给定训练集(石i,yi),i=1,2,…,n,其中戈i∈∥,yi∈{±1},一个到高维特征空间的非线性变

换(多(.),∥璺3RⅣ),支持向量机要求解下列

方程

毋碧{寺II加II2+c;£)

s.t.

yi(咖1(zi)埘+6)≥l—fiVi=1,…,n

氧≥O

V江1,…,凡

(3)

式中

训和6在特征空间定义线性分类器;C是惩

罚系数,可以根据具体问题事先指定;£为松弛变

量,江1,2,…,凡;中(・)为映射函数.支持向量机

尽量保证正样本的输出值大于+1,负样本的输出值小于一l,不满足这个条件的样本需加一个非零松弛变量直,这样将给目标函数增加一个惩罚项.问题优化是为了保证解有最大边缘,通过引入拉格朗日乘子,优化问题可转换成它的对偶形式

-嘎n寺∑∑yi乃ai哟K(戈i,勺)一∑q

(4)

s・t・

亡乞咒ai

,、

i=1

0≤ai≤C,i=l,2,…,n

式中

di是拉格朗日系数,江1,2,…,n;n是训练

样本数;K(xi,戈i)=(少(xi)・西(戈i))是核函数.对偶问题的求解要比原问题容易得多.

通过优化计算求得a’,6+后,用式(15)的决策函数来确定测试样本应属于哪一类

以石)=sgn(∑),iai+K(戈i,并)+6+)

(5)

3.2序贯最小优化法(SMo)

SMO算法可以看作式(4)分解算法的极端特例,该算法在每次迭代中将工作集的大小固定为

2,方法归纳如下.

Stepl设a1为最初的可行解,|j}=1.

Step

2如果a‘是式(4)最优解,停止.否则

选择2个元素B={i,_『}c{l,…,n},定义Ⅳ;

{1,…,n}\曰,d:和a:是a‘的子向量,分别对应

着N和B.

124

交通运输系统工程与信息

2013年6月

Step

3求解对应变量d。的子问题

呼扣㈦门【吕:剐习

-[e㈡蚓

扣哟,暖挑]

∞’

+(一e口+Q删口:)7+常数

sub.

0≤仪。,q≤C

,tdI+yio【i2一yN

step4设d∥是式(6)的最优解,a铲1一

a;:T,设后一|j}+1,返回到step

2.

基于抽样与支持向量机结合的交通流

预测

设戈i表示交通流参数的当前值;戈1,.一,戈。表

示相关的历史数据;p表示预测当前交通流值所用的历史数据维数;通过构造预测模型,用戈,,…,戈。预测戈i的值.历史交通流参数用x={五,x:,…,x。}表示,预测的交通流参数用y表示,基于抽样与支持向量机结合的方法进行交通流预测.

(1)根据交通流预测模型,生成训练样本,设定抽样比例参数和支持向量机核参数.

(2)根据参数l,的取值范围,将其分成z段,样本根据分段值进行划分,每份样本数为ni(i=1,

2,…,2).

(3)针对每份样本进行k均值聚类分析,生成k个聚类,根据各聚类的样本数,按比例从各个聚

类中随机抽样,生成训练抽样样本.

(4)将抽样的训练样本输入到基于序贯最小优化法的支持向量机,利用训练的支持向量机模型对交通流预测.

实例分析

为验证本文提出的抽样方法的有效性,利用济

南市交警支队提供的线圈检测器采集的交通流数

据进行交通流预测分析,实例分析如下.5.1数据来源

2007年1月1日至2007年6月1日采集济南市经十路与山师东路和环山路交叉口的交通流数据为研究对象,交通流检测器为线圈检测器,采集

万方数据

时间间隔为5min,一天有288个时间采集点,采集

的交通流数据包括流量、速度、时间占有率等,数据

如表1所示,共有53187条数据.通过对交通流数

据建模,利用历史数据对当前采集点进行交通流

预测.

表1原始数据样例

Table1

S蛐ple

ofininaldata∞urce

5.2交通流预测模型

设y表示当前交通流参数值,向量x=(X,,五,…,xM)表示当前路口前Ⅳ1个采集点的值,向量日=(H。,H:,…,HM)表示当前路口前Ⅳ2个历史周期采集的交通流参数值,向量z=[x,H]作为

交通流预测的输入特征变量.在本实例中,Ⅳ.=

10,Ⅳ2=5,共15个特征变量,需要5天的历史数据预测当前的交通流参数,根据预测模型,共生成

51

747个样本.选取30000个样本作为训练样本,

其余的21747个样本作为测试样本.

5.3交通流预测

如果将30000个样本作为支持向量机的输入,计算量会很大,用本文提出的抽样方法对其进行抽样,抽样率设为0.2.交通流参数主要有流量、

速度和时间占有率,对于流量,根据交通流量参数

的检测值,5矗n内单车道流量在0到250辆之间,以50为单位,根据交通流量把样本分成5份,每份的样本数分别为447、1

769、5713、10445、11627,

对每份样本进行k均值聚类,聚类数为5,聚类后按样本比例抽取20%左右的样本,最后,每份样本抽取的样本数分别为75、371、1

120、2049、2349,

共5966个.以这些抽取的样本对支持向量机进行

训练,用测试样本进行测试,得到的结果如表2

所示.

表2流量预测分析结果

Table2

TmmcnowVol砌efor嘲s恤g

r鹤lllts

第13卷第3期大规模交通流预测方法研究

125

对于速度,城市道路的车辆速度在0—100

kⅡ∥h

之间,大多集中在30一60km之间,因此,将速度分

成[0,30],(30,40],(40,50],(50,60],(60—100]等5段,根据当前预测速度值将训练样本分成5份,每份样本分别为5

902、12362、8

696、2863、

178个,利用基于k均值聚类的抽样,每份抽签的

样本数为l

226、2509、1

752、588、28.以这些抽取

的样本对支持向量机进行训练,用测试样本进行测试,得到的结果如表3所示.

表3速度预测分析结果

Table3

T豫舾cspeedforec懿廿ngr鹤lllts

对于时间占有率,取百分值,即原始采集数据的100倍,取值范围在[O,100]之间,以20为单位,将其分成5段,根据预测时间占有率取值,将训练

样本分成5份,每份的样本数分别为8

499、1546、

4538、13429、l

988.通过基于k均值聚类的抽样

方法,分别抽取l697、341、959、2

670、386个样本.

以这些抽取的样本对支持向量机进行训练,用测试样本进行测试,用支持向量机作为训练器,得到的

结果如表4所示.

表4时间占有率预测分析结果

Table4

occup卸cy

fbrecasting懈lllts

为了比较,用随机抽样的方法和分层抽样法分别对各交通流参数进行抽样,在训练样本中抽取

20%左右的样本用于训练,21747个测试样本做测

试,用基于序贯最小优化法的支持向量机进行预

测,得到的结果如表2至表4所示.5.4结果分析

从不同抽样分析的训练结果看,在MSE和

MAE指标上,基于本文提出的基于分层与k均值

万方数据

聚类的抽样方法得到的交通流预测结果质量要高于基于随机抽样、分层抽样得到的交通流预测结果,而MAPE的预测结果基本相同.

6研究结论

随着交通流数据规模的不断增长,可用于交通

流分析的数据越来越多,而交通流分析的实时要求

较高,如何提高交通流预测的速度对智能交通系统的应用具有重要意义.抽样是处理大规模数据的重要方法,本文将抽样方法用于对交通流数据的分析,为提高抽样的质量,提出了基于分层与k均值结合的抽样方法,通过对实际交通流数据的分析,

本文提出的抽样方法质量比现有的抽样方法好,交

通流分析结果的精度有所提高.在预测模型上,本文采用了基于序贯最小优化法的支持向量机作为

交通流预测模型,在保证交通流预测精度的前提

下,大大提高了交通流分析的速度,通过实例分析,

得到较满意的结果.因此,本文提出的抽样方法用于大规模数据的交通流预测是合适的.

参考文献:

[1]杨兆升.基础交通信息融合技术及其应用[M].北

京:中国铁道出版社,2005.[YANG

s.Basictmnsponation

info丌rIation

fusion

technologyand

its

application[M].Beijing:China

Railway

Publishing

House,2005,][2]

GhoshB,BasuB,0’MahonyM.Multivariateshort.

teml皿瓶c

flow

foTeeastingusing

time-series

analysis

[J].

IEEE

Transactions

on

InteuigentTransponation

Systems,20()9,lO(2):246.254.

[3]

杜子芳.抽样技术及其应用[M].北京:清华大学出版社,2005.

[Duz

F.saIIlplingtechnique

and

印plications

[M].

Beijing:

Tsinghuauniversity

Press,2005.][4]

changc

c,“ncJ.LIBSVM:Alibraryf.or

suppon

vector

machines[J].

AcMTmnsactions

on

Inteuigent

SystemsandTechnology,20l1,27(2):1-27.

[5]

BoserB,GuyonI,VapnikV.Atminingalgorithmforoptimal

margin

classmers[c].

The5thAnnual

Worksh叩on

ComputationalLeaHlingTheory,1992.

[6]

FanRE,chenPH,LincJ.workingset

selection

usingsecondorder

infbmation

fortminingsVM[J].

Jo哪al

0f

Machine

k锄ing

Research,2005(6):

1889.1918.

大规模交通流预测方法研究

作者:

作者单位:刊名:英文刊名:年,卷(期):

孙占全, 刘威, 朱效民, SUN Zhan-quan, LIU Wei, ZHU Xiao-min山东省计算中心山东省计算机网络重点实验室,济南,250014

交通运输系统工程与信息

Journal of Transportation Systems Engineering and Information Technology2013,13(3)

本文链接:http://d.g.wanfangdata.com.cn/Periodical_jtysxtgcyxx201303019.aspx

第13卷第3期

2013年6月

JoumaIof

交通运输系统工程与信息

TransponationSystemsEn西neeringandI山mationTechnology

m5

V01.13

June

No.32013

文章编号:1009.6744(2013)03_0121

大规模交通流预测方法研究

孙占全8,刘威,朱效民

(山东省计算中心山东省计算机网络重点实验室,济南250014)

摘要:随着交通信息化的快速发展,可供分析的交通流数据量越来越大,如何利用大

规模交通流数据进行交通预测分析是智能交通的重要研究内容.为解决大规模交通流数据预测问题,本文提出了一种基于分层抽样与k均值聚类相结合的抽样方法,并与基于序贯最小优化方法的支持向量机结合,进行大规模交通流预测.实例分析结果表明,本文提出的聚类方法比现有抽样方法的抽样质量有所提高,基于序贯最小优化方法的支持向量机可有效提高交通流预测的精度.因此,本文提出的方法对于大规模交通流预

测是有效的.关键词:

智能交通;拥挤判别;抽样;k均值聚类

文献标识码:A

中图分类号:U268.6

TrafncFlowForecastingBased

on

LargeScaleTrafncFlowData

SUNZhan-quan,UU

(Shandong

Wei,ZHU

Xiao—min

250014,China)

ComputerScienceCenter,ShandongPmVincialKeyL.aboratoryofComputerNetwork,Jinan

Abs位驰t:

Winlthedevelopmentoftramcinfo珊atization,increasing

to

amount

aa

of

trafEicdata

can

be

collected.Howtmnsponation

makemostofthe

m瓶c

datatoforecasttramcnowis

c11JcialworkoftheinteUigentsamplingmethodbased

Vector

on

systems(ITs).Toresolvethispmblem,thispaperpmposes

the

combinationofstrati6edsamplingmethodandk—meansclustering.Thesupport

on

IfIachine(SVM)based

resultsshowthatthe

on

sequence

optilnizationmethodisused

on

to

forecaLsttmmcnow

p啪meters.Theanalysis

to

samplingqualitybasedSVMalsopmblems.

gets

theproposedsamplingmethodisItproves

that

the

method

is

ref0册ed.The

emcient

fbrecastingprecisionbased

the

improved.

solve

large—scaletramcforecasting

Key、阳rds:

CLC

inteUigem

transpomti伽system;t珀mc

con窘estion

identification;saIIlpling;k—rr呦11s

cIustedng

n岫ber:

U268.6

Doc岫entcode:

收稿日期:2013-ol驷

修回日期:2013_02-26

录用日期:2013m3艄

基金项目:国家自然科学青年基金项目(61004115);国家科技支持计划项目(2012BAH09803)作者简介:孙占全(1977一),男,黑龙江哈尔滨人,副研究员,博士.+通讯作者:sunzhq@keylab.net.

万方数据

122

交通运输系统工程与信息

2013年6月

引言

交通流预测是智能交通系统的实时交通信号控制、交通分配、路径诱导、自动导航、事故检测等的前提,因此,交通流预测是智能交通领域的研究热点¨J.许多专家和学者致力于交通流预测的研

究,大量的预测模型已被研究,常用的预测方法有

平均值法、ARMA、线性回归、非参数回归、神经网络、支持向量机等心J,支持向量机建立在统计学习的VC维理论和结构风险最小原理基础上,较好地解决了非线性、高维数和局部极小点等实际问题,被认为是最有效的交通流预测模型之一.随着智能交通基础设施的不断完善,积累了越来越多的交通流数据,支持向量机的计算量随数据量呈指数增长,如何在充分利用大量交通流数据的同时保证交通流分析的实时性是目前的研究难点.提高大规模数据挖掘速度主要有两种方法:一是抽样方法,从大规模数据中抽样,在抽样数据基础上,构建数据挖掘模型,这样构建模型迅速有效,然而,如何提高抽样样本的质量仍待解决;二是算法并行化,通过分布式计算或并行计算实现算法并行化,从而提高算法的计算速度口J.

抽样是从大量的数据中抽取与探索问题有关的数据子集,这个样本应该包含足够的信息,且易于处理.对数据进行抽样很有必要,不同的数据抽样方法对训练结果模型的精度有很大影响.目前几种常用的抽样方法有简单随机抽样、系统抽样、整群抽样、分层抽样等.通常认为分层抽样的质量要好于其他方法,在分层后,通常采用随机抽样的方法获取抽样样本,为进一步提高抽样样本的质量,可以将分层后的样本根据相似度进行聚类,从不同类中按照比例抽取相应的样本,这样可以有效提升抽样样本的覆盖率,从而提高样本质量.本文提出了分层抽样与k均值聚类结合的抽样方法,既将分层的样本用k均值聚类方法进行聚类,然后,从每

类中按比例进行抽样.

支持向量机是有效的分类和回归工具,许多支持向量机软件模型已被提出,如libsVM、lightSVM、ls—sVM等,LibsVM被认为是最有效的支持向量机

模型Hj,广泛应用到实际中.随着训练样本数的增

长,支持向量机的计算和存储需求呈指数增长,致使很多实际问题都无法解决,支持向量机的核心是

二次规划问题,文献[5]通过分块方式实现二次规

万方数据

划的加速求解,文献[6]提出了序贯最小优化方法(SOM),将块的大小减少到2个向量,是非常有效的一种加速方法,并应用到很多领域,本文将采用该支持向量机模型对交通流进行预测,从而提高大规模交通流预测的速度.最后,通过实例分析来验证算法的有效性.

2基于k均值聚类的分层抽样方法

本方法首先利用分层抽样方法对原始数据进行分层,然后对各分层数据利用k均值方法进行无监督聚类,最后从各聚类中抽取样本,方法详细介

绍如下.2.1样本分层

分层抽样法是将总体单位按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位.基于分层抽样的分层方法如下.

(1)分层特征的确定.

分层特征是抽样前对总体进行分组的依据.在实际测量时可以根据实际的需要选取相应的分层

特征.

(2)各层样本量分配的确定.

各层样本量的分配是层内样本与总样本之间的一种分配关系,主要有均匀分配、比例分配和最优分配3种分配方法.考虑到测量的复杂性、实用性等因素,本文使用样本量的比例分配方法.

在样本分层之后,如何对各个分层选取合适的抽样样本,仍然是值得研究的问题.目前大多数选

择随机抽样的方法,根据比例抽取相应的样本,这

样并不能保证抽到该层内各种类型的样本,如果抽取的样本不能覆盖样本集的各种特性,将会降低抽样的质量.为提高抽样质量,需要选取覆盖各种特性的样本,即选取的样本更具代表性.聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程,是一种发现这种内在结构的技术,聚

类技术经常被称为无监督学习.通过聚类可以将相

近特性的样本聚在一起,然后再在个聚类中按照样本数比例随机选取相应的样本数,这样抽取的样本更具代表性.同时,k均值聚类是针对各个分层的,样本量会大大降低,适合于对海量数据的处理.

2.2基于k均值聚类的抽样

k均值聚类

给定观察样本集D=(菇,,菇:,…,戈。),其中每

2.2.1

第13卷第3期大规模交通流预测方法研究

123

个样本是d维向量,k均值聚类就是要将n个样本划分成|j}(尼≤n)个子集S=(S。,S:,…,|s。),目标上使得类内的方差和最小,即

min∑∑0鼍一pi

(1)

Hl’5

5i

式中化是5i中所有点的均值.

距离测度通常选为欧几里得距离,定义如下

厂i———————一

州舻√乏1‰飞I

(2)

式中

戈i=(x¨戈∽…,zi。)和巧=(巧。,%,…,勺。)

是两个m维数据对象.

k均值聚类算法的步骤总结如下.

Step

1从D中随机取lj}个元素,作为||}个簇

各自的中心.

Step

2分别计算剩下元素到后个簇中心的相异度,将这些元素分别划归到相异度最低的簇.

Step

3根据聚类结果,重新计算南个簇各自

的中心,计算方法是取簇中所有元素各自维度的算

术平均数.

Step4

将D中全部元素按照新的中心重新

聚类.

Step5重复step4,直到聚类结果不再变化.Step

6将结果输出.

2.2.2基于k均值聚类的样本抽取方法

基于分层与k均值距离的样本抽取方法步骤

总结如下.

Stepl

对原始数据进行简单统计分析,确定

样本数及各种特征对应的样本数比例,确定所要抽样的样本数比例.

Step

2根据样本特征对样本进行分层分析,得到相互独立的样本集.

Step

3针对各分层得到的样本子集,利用k

均值聚类对样本进行聚类分析,然后根据各类样本

数确定抽样比例.

Step

4将抽样结果输出.

3基于SMO的支持向量机算法

一3.1支持向量机

支持向量机首先将输入单元映射到高维特征空间,然后找一个分割超平面使得两类之间的边缘最大,边缘最大化是二次规划问题,通过引入拉格朗日乘子可以变换成对偶问题来解决.在没有任何

万方数据

有关映射知识的情况下,支持向量机通过使用特征空间函数的点积来找最优的超平面,这个函数的点

积称为核函数.最优超平面的解可以写成很少输入

点的组合形式,这几个点称为支持向量.

给定训练集(石i,yi),i=1,2,…,n,其中戈i∈∥,yi∈{±1},一个到高维特征空间的非线性变

换(多(.),∥璺3RⅣ),支持向量机要求解下列

方程

毋碧{寺II加II2+c;£)

s.t.

yi(咖1(zi)埘+6)≥l—fiVi=1,…,n

氧≥O

V江1,…,凡

(3)

式中

训和6在特征空间定义线性分类器;C是惩

罚系数,可以根据具体问题事先指定;£为松弛变

量,江1,2,…,凡;中(・)为映射函数.支持向量机

尽量保证正样本的输出值大于+1,负样本的输出值小于一l,不满足这个条件的样本需加一个非零松弛变量直,这样将给目标函数增加一个惩罚项.问题优化是为了保证解有最大边缘,通过引入拉格朗日乘子,优化问题可转换成它的对偶形式

-嘎n寺∑∑yi乃ai哟K(戈i,勺)一∑q

(4)

s・t・

亡乞咒ai

,、

i=1

0≤ai≤C,i=l,2,…,n

式中

di是拉格朗日系数,江1,2,…,n;n是训练

样本数;K(xi,戈i)=(少(xi)・西(戈i))是核函数.对偶问题的求解要比原问题容易得多.

通过优化计算求得a’,6+后,用式(15)的决策函数来确定测试样本应属于哪一类

以石)=sgn(∑),iai+K(戈i,并)+6+)

(5)

3.2序贯最小优化法(SMo)

SMO算法可以看作式(4)分解算法的极端特例,该算法在每次迭代中将工作集的大小固定为

2,方法归纳如下.

Stepl设a1为最初的可行解,|j}=1.

Step

2如果a‘是式(4)最优解,停止.否则

选择2个元素B={i,_『}c{l,…,n},定义Ⅳ;

{1,…,n}\曰,d:和a:是a‘的子向量,分别对应

着N和B.

124

交通运输系统工程与信息

2013年6月

Step

3求解对应变量d。的子问题

呼扣㈦门【吕:剐习

-[e㈡蚓

扣哟,暖挑]

∞’

+(一e口+Q删口:)7+常数

sub.

0≤仪。,q≤C

,tdI+yio【i2一yN

step4设d∥是式(6)的最优解,a铲1一

a;:T,设后一|j}+1,返回到step

2.

基于抽样与支持向量机结合的交通流

预测

设戈i表示交通流参数的当前值;戈1,.一,戈。表

示相关的历史数据;p表示预测当前交通流值所用的历史数据维数;通过构造预测模型,用戈,,…,戈。预测戈i的值.历史交通流参数用x={五,x:,…,x。}表示,预测的交通流参数用y表示,基于抽样与支持向量机结合的方法进行交通流预测.

(1)根据交通流预测模型,生成训练样本,设定抽样比例参数和支持向量机核参数.

(2)根据参数l,的取值范围,将其分成z段,样本根据分段值进行划分,每份样本数为ni(i=1,

2,…,2).

(3)针对每份样本进行k均值聚类分析,生成k个聚类,根据各聚类的样本数,按比例从各个聚

类中随机抽样,生成训练抽样样本.

(4)将抽样的训练样本输入到基于序贯最小优化法的支持向量机,利用训练的支持向量机模型对交通流预测.

实例分析

为验证本文提出的抽样方法的有效性,利用济

南市交警支队提供的线圈检测器采集的交通流数

据进行交通流预测分析,实例分析如下.5.1数据来源

2007年1月1日至2007年6月1日采集济南市经十路与山师东路和环山路交叉口的交通流数据为研究对象,交通流检测器为线圈检测器,采集

万方数据

时间间隔为5min,一天有288个时间采集点,采集

的交通流数据包括流量、速度、时间占有率等,数据

如表1所示,共有53187条数据.通过对交通流数

据建模,利用历史数据对当前采集点进行交通流

预测.

表1原始数据样例

Table1

S蛐ple

ofininaldata∞urce

5.2交通流预测模型

设y表示当前交通流参数值,向量x=(X,,五,…,xM)表示当前路口前Ⅳ1个采集点的值,向量日=(H。,H:,…,HM)表示当前路口前Ⅳ2个历史周期采集的交通流参数值,向量z=[x,H]作为

交通流预测的输入特征变量.在本实例中,Ⅳ.=

10,Ⅳ2=5,共15个特征变量,需要5天的历史数据预测当前的交通流参数,根据预测模型,共生成

51

747个样本.选取30000个样本作为训练样本,

其余的21747个样本作为测试样本.

5.3交通流预测

如果将30000个样本作为支持向量机的输入,计算量会很大,用本文提出的抽样方法对其进行抽样,抽样率设为0.2.交通流参数主要有流量、

速度和时间占有率,对于流量,根据交通流量参数

的检测值,5矗n内单车道流量在0到250辆之间,以50为单位,根据交通流量把样本分成5份,每份的样本数分别为447、1

769、5713、10445、11627,

对每份样本进行k均值聚类,聚类数为5,聚类后按样本比例抽取20%左右的样本,最后,每份样本抽取的样本数分别为75、371、1

120、2049、2349,

共5966个.以这些抽取的样本对支持向量机进行

训练,用测试样本进行测试,得到的结果如表2

所示.

表2流量预测分析结果

Table2

TmmcnowVol砌efor嘲s恤g

r鹤lllts

第13卷第3期大规模交通流预测方法研究

125

对于速度,城市道路的车辆速度在0—100

kⅡ∥h

之间,大多集中在30一60km之间,因此,将速度分

成[0,30],(30,40],(40,50],(50,60],(60—100]等5段,根据当前预测速度值将训练样本分成5份,每份样本分别为5

902、12362、8

696、2863、

178个,利用基于k均值聚类的抽样,每份抽签的

样本数为l

226、2509、1

752、588、28.以这些抽取

的样本对支持向量机进行训练,用测试样本进行测试,得到的结果如表3所示.

表3速度预测分析结果

Table3

T豫舾cspeedforec懿廿ngr鹤lllts

对于时间占有率,取百分值,即原始采集数据的100倍,取值范围在[O,100]之间,以20为单位,将其分成5段,根据预测时间占有率取值,将训练

样本分成5份,每份的样本数分别为8

499、1546、

4538、13429、l

988.通过基于k均值聚类的抽样

方法,分别抽取l697、341、959、2

670、386个样本.

以这些抽取的样本对支持向量机进行训练,用测试样本进行测试,用支持向量机作为训练器,得到的

结果如表4所示.

表4时间占有率预测分析结果

Table4

occup卸cy

fbrecasting懈lllts

为了比较,用随机抽样的方法和分层抽样法分别对各交通流参数进行抽样,在训练样本中抽取

20%左右的样本用于训练,21747个测试样本做测

试,用基于序贯最小优化法的支持向量机进行预

测,得到的结果如表2至表4所示.5.4结果分析

从不同抽样分析的训练结果看,在MSE和

MAE指标上,基于本文提出的基于分层与k均值

万方数据

聚类的抽样方法得到的交通流预测结果质量要高于基于随机抽样、分层抽样得到的交通流预测结果,而MAPE的预测结果基本相同.

6研究结论

随着交通流数据规模的不断增长,可用于交通

流分析的数据越来越多,而交通流分析的实时要求

较高,如何提高交通流预测的速度对智能交通系统的应用具有重要意义.抽样是处理大规模数据的重要方法,本文将抽样方法用于对交通流数据的分析,为提高抽样的质量,提出了基于分层与k均值结合的抽样方法,通过对实际交通流数据的分析,

本文提出的抽样方法质量比现有的抽样方法好,交

通流分析结果的精度有所提高.在预测模型上,本文采用了基于序贯最小优化法的支持向量机作为

交通流预测模型,在保证交通流预测精度的前提

下,大大提高了交通流分析的速度,通过实例分析,

得到较满意的结果.因此,本文提出的抽样方法用于大规模数据的交通流预测是合适的.

参考文献:

[1]杨兆升.基础交通信息融合技术及其应用[M].北

京:中国铁道出版社,2005.[YANG

s.Basictmnsponation

info丌rIation

fusion

technologyand

its

application[M].Beijing:China

Railway

Publishing

House,2005,][2]

GhoshB,BasuB,0’MahonyM.Multivariateshort.

teml皿瓶c

flow

foTeeastingusing

time-series

analysis

[J].

IEEE

Transactions

on

InteuigentTransponation

Systems,20()9,lO(2):246.254.

[3]

杜子芳.抽样技术及其应用[M].北京:清华大学出版社,2005.

[Duz

F.saIIlplingtechnique

and

印plications

[M].

Beijing:

Tsinghuauniversity

Press,2005.][4]

changc

c,“ncJ.LIBSVM:Alibraryf.or

suppon

vector

machines[J].

AcMTmnsactions

on

Inteuigent

SystemsandTechnology,20l1,27(2):1-27.

[5]

BoserB,GuyonI,VapnikV.Atminingalgorithmforoptimal

margin

classmers[c].

The5thAnnual

Worksh叩on

ComputationalLeaHlingTheory,1992.

[6]

FanRE,chenPH,LincJ.workingset

selection

usingsecondorder

infbmation

fortminingsVM[J].

Jo哪al

0f

Machine

k锄ing

Research,2005(6):

1889.1918.

大规模交通流预测方法研究

作者:

作者单位:刊名:英文刊名:年,卷(期):

孙占全, 刘威, 朱效民, SUN Zhan-quan, LIU Wei, ZHU Xiao-min山东省计算中心山东省计算机网络重点实验室,济南,250014

交通运输系统工程与信息

Journal of Transportation Systems Engineering and Information Technology2013,13(3)

本文链接:http://d.g.wanfangdata.com.cn/Periodical_jtysxtgcyxx201303019.aspx


相关文章

  • 2016-2021年交通设施行业深度调查及发展前景研究报告
  • 2016-2021年交通设施行业 深度调查及发展前景研究报告 杭州先略投资咨询有限公司 二〇一六年 报告目录 报告摘要 研究背景 研究方法 第一章 交通设施行业发展综述 第一节 交通设施行业定义 第二节 交通设施行业基本特点 第三节 交通设 ...查看


  • 2017年版中国交通运输业信息化市场研究分析报告目录
  • 中国市场调研在线 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性 ...查看


  • 城市轨道交通客运组织与客流预测方法研究[毕业论文,绝对精品]
  • 哈尔滨铁道职业技术学院 毕 业 论 文 论文题目 城市轨道交通客运组织与客流预测方法研究 学生姓名 专业班级 城市轨道交通运营管理 指导教师 城市轨道交通学院 2012年 5 月 10 日 城市轨道交通客运组织与客流预测方法研究 摘 要 通 ...查看


  • 2016年智能交通行业现状及发展趋势分析 1
  • 2016年版中国智能交通市场现状调研与发 展趋势分析报告 报告编号:1678158 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者 ...查看


  • 交通流预测模型综述
  • 交通流预测模型综述 摘要: 随着社会的发展,交通事故.交通堵塞.环境污染和能源消耗等问题日趋严重.为了缓解交通压力,交通专家也提出了各种不同的方法.在交通网络越来越复杂的今天,交通流预测在智能交通系统中是个热门的研究领域,因为正确的交通流预 ...查看


  • 中国"共享经济"市场规模及趋势预测
  • 中国"共享经济"市场规模及趋势预测 共享经济到底是个啥? 共享经济就是将你闲置的资源共享给别人,提高资源利用率,并从中获得回报.共享经济的理念是共同拥有而不占有:共享经济的本质是互助和互利. 事实上,共享概念早已有之.传 ...查看


  • 重庆市停车设施专项规划
  • 重庆市城市停车设施建设与管理专项规划 (编制大纲) 重庆市市政管理委员会 重庆市市政设计研究院 二0一0年十月 第1章 概述 ......................................................... ...查看


  • 2015年城市规划调研及发展前景分析报告
  • 2015-2020 年中国城市规划行业现状研究分 析及市场前景预测报告报告编号:156A8A2中国产业调研网 www.cir.cn城市规划2015-2020 年中国城市规划行业现状研究分析及市场前景预测报告行业市场研究属于企业战略研究范畴, ...查看


  • 交通影响评价毕业论文
  • 毕业设计说明书(论文) 邯郸市邯台大厦交通影响分析 专 业 交 通 工 程 学 生 指导教师 XXXXXX大学土木工程学院 XXX年XX月XX日 摘 要 交通影响分析主要是分析与评价建设项目建成投入使用后,新增加的交通需求对周边交通设施产生 ...查看


热门内容