大规模交通流预测方法研究

第１３卷第３期

２０１３年６月

ＪｏｕｍａＩｏｆ

交通运输系统工程与信息

ＴｒａｎｓｐｏｎａｔｉｏｎＳｙｓｔｅｍｓＥｎ西ｎｅｅｒｉｎｇａｎｄＩ山ｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ

ｍ５

Ｖ０１．１３

Ｊｕｎｅ

Ｎｏ．３２０１３

文章编号：１００９．６７４４（２０１３）０３＿０１２１

大规模交通流预测方法研究

孙占全８，刘威，朱效民

（山东省计算中心山东省计算机网络重点实验室，济南２５００１４）

摘要：随着交通信息化的快速发展，可供分析的交通流数据量越来越大，如何利用大

规模交通流数据进行交通预测分析是智能交通的重要研究内容．为解决大规模交通流数据预测问题，本文提出了一种基于分层抽样与ｋ均值聚类相结合的抽样方法，并与基于序贯最小优化方法的支持向量机结合，进行大规模交通流预测．实例分析结果表明，本文提出的聚类方法比现有抽样方法的抽样质量有所提高，基于序贯最小优化方法的支持向量机可有效提高交通流预测的精度．因此，本文提出的方法对于大规模交通流预

测是有效的．关键词：

智能交通；拥挤判别；抽样；ｋ均值聚类

文献标识码：Ａ

中图分类号：Ｕ２６８．６

ＴｒａｆｎｃＦｌｏｗＦｏｒｅｃａｓｔｉｎｇＢａｓｅｄ

ｏｎ

ＬａｒｇｅＳｃａｌｅＴｒａｆｎｃＦｌｏｗＤａｔａ

ＳＵＮＺｈａｎ－ｑｕａｎ，ＵＵ

（Ｓｈａｎｄｏｎｇ

Ｗｅｉ，ＺＨＵ

Ｘｉａｏ—ｍｉｎ

２５００１４，Ｃｈｉｎａ）

ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅＣｅｎｔｅｒ，ＳｈａｎｄｏｎｇＰｍＶｉｎｃｉａｌＫｅｙＬ．ａｂｏｒａｔｏｒｙｏｆＣｏｍｐｕｔｅｒＮｅｔｗｏｒｋ，Ｊｉｎａｎ

Ａｂｓ位驰ｔ：

Ｗｉｎｌｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｔｒａｍｃｉｎｆｏ珊ａｔｉｚａｔｉｏｎ，ｉｎｃｒｅａｓｉｎｇ

ｔｏ

ａｍｏｕｎｔ

ａａ

ｏｆ

ｔｒａｆＥｉｃｄａｔａ

ｃａｎ

ｂｅ

ｃｏｌｌｅｃｔｅｄ．Ｈｏｗｔｍｎｓｐｏｎａｔｉｏｎ

ｍａｋｅｍｏｓｔｏｆｔｈｅ

ｍ瓶ｃ

ｄａｔａｔｏｆｏｒｅｃａｓｔｔｒａｍｃｎｏｗｉｓ

ｃ１１ＪｃｉａｌｗｏｒｋｏｆｔｈｅｉｎｔｅＵｉｇｅｎｔｓａｍｐｌｉｎｇｍｅｔｈｏｄｂａｓｅｄ

Ｖｅｃｔｏｒ

ｏｎ

ｓｙｓｔｅｍｓ（ＩＴｓ）．Ｔｏｒｅｓｏｌｖｅｔｈｉｓｐｍｂｌｅｍ，ｔｈｉｓｐａｐｅｒｐｍｐｏｓｅｓ

ｔｈｅ

ｃｏｍｂｉｎａｔｉｏｎｏｆｓｔｒａｔｉ６ｅｄｓａｍｐｌｉｎｇｍｅｔｈｏｄａｎｄｋ—ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇ．Ｔｈｅｓｕｐｐｏｒｔ

ｏｎ

ＩｆＩａｃｈｉｎｅ（ＳＶＭ）ｂａｓｅｄ

ｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅ

ｏｎ

ｓｅｑｕｅｎｃｅ

ｏｐｔｉｌｎｉｚａｔｉｏｎｍｅｔｈｏｄｉｓｕｓｅｄ

ｏｎ

ｔｏ

ｆｏｒｅｃａＬｓｔｔｍｍｃｎｏｗ

ｐ啪ｍｅｔｅｒｓ．Ｔｈｅａｎａｌｙｓｉｓ

ｔｏ

ｓａｍｐｌｉｎｇｑｕａｌｉｔｙｂａｓｅｄＳＶＭａｌｓｏｐｍｂｌｅｍｓ．

ｇｅｔｓ

ｔｈｅｐｒｏｐｏｓｅｄｓａｍｐｌｉｎｇｍｅｔｈｏｄｉｓＩｔｐｒｏｖｅｓ

ｔｈａｔ

ｔｈｅ

ｍｅｔｈｏｄ

ｉｓ

ｒｅｆ０册ｅｄ．Ｔｈｅ

ｅｍｃｉｅｎｔ

ｆｂｒｅｃａｓｔｉｎｇｐｒｅｃｉｓｉｏｎｂａｓｅｄ

ｔｈｅ

ｉｍｐｒｏｖｅｄ．

ｓｏｌｖｅ

ｌａｒｇｅ—ｓｃａｌｅｔｒａｍｃｆｏｒｅｃａｓｔｉｎｇ

Ｋｅｙ、阳ｒｄｓ：

ＣＬＣ

ｉｎｔｅＵｉｇｅｍ

ｔｒａｎｓｐｏｍｔｉ伽ｓｙｓｔｅｍ；ｔ珀ｍｃ

ｃｏｎ窘ｅｓｔｉｏｎ

ｉｄｅｎｔｉｆｉｃａｔｉｏｎ；ｓａＩＩｌｐｌｉｎｇ；ｋ—ｒｒ呦１１ｓ

Ａ

ｃＩｕｓｔｅｄｎｇ

ｎ岫ｂｅｒ：

Ｕ２６８．６

Ｄｏｃ岫ｅｎｔｃｏｄｅ：

收稿日期：２０１３－ｏｌ驷

修回日期：２０１３＿０２－２６

录用日期：２０１３ｍ３艄

基金项目：国家自然科学青年基金项目（６１００４１１５）；国家科技支持计划项目（２０１２ＢＡＨ０９８０３）作者简介：孙占全（１９７７一），男，黑龙江哈尔滨人，副研究员，博士．＋通讯作者：ｓｕｎｚｈｑ＠ｋｅｙｌａｂ．ｎｅｔ．

万方数据

１２２

交通运输系统工程与信息

２０１３年６月

１

引言

交通流预测是智能交通系统的实时交通信号控制、交通分配、路径诱导、自动导航、事故检测等的前提，因此，交通流预测是智能交通领域的研究热点¨Ｊ．许多专家和学者致力于交通流预测的研

究，大量的预测模型已被研究，常用的预测方法有

平均值法、ＡＲＭＡ、线性回归、非参数回归、神经网络、支持向量机等心Ｊ，支持向量机建立在统计学习的ＶＣ维理论和结构风险最小原理基础上，较好地解决了非线性、高维数和局部极小点等实际问题，被认为是最有效的交通流预测模型之一．随着智能交通基础设施的不断完善，积累了越来越多的交通流数据，支持向量机的计算量随数据量呈指数增长，如何在充分利用大量交通流数据的同时保证交通流分析的实时性是目前的研究难点．提高大规模数据挖掘速度主要有两种方法：一是抽样方法，从大规模数据中抽样，在抽样数据基础上，构建数据挖掘模型，这样构建模型迅速有效，然而，如何提高抽样样本的质量仍待解决；二是算法并行化，通过分布式计算或并行计算实现算法并行化，从而提高算法的计算速度口Ｊ．

抽样是从大量的数据中抽取与探索问题有关的数据子集，这个样本应该包含足够的信息，且易于处理．对数据进行抽样很有必要，不同的数据抽样方法对训练结果模型的精度有很大影响．目前几种常用的抽样方法有简单随机抽样、系统抽样、整群抽样、分层抽样等．通常认为分层抽样的质量要好于其他方法，在分层后，通常采用随机抽样的方法获取抽样样本，为进一步提高抽样样本的质量，可以将分层后的样本根据相似度进行聚类，从不同类中按照比例抽取相应的样本，这样可以有效提升抽样样本的覆盖率，从而提高样本质量．本文提出了分层抽样与ｋ均值聚类结合的抽样方法，既将分层的样本用ｋ均值聚类方法进行聚类，然后，从每

类中按比例进行抽样．

支持向量机是有效的分类和回归工具，许多支持向量机软件模型已被提出，如ｌｉｂｓＶＭ、ｌｉｇｈｔＳＶＭ、ｌｓ—ｓＶＭ等，ＬｉｂｓＶＭ被认为是最有效的支持向量机

模型Ｈｊ，广泛应用到实际中．随着训练样本数的增

长，支持向量机的计算和存储需求呈指数增长，致使很多实际问题都无法解决，支持向量机的核心是

二次规划问题，文献［５］通过分块方式实现二次规

万方数据

划的加速求解，文献［６］提出了序贯最小优化方法（ＳＯＭ），将块的大小减少到２个向量，是非常有效的一种加速方法，并应用到很多领域，本文将采用该支持向量机模型对交通流进行预测，从而提高大规模交通流预测的速度．最后，通过实例分析来验证算法的有效性．

２基于ｋ均值聚类的分层抽样方法

本方法首先利用分层抽样方法对原始数据进行分层，然后对各分层数据利用ｋ均值方法进行无监督聚类，最后从各聚类中抽取样本，方法详细介

绍如下．２．１样本分层

分层抽样法是将总体单位按其属性特征分成若干类型或层，然后在类型或层中随机抽取样本单位．基于分层抽样的分层方法如下．

（１）分层特征的确定．

分层特征是抽样前对总体进行分组的依据．在实际测量时可以根据实际的需要选取相应的分层

特征．

（２）各层样本量分配的确定．

各层样本量的分配是层内样本与总样本之间的一种分配关系，主要有均匀分配、比例分配和最优分配３种分配方法．考虑到测量的复杂性、实用性等因素，本文使用样本量的比例分配方法．

在样本分层之后，如何对各个分层选取合适的抽样样本，仍然是值得研究的问题．目前大多数选

择随机抽样的方法，根据比例抽取相应的样本，这

样并不能保证抽到该层内各种类型的样本，如果抽取的样本不能覆盖样本集的各种特性，将会降低抽样的质量．为提高抽样质量，需要选取覆盖各种特性的样本，即选取的样本更具代表性．聚类是一个将数据集中在某些方面相似的数据成员进行分类组织的过程，是一种发现这种内在结构的技术，聚

类技术经常被称为无监督学习．通过聚类可以将相

近特性的样本聚在一起，然后再在个聚类中按照样本数比例随机选取相应的样本数，这样抽取的样本更具代表性．同时，ｋ均值聚类是针对各个分层的，样本量会大大降低，适合于对海量数据的处理．

２．２基于ｋ均值聚类的抽样

ｋ均值聚类

给定观察样本集Ｄ＝（菇，，菇：，…，戈。），其中每

２．２．１

第１３卷第３期大规模交通流预测方法研究

１２３

个样本是ｄ维向量，ｋ均值聚类就是要将ｎ个样本划分成｜ｊ｝（尼≤ｎ）个子集Ｓ＝（Ｓ。，Ｓ：，…，｜ｓ。），目标上使得类内的方差和最小，即

＾

ｍｉｎ∑∑０鼍一ｐｉ

０

２

（１）

Ｈｌ’５

５ｉ

式中化是５ｉ中所有点的均值．

距离测度通常选为欧几里得距离，定义如下

厂ｉ———————一

州舻√乏１‰飞Ｉ

２

（２）

式中

戈ｉ＝（ｘ¨戈∽…，ｚｉ。）和巧＝（巧。，％，…，勺。）

是两个ｍ维数据对象．

ｋ均值聚类算法的步骤总结如下．

Ｓｔｅｐ

１从Ｄ中随机取ｌｊ｝个元素，作为｜｜｝个簇

各自的中心．

Ｓｔｅｐ

２分别计算剩下元素到后个簇中心的相异度，将这些元素分别划归到相异度最低的簇．

Ｓｔｅｐ

３根据聚类结果，重新计算南个簇各自

的中心，计算方法是取簇中所有元素各自维度的算

术平均数．

Ｓｔｅｐ４

将Ｄ中全部元素按照新的中心重新

聚类．

Ｓｔｅｐ５重复ｓｔｅｐ４，直到聚类结果不再变化．Ｓｔｅｐ

６将结果输出．

２．２．２基于ｋ均值聚类的样本抽取方法

基于分层与ｋ均值距离的样本抽取方法步骤

总结如下．

Ｓｔｅｐｌ

对原始数据进行简单统计分析，确定

样本数及各种特征对应的样本数比例，确定所要抽样的样本数比例．

Ｓｔｅｐ

２根据样本特征对样本进行分层分析，得到相互独立的样本集．

Ｓｔｅｐ

３针对各分层得到的样本子集，利用ｋ

均值聚类对样本进行聚类分析，然后根据各类样本

数确定抽样比例．

Ｓｔｅｐ

４将抽样结果输出．

３基于ＳＭＯ的支持向量机算法

一３．１支持向量机

支持向量机首先将输入单元映射到高维特征空间，然后找一个分割超平面使得两类之间的边缘最大，边缘最大化是二次规划问题，通过引入拉格朗日乘子可以变换成对偶问题来解决．在没有任何

万方数据

有关映射知识的情况下，支持向量机通过使用特征空间函数的点积来找最优的超平面，这个函数的点

积称为核函数．最优超平面的解可以写成很少输入

点的组合形式，这几个点称为支持向量．

给定训练集（石ｉ，ｙｉ），ｉ＝１，２，…，ｎ，其中戈ｉ∈∥，ｙｉ∈｛±１｝，一个到高维特征空间的非线性变

换（多（．），∥璺３ＲⅣ），支持向量机要求解下列

方程

毋碧｛寺ＩＩ加ＩＩ２＋ｃ；￡）

ｓ．ｔ．

ｙｉ（咖１（ｚｉ）埘＋６）≥ｌ—ｆｉＶｉ＝１，…，ｎ

氧≥Ｏ

Ｖ江１，…，凡

（３）

式中

训和６在特征空间定义线性分类器；Ｃ是惩

罚系数，可以根据具体问题事先指定；￡为松弛变

量，江１，２，…，凡；中（・）为映射函数．支持向量机

尽量保证正样本的输出值大于＋１，负样本的输出值小于一ｌ，不满足这个条件的样本需加一个非零松弛变量直，这样将给目标函数增加一个惩罚项．问题优化是为了保证解有最大边缘，通过引入拉格朗日乘子，优化问题可转换成它的对偶形式

－嘎ｎ寺∑∑ｙｉ乃ａｉ哟Ｋ（戈ｉ，勺）一∑ｑ

（４）

ｓ・ｔ・

亡乞咒ａｉ

２

ｕ

，、

ｉ＝１

０≤ａｉ≤Ｃ，ｉ＝ｌ，２，…，ｎ

式中

ｄｉ是拉格朗日系数，江１，２，…，ｎ；ｎ是训练

样本数；Ｋ（ｘｉ，戈ｉ）＝（少（ｘｉ）・西（戈ｉ））是核函数．对偶问题的求解要比原问题容易得多．

通过优化计算求得ａ’，６＋后，用式（１５）的决策函数来确定测试样本应属于哪一类

以石）＝ｓｇｎ（∑），ｉａｉ＋Ｋ（戈ｉ，并）＋６＋）

（５）

３．２序贯最小优化法（ＳＭｏ）

ＳＭＯ算法可以看作式（４）分解算法的极端特例，该算法在每次迭代中将工作集的大小固定为

２，方法归纳如下．

Ｓｔｅｐｌ设ａ１为最初的可行解，｜ｊ｝＝１．

Ｓｔｅｐ

２如果ａ‘是式（４）最优解，停止．否则

选择２个元素Ｂ＝｛ｉ，＿『｝ｃ｛ｌ，…，ｎ｝，定义Ⅳ；

｛１，…，ｎ｝＼曰，ｄ：和ａ：是ａ‘的子向量，分别对应

着Ｎ和Ｂ．

１２４

交通运输系统工程与信息

２０１３年６月

Ｓｔｅｐ

３求解对应变量ｄ。的子问题

呼扣㈦门【吕：剐习

－［ｅ㈡蚓

扣哟，暖挑］

∞’

＋（一ｅ口＋Ｑ删口：）７＋常数

ｓｕｂ．

０≤仪。，ｑ≤Ｃ

ｒ

，ｔｄＩ＋ｙｉｏ【ｉ２一ｙＮ

ｓｔｅｐ４设ｄ∥是式（６）的最优解，ａ铲１一

ａ；：Ｔ，设后一｜ｊ｝＋１，返回到ｓｔｅｐ

２．

４

基于抽样与支持向量机结合的交通流

预测

设戈ｉ表示交通流参数的当前值；戈１，．一，戈。表

示相关的历史数据；ｐ表示预测当前交通流值所用的历史数据维数；通过构造预测模型，用戈，，…，戈。预测戈ｉ的值．历史交通流参数用ｘ＝｛五，ｘ：，…，ｘ。｝表示，预测的交通流参数用ｙ表示，基于抽样与支持向量机结合的方法进行交通流预测．

（１）根据交通流预测模型，生成训练样本，设定抽样比例参数和支持向量机核参数．

（２）根据参数ｌ，的取值范围，将其分成ｚ段，样本根据分段值进行划分，每份样本数为ｎｉ（ｉ＝１，

２，…，２）．

（３）针对每份样本进行ｋ均值聚类分析，生成ｋ个聚类，根据各聚类的样本数，按比例从各个聚

类中随机抽样，生成训练抽样样本．

（４）将抽样的训练样本输入到基于序贯最小优化法的支持向量机，利用训练的支持向量机模型对交通流预测．

５

实例分析

为验证本文提出的抽样方法的有效性，利用济

南市交警支队提供的线圈检测器采集的交通流数

据进行交通流预测分析，实例分析如下．５．１数据来源

２００７年１月１日至２００７年６月１日采集济南市经十路与山师东路和环山路交叉口的交通流数据为研究对象，交通流检测器为线圈检测器，采集

万方数据

时间间隔为５ｍｉｎ，一天有２８８个时间采集点，采集

的交通流数据包括流量、速度、时间占有率等，数据

如表１所示，共有５３１８７条数据．通过对交通流数

据建模，利用历史数据对当前采集点进行交通流

预测．

表１原始数据样例

Ｔａｂｌｅ１

Ｓ蛐ｐｌｅ

ｏｆｉｎｉｎａｌｄａｔａ∞ｕｒｃｅ

５．２交通流预测模型

设ｙ表示当前交通流参数值，向量ｘ＝（Ｘ，，五，…，ｘＭ）表示当前路口前Ⅳ１个采集点的值，向量日＝（Ｈ。，Ｈ：，…，ＨＭ）表示当前路口前Ⅳ２个历史周期采集的交通流参数值，向量ｚ＝［ｘ，Ｈ］作为

交通流预测的输入特征变量．在本实例中，Ⅳ．＝

１０，Ⅳ２＝５，共１５个特征变量，需要５天的历史数据预测当前的交通流参数，根据预测模型，共生成

５１

７４７个样本．选取３００００个样本作为训练样本，

其余的２１７４７个样本作为测试样本．

５．３交通流预测

如果将３００００个样本作为支持向量机的输入，计算量会很大，用本文提出的抽样方法对其进行抽样，抽样率设为０．２．交通流参数主要有流量、

速度和时间占有率，对于流量，根据交通流量参数

的检测值，５矗ｎ内单车道流量在０到２５０辆之间，以５０为单位，根据交通流量把样本分成５份，每份的样本数分别为４４７、１

７６９、５７１３、１０４４５、１１６２７，

对每份样本进行ｋ均值聚类，聚类数为５，聚类后按样本比例抽取２０％左右的样本，最后，每份样本抽取的样本数分别为７５、３７１、１

１２０、２０４９、２３４９，

共５９６６个．以这些抽取的样本对支持向量机进行

训练，用测试样本进行测试，得到的结果如表２

所示．

表２流量预测分析结果

Ｔａｂｌｅ２

ＴｍｍｃｎｏｗＶｏｌ砌ｅｆｏｒ嘲ｓ恤ｇ

ｒ鹤ｌｌｌｔｓ

第１３卷第３期大规模交通流预测方法研究

１２５

对于速度，城市道路的车辆速度在０—１００

ｋⅡ∥ｈ

之间，大多集中在３０一６０ｋｍ之间，因此，将速度分

成［０，３０］，（３０，４０］，（４０，５０］，（５０，６０］，（６０—１００］等５段，根据当前预测速度值将训练样本分成５份，每份样本分别为５

９０２、１２３６２、８

６９６、２８６３、

１７８个，利用基于ｋ均值聚类的抽样，每份抽签的

样本数为ｌ

２２６、２５０９、１

７５２、５８８、２８．以这些抽取

的样本对支持向量机进行训练，用测试样本进行测试，得到的结果如表３所示．

表３速度预测分析结果

Ｔａｂｌｅ３

Ｔ豫舾ｃｓｐｅｅｄｆｏｒｅｃ懿廿ｎｇｒ鹤ｌｌｌｔｓ

对于时间占有率，取百分值，即原始采集数据的１００倍，取值范围在［Ｏ，１００］之间，以２０为单位，将其分成５段，根据预测时间占有率取值，将训练

样本分成５份，每份的样本数分别为８

４９９、１５４６、

４５３８、１３４２９、ｌ

９８８．通过基于ｋ均值聚类的抽样

方法，分别抽取ｌ６９７、３４１、９５９、２

６７０、３８６个样本．

以这些抽取的样本对支持向量机进行训练，用测试样本进行测试，用支持向量机作为训练器，得到的

结果如表４所示．

表４时间占有率预测分析结果

Ｔａｂｌｅ４

ｏｃｃｕｐ卸ｃｙ

ｆｂｒｅｃａｓｔｉｎｇ懈ｌｌｌｔｓ

为了比较，用随机抽样的方法和分层抽样法分别对各交通流参数进行抽样，在训练样本中抽取

２０％左右的样本用于训练，２１７４７个测试样本做测

试，用基于序贯最小优化法的支持向量机进行预

测，得到的结果如表２至表４所示．５．４结果分析

从不同抽样分析的训练结果看，在ＭＳＥ和

ＭＡＥ指标上，基于本文提出的基于分层与ｋ均值

万方数据

聚类的抽样方法得到的交通流预测结果质量要高于基于随机抽样、分层抽样得到的交通流预测结果，而ＭＡＰＥ的预测结果基本相同．

６研究结论

随着交通流数据规模的不断增长，可用于交通

流分析的数据越来越多，而交通流分析的实时要求

较高，如何提高交通流预测的速度对智能交通系统的应用具有重要意义．抽样是处理大规模数据的重要方法，本文将抽样方法用于对交通流数据的分析，为提高抽样的质量，提出了基于分层与ｋ均值结合的抽样方法，通过对实际交通流数据的分析，

本文提出的抽样方法质量比现有的抽样方法好，交

通流分析结果的精度有所提高．在预测模型上，本文采用了基于序贯最小优化法的支持向量机作为

交通流预测模型，在保证交通流预测精度的前提

下，大大提高了交通流分析的速度，通过实例分析，

得到较满意的结果．因此，本文提出的抽样方法用于大规模数据的交通流预测是合适的．

参考文献：

［１］杨兆升．基础交通信息融合技术及其应用［Ｍ］．北

京：中国铁道出版社，２００５．［ＹＡＮＧ

ｚ

ｓ．Ｂａｓｉｃｔｍｎｓｐｏｎａｔｉｏｎ

ｉｎｆｏ丌ｒＩａｔｉｏｎ

ｆｕｓｉｏｎ

ｔｅｃｈｎｏｌｏｇｙａｎｄ

ｉｔｓ

ａｐｐｌｉｃａｔｉｏｎ［Ｍ］．Ｂｅｉｊｉｎｇ：Ｃｈｉｎａ

Ｒａｉｌｗａｙ

Ｐｕｂｌｉｓｈｉｎｇ

Ｈｏｕｓｅ，２００５，］［２］

ＧｈｏｓｈＢ，ＢａｓｕＢ，０’ＭａｈｏｎｙＭ．Ｍｕｌｔｉｖａｒｉａｔｅｓｈｏｒｔ．

ｔｅｍｌ皿瓶ｃ

ｆｌｏｗ

ｆｏＴｅｅａｓｔｉｎｇｕｓｉｎｇ

ｔｉｍｅ－ｓｅｒｉｅｓ

ａｎａｌｙｓｉｓ

［Ｊ］．

ＩＥＥＥ

Ｔｒａｎｓａｃｔｉｏｎｓ

ｏｎ

ＩｎｔｅｕｉｇｅｎｔＴｒａｎｓｐｏｎａｔｉｏｎ

Ｓｙｓｔｅｍｓ，２０（）９，ｌＯ（２）：２４６．２５４．

［３］

杜子芳．抽样技术及其应用［Ｍ］．北京：清华大学出版社，２００５．

［Ｄｕｚ

Ｆ．ｓａＩＩｌｐｌｉｎｇｔｅｃｈｎｉｑｕｅ

ａｎｄ

印ｐｌｉｃａｔｉｏｎｓ

［Ｍ］．

Ｂｅｉｊｉｎｇ：

Ｔｓｉｎｇｈｕａｕｎｉｖｅｒｓｉｔｙ

Ｐｒｅｓｓ，２００５．］［４］

ｃｈａｎｇｃ

ｃ，“ｎｃＪ．ＬＩＢＳＶＭ：Ａｌｉｂｒａｒｙｆ．ｏｒ

ｓｕｐｐｏｎ

ｖｅｃｔｏｒ

ｍａｃｈｉｎｅｓ［Ｊ］．

ＡｃＭＴｍｎｓａｃｔｉｏｎｓ

ｏｎ

Ｉｎｔｅｕｉｇｅｎｔ

ＳｙｓｔｅｍｓａｎｄＴｅｃｈｎｏｌｏｇｙ，２０ｌ１，２７（２）：１－２７．

［５］

ＢｏｓｅｒＢ，ＧｕｙｏｎＩ，ＶａｐｎｉｋＶ．Ａｔｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｏｐｔｉｍａｌ

ｍａｒｇｉｎ

ｃｌａｓｓｍｅｒｓ［ｃ］．

Ｔｈｅ５ｔｈＡｎｎｕａｌ

Ｗｏｒｋｓｈ叩ｏｎ

ＣｏｍｐｕｔａｔｉｏｎａｌＬｅａＨｌｉｎｇＴｈｅｏｒｙ，１９９２．

［６］

ＦａｎＲＥ，ｃｈｅｎＰＨ，ＬｉｎｃＪ．ｗｏｒｋｉｎｇｓｅｔ

ｓｅｌｅｃｔｉｏｎ

ｕｓｉｎｇｓｅｃｏｎｄｏｒｄｅｒ

ｉｎｆｂｍａｔｉｏｎ

ｆｏｒｔｍｉｎｉｎｇｓＶＭ［Ｊ］．

Ｊｏ哪ａｌ

０ｆ

Ｍａｃｈｉｎｅ

ｋ锄ｉｎｇ

Ｒｅｓｅａｒｃｈ，２００５（６）：

１８８９．１９１８．

大规模交通流预测方法研究

作者：

作者单位：刊名：英文刊名：年，卷(期)：

孙占全，刘威，朱效民， SUN Zhan-quan， LIU Wei， ZHU Xiao-min山东省计算中心山东省计算机网络重点实验室,济南,250014

交通运输系统工程与信息

Journal of Transportation Systems Engineering and Information Technology2013,13(3)

本文链接：http://d.g.wanfangdata.com.cn/Periodical_jtysxtgcyxx201303019.aspx

第１３卷第３期

２０１３年６月

ＪｏｕｍａＩｏｆ

交通运输系统工程与信息

ＴｒａｎｓｐｏｎａｔｉｏｎＳｙｓｔｅｍｓＥｎ西ｎｅｅｒｉｎｇａｎｄＩ山ｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ

ｍ５

Ｖ０１．１３

Ｊｕｎｅ

Ｎｏ．３２０１３

文章编号：１００９．６７４４（２０１３）０３＿０１２１

大规模交通流预测方法研究

孙占全８，刘威，朱效民

（山东省计算中心山东省计算机网络重点实验室，济南２５００１４）

摘要：随着交通信息化的快速发展，可供分析的交通流数据量越来越大，如何利用大

测是有效的．关键词：

智能交通；拥挤判别；抽样；ｋ均值聚类

文献标识码：Ａ

中图分类号：Ｕ２６８．６

ＴｒａｆｎｃＦｌｏｗＦｏｒｅｃａｓｔｉｎｇＢａｓｅｄ

ｏｎ

ＬａｒｇｅＳｃａｌｅＴｒａｆｎｃＦｌｏｗＤａｔａ

ＳＵＮＺｈａｎ－ｑｕａｎ，ＵＵ

（Ｓｈａｎｄｏｎｇ

Ｗｅｉ，ＺＨＵ

Ｘｉａｏ—ｍｉｎ

２５００１４，Ｃｈｉｎａ）

Ａｂｓ位驰ｔ：

Ｗｉｎｌｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｔｒａｍｃｉｎｆｏ珊ａｔｉｚａｔｉｏｎ，ｉｎｃｒｅａｓｉｎｇ

ｔｏ

ａｍｏｕｎｔ

ａａ

ｏｆ

ｔｒａｆＥｉｃｄａｔａ

ｃａｎ

ｂｅ

ｃｏｌｌｅｃｔｅｄ．Ｈｏｗｔｍｎｓｐｏｎａｔｉｏｎ

ｍａｋｅｍｏｓｔｏｆｔｈｅ

ｍ瓶ｃ

ｄａｔａｔｏｆｏｒｅｃａｓｔｔｒａｍｃｎｏｗｉｓ

ｃ１１ＪｃｉａｌｗｏｒｋｏｆｔｈｅｉｎｔｅＵｉｇｅｎｔｓａｍｐｌｉｎｇｍｅｔｈｏｄｂａｓｅｄ

Ｖｅｃｔｏｒ

ｏｎ

ｓｙｓｔｅｍｓ（ＩＴｓ）．Ｔｏｒｅｓｏｌｖｅｔｈｉｓｐｍｂｌｅｍ，ｔｈｉｓｐａｐｅｒｐｍｐｏｓｅｓ

ｔｈｅ

ｏｎ

ＩｆＩａｃｈｉｎｅ（ＳＶＭ）ｂａｓｅｄ

ｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｔｈｅ

ｏｎ

ｓｅｑｕｅｎｃｅ

ｏｐｔｉｌｎｉｚａｔｉｏｎｍｅｔｈｏｄｉｓｕｓｅｄ

ｏｎ

ｔｏ

ｆｏｒｅｃａＬｓｔｔｍｍｃｎｏｗ

ｐ啪ｍｅｔｅｒｓ．Ｔｈｅａｎａｌｙｓｉｓ

ｔｏ

ｓａｍｐｌｉｎｇｑｕａｌｉｔｙｂａｓｅｄＳＶＭａｌｓｏｐｍｂｌｅｍｓ．

ｇｅｔｓ

ｔｈｅｐｒｏｐｏｓｅｄｓａｍｐｌｉｎｇｍｅｔｈｏｄｉｓＩｔｐｒｏｖｅｓ

ｔｈａｔ

ｔｈｅ

ｍｅｔｈｏｄ

ｉｓ

ｒｅｆ０册ｅｄ．Ｔｈｅ

ｅｍｃｉｅｎｔ

ｆｂｒｅｃａｓｔｉｎｇｐｒｅｃｉｓｉｏｎｂａｓｅｄ

ｔｈｅ

ｉｍｐｒｏｖｅｄ．

ｓｏｌｖｅ

ｌａｒｇｅ—ｓｃａｌｅｔｒａｍｃｆｏｒｅｃａｓｔｉｎｇ

Ｋｅｙ、阳ｒｄｓ：

ＣＬＣ

ｉｎｔｅＵｉｇｅｍ

ｔｒａｎｓｐｏｍｔｉ伽ｓｙｓｔｅｍ；ｔ珀ｍｃ

ｃｏｎ窘ｅｓｔｉｏｎ

ｉｄｅｎｔｉｆｉｃａｔｉｏｎ；ｓａＩＩｌｐｌｉｎｇ；ｋ—ｒｒ呦１１ｓ

Ａ

ｃＩｕｓｔｅｄｎｇ

ｎ岫ｂｅｒ：

Ｕ２６８．６

Ｄｏｃ岫ｅｎｔｃｏｄｅ：

收稿日期：２０１３－ｏｌ驷

修回日期：２０１３＿０２－２６

录用日期：２０１３ｍ３艄

万方数据

１２２

交通运输系统工程与信息

２０１３年６月

１

引言

究，大量的预测模型已被研究，常用的预测方法有

类中按比例进行抽样．

模型Ｈｊ，广泛应用到实际中．随着训练样本数的增

长，支持向量机的计算和存储需求呈指数增长，致使很多实际问题都无法解决，支持向量机的核心是

二次规划问题，文献［５］通过分块方式实现二次规

万方数据

２基于ｋ均值聚类的分层抽样方法

本方法首先利用分层抽样方法对原始数据进行分层，然后对各分层数据利用ｋ均值方法进行无监督聚类，最后从各聚类中抽取样本，方法详细介

绍如下．２．１样本分层

分层抽样法是将总体单位按其属性特征分成若干类型或层，然后在类型或层中随机抽取样本单位．基于分层抽样的分层方法如下．

（１）分层特征的确定．

分层特征是抽样前对总体进行分组的依据．在实际测量时可以根据实际的需要选取相应的分层

特征．

（２）各层样本量分配的确定．

在样本分层之后，如何对各个分层选取合适的抽样样本，仍然是值得研究的问题．目前大多数选

择随机抽样的方法，根据比例抽取相应的样本，这

类技术经常被称为无监督学习．通过聚类可以将相

２．２基于ｋ均值聚类的抽样

ｋ均值聚类

给定观察样本集Ｄ＝（菇，，菇：，…，戈。），其中每

２．２．１

第１３卷第３期大规模交通流预测方法研究

１２３

＾

ｍｉｎ∑∑０鼍一ｐｉ

０

２

（１）

Ｈｌ’５

５ｉ

式中化是５ｉ中所有点的均值．

距离测度通常选为欧几里得距离，定义如下

厂ｉ———————一

州舻√乏１‰飞Ｉ

２

（２）

式中

戈ｉ＝（ｘ¨戈∽…，ｚｉ。）和巧＝（巧。，％，…，勺。）

是两个ｍ维数据对象．

ｋ均值聚类算法的步骤总结如下．

Ｓｔｅｐ

１从Ｄ中随机取ｌｊ｝个元素，作为｜｜｝个簇

各自的中心．

Ｓｔｅｐ

２分别计算剩下元素到后个簇中心的相异度，将这些元素分别划归到相异度最低的簇．

Ｓｔｅｐ

３根据聚类结果，重新计算南个簇各自

的中心，计算方法是取簇中所有元素各自维度的算

术平均数．

Ｓｔｅｐ４

将Ｄ中全部元素按照新的中心重新

聚类．

Ｓｔｅｐ５重复ｓｔｅｐ４，直到聚类结果不再变化．Ｓｔｅｐ

６将结果输出．

２．２．２基于ｋ均值聚类的样本抽取方法

基于分层与ｋ均值距离的样本抽取方法步骤

总结如下．

Ｓｔｅｐｌ

对原始数据进行简单统计分析，确定

样本数及各种特征对应的样本数比例，确定所要抽样的样本数比例．

Ｓｔｅｐ

２根据样本特征对样本进行分层分析，得到相互独立的样本集．

Ｓｔｅｐ

３针对各分层得到的样本子集，利用ｋ

均值聚类对样本进行聚类分析，然后根据各类样本

数确定抽样比例．

Ｓｔｅｐ

４将抽样结果输出．

３基于ＳＭＯ的支持向量机算法

一３．１支持向量机

万方数据

有关映射知识的情况下，支持向量机通过使用特征空间函数的点积来找最优的超平面，这个函数的点

积称为核函数．最优超平面的解可以写成很少输入

点的组合形式，这几个点称为支持向量．

给定训练集（石ｉ，ｙｉ），ｉ＝１，２，…，ｎ，其中戈ｉ∈∥，ｙｉ∈｛±１｝，一个到高维特征空间的非线性变

换（多（．），∥璺３ＲⅣ），支持向量机要求解下列

方程

毋碧｛寺ＩＩ加ＩＩ２＋ｃ；￡）

ｓ．ｔ．

ｙｉ（咖１（ｚｉ）埘＋６）≥ｌ—ｆｉＶｉ＝１，…，ｎ

氧≥Ｏ

Ｖ江１，…，凡

（３）

式中

训和６在特征空间定义线性分类器；Ｃ是惩

罚系数，可以根据具体问题事先指定；￡为松弛变

量，江１，２，…，凡；中（・）为映射函数．支持向量机

－嘎ｎ寺∑∑ｙｉ乃ａｉ哟Ｋ（戈ｉ，勺）一∑ｑ

（４）

ｓ・ｔ・

亡乞咒ａｉ

２

ｕ

，、

ｉ＝１

０≤ａｉ≤Ｃ，ｉ＝ｌ，２，…，ｎ

式中

ｄｉ是拉格朗日系数，江１，２，…，ｎ；ｎ是训练

样本数；Ｋ（ｘｉ，戈ｉ）＝（少（ｘｉ）・西（戈ｉ））是核函数．对偶问题的求解要比原问题容易得多．

通过优化计算求得ａ’，６＋后，用式（１５）的决策函数来确定测试样本应属于哪一类

以石）＝ｓｇｎ（∑），ｉａｉ＋Ｋ（戈ｉ，并）＋６＋）

（５）

３．２序贯最小优化法（ＳＭｏ）

ＳＭＯ算法可以看作式（４）分解算法的极端特例，该算法在每次迭代中将工作集的大小固定为

２，方法归纳如下．

Ｓｔｅｐｌ设ａ１为最初的可行解，｜ｊ｝＝１．

Ｓｔｅｐ

２如果ａ‘是式（４）最优解，停止．否则

选择２个元素Ｂ＝｛ｉ，＿『｝ｃ｛ｌ，…，ｎ｝，定义Ⅳ；

｛１，…，ｎ｝＼曰，ｄ：和ａ：是ａ‘的子向量，分别对应

着Ｎ和Ｂ．

１２４

交通运输系统工程与信息

２０１３年６月

Ｓｔｅｐ

３求解对应变量ｄ。的子问题

呼扣㈦门【吕：剐习

－［ｅ㈡蚓

扣哟，暖挑］

∞’

＋（一ｅ口＋Ｑ删口：）７＋常数

ｓｕｂ．

０≤仪。，ｑ≤Ｃ

ｒ

，ｔｄＩ＋ｙｉｏ【ｉ２一ｙＮ

ｓｔｅｐ４设ｄ∥是式（６）的最优解，ａ铲１一

ａ；：Ｔ，设后一｜ｊ｝＋１，返回到ｓｔｅｐ

２．

４

基于抽样与支持向量机结合的交通流

预测

设戈ｉ表示交通流参数的当前值；戈１，．一，戈。表

（１）根据交通流预测模型，生成训练样本，设定抽样比例参数和支持向量机核参数．

（２）根据参数ｌ，的取值范围，将其分成ｚ段，样本根据分段值进行划分，每份样本数为ｎｉ（ｉ＝１，

２，…，２）．

（３）针对每份样本进行ｋ均值聚类分析，生成ｋ个聚类，根据各聚类的样本数，按比例从各个聚

类中随机抽样，生成训练抽样样本．

（４）将抽样的训练样本输入到基于序贯最小优化法的支持向量机，利用训练的支持向量机模型对交通流预测．

５

实例分析

为验证本文提出的抽样方法的有效性，利用济

南市交警支队提供的线圈检测器采集的交通流数

据进行交通流预测分析，实例分析如下．５．１数据来源

２００７年１月１日至２００７年６月１日采集济南市经十路与山师东路和环山路交叉口的交通流数据为研究对象，交通流检测器为线圈检测器，采集

万方数据

时间间隔为５ｍｉｎ，一天有２８８个时间采集点，采集

的交通流数据包括流量、速度、时间占有率等，数据

如表１所示，共有５３１８７条数据．通过对交通流数

据建模，利用历史数据对当前采集点进行交通流

预测．

表１原始数据样例

Ｔａｂｌｅ１

Ｓ蛐ｐｌｅ

ｏｆｉｎｉｎａｌｄａｔａ∞ｕｒｃｅ

５．２交通流预测模型

交通流预测的输入特征变量．在本实例中，Ⅳ．＝

１０，Ⅳ２＝５，共１５个特征变量，需要５天的历史数据预测当前的交通流参数，根据预测模型，共生成

５１

７４７个样本．选取３００００个样本作为训练样本，

其余的２１７４７个样本作为测试样本．

５．３交通流预测

如果将３００００个样本作为支持向量机的输入，计算量会很大，用本文提出的抽样方法对其进行抽样，抽样率设为０．２．交通流参数主要有流量、

速度和时间占有率，对于流量，根据交通流量参数

的检测值，５矗ｎ内单车道流量在０到２５０辆之间，以５０为单位，根据交通流量把样本分成５份，每份的样本数分别为４４７、１

７６９、５７１３、１０４４５、１１６２７，

对每份样本进行ｋ均值聚类，聚类数为５，聚类后按样本比例抽取２０％左右的样本，最后，每份样本抽取的样本数分别为７５、３７１、１

１２０、２０４９、２３４９，

共５９６６个．以这些抽取的样本对支持向量机进行

训练，用测试样本进行测试，得到的结果如表２

所示．

表２流量预测分析结果

Ｔａｂｌｅ２

ＴｍｍｃｎｏｗＶｏｌ砌ｅｆｏｒ嘲ｓ恤ｇ

ｒ鹤ｌｌｌｔｓ

第１３卷第３期大规模交通流预测方法研究

１２５

对于速度，城市道路的车辆速度在０—１００

ｋⅡ∥ｈ

之间，大多集中在３０一６０ｋｍ之间，因此，将速度分

９０２、１２３６２、８

６９６、２８６３、

１７８个，利用基于ｋ均值聚类的抽样，每份抽签的

样本数为ｌ

２２６、２５０９、１

７５２、５８８、２８．以这些抽取

的样本对支持向量机进行训练，用测试样本进行测试，得到的结果如表３所示．

表３速度预测分析结果

Ｔａｂｌｅ３

Ｔ豫舾ｃｓｐｅｅｄｆｏｒｅｃ懿廿ｎｇｒ鹤ｌｌｌｔｓ

样本分成５份，每份的样本数分别为８

４９９、１５４６、

４５３８、１３４２９、ｌ

９８８．通过基于ｋ均值聚类的抽样

方法，分别抽取ｌ６９７、３４１、９５９、２

６７０、３８６个样本．

以这些抽取的样本对支持向量机进行训练，用测试样本进行测试，用支持向量机作为训练器，得到的

结果如表４所示．

表４时间占有率预测分析结果

Ｔａｂｌｅ４

ｏｃｃｕｐ卸ｃｙ

ｆｂｒｅｃａｓｔｉｎｇ懈ｌｌｌｔｓ

为了比较，用随机抽样的方法和分层抽样法分别对各交通流参数进行抽样，在训练样本中抽取

２０％左右的样本用于训练，２１７４７个测试样本做测

试，用基于序贯最小优化法的支持向量机进行预

测，得到的结果如表２至表４所示．５．４结果分析

从不同抽样分析的训练结果看，在ＭＳＥ和

ＭＡＥ指标上，基于本文提出的基于分层与ｋ均值

万方数据

聚类的抽样方法得到的交通流预测结果质量要高于基于随机抽样、分层抽样得到的交通流预测结果，而ＭＡＰＥ的预测结果基本相同．

６研究结论

随着交通流数据规模的不断增长，可用于交通

流分析的数据越来越多，而交通流分析的实时要求

本文提出的抽样方法质量比现有的抽样方法好，交

通流分析结果的精度有所提高．在预测模型上，本文采用了基于序贯最小优化法的支持向量机作为

交通流预测模型，在保证交通流预测精度的前提

下，大大提高了交通流分析的速度，通过实例分析，

得到较满意的结果．因此，本文提出的抽样方法用于大规模数据的交通流预测是合适的．

参考文献：

［１］杨兆升．基础交通信息融合技术及其应用［Ｍ］．北

京：中国铁道出版社，２００５．［ＹＡＮＧ

ｚ

ｓ．Ｂａｓｉｃｔｍｎｓｐｏｎａｔｉｏｎ

ｉｎｆｏ丌ｒＩａｔｉｏｎ

ｆｕｓｉｏｎ

ｔｅｃｈｎｏｌｏｇｙａｎｄ

ｉｔｓ

ａｐｐｌｉｃａｔｉｏｎ［Ｍ］．Ｂｅｉｊｉｎｇ：Ｃｈｉｎａ

Ｒａｉｌｗａｙ

Ｐｕｂｌｉｓｈｉｎｇ

Ｈｏｕｓｅ，２００５，］［２］

ＧｈｏｓｈＢ，ＢａｓｕＢ，０’ＭａｈｏｎｙＭ．Ｍｕｌｔｉｖａｒｉａｔｅｓｈｏｒｔ．

ｔｅｍｌ皿瓶ｃ

ｆｌｏｗ

ｆｏＴｅｅａｓｔｉｎｇｕｓｉｎｇ

ｔｉｍｅ－ｓｅｒｉｅｓ

ａｎａｌｙｓｉｓ

［Ｊ］．

ＩＥＥＥ

Ｔｒａｎｓａｃｔｉｏｎｓ

ｏｎ

ＩｎｔｅｕｉｇｅｎｔＴｒａｎｓｐｏｎａｔｉｏｎ

Ｓｙｓｔｅｍｓ，２０（）９，ｌＯ（２）：２４６．２５４．

［３］

杜子芳．抽样技术及其应用［Ｍ］．北京：清华大学出版社，２００５．

［Ｄｕｚ

Ｆ．ｓａＩＩｌｐｌｉｎｇｔｅｃｈｎｉｑｕｅ

ａｎｄ

印ｐｌｉｃａｔｉｏｎｓ

［Ｍ］．

Ｂｅｉｊｉｎｇ：

Ｔｓｉｎｇｈｕａｕｎｉｖｅｒｓｉｔｙ

Ｐｒｅｓｓ，２００５．］［４］

ｃｈａｎｇｃ

ｃ，“ｎｃＪ．ＬＩＢＳＶＭ：Ａｌｉｂｒａｒｙｆ．ｏｒ

ｓｕｐｐｏｎ

ｖｅｃｔｏｒ

ｍａｃｈｉｎｅｓ［Ｊ］．

ＡｃＭＴｍｎｓａｃｔｉｏｎｓ

ｏｎ

Ｉｎｔｅｕｉｇｅｎｔ

ＳｙｓｔｅｍｓａｎｄＴｅｃｈｎｏｌｏｇｙ，２０ｌ１，２７（２）：１－２７．

［５］

ＢｏｓｅｒＢ，ＧｕｙｏｎＩ，ＶａｐｎｉｋＶ．Ａｔｍｉｎｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｏｐｔｉｍａｌ

ｍａｒｇｉｎ

ｃｌａｓｓｍｅｒｓ［ｃ］．

Ｔｈｅ５ｔｈＡｎｎｕａｌ

Ｗｏｒｋｓｈ叩ｏｎ

ＣｏｍｐｕｔａｔｉｏｎａｌＬｅａＨｌｉｎｇＴｈｅｏｒｙ，１９９２．

［６］

ＦａｎＲＥ，ｃｈｅｎＰＨ，ＬｉｎｃＪ．ｗｏｒｋｉｎｇｓｅｔ

ｓｅｌｅｃｔｉｏｎ

ｕｓｉｎｇｓｅｃｏｎｄｏｒｄｅｒ

ｉｎｆｂｍａｔｉｏｎ

ｆｏｒｔｍｉｎｉｎｇｓＶＭ［Ｊ］．

Ｊｏ哪ａｌ

０ｆ

Ｍａｃｈｉｎｅ

ｋ锄ｉｎｇ

Ｒｅｓｅａｒｃｈ，２００５（６）：

１８８９．１９１８．

大规模交通流预测方法研究

作者：

作者单位：刊名：英文刊名：年，卷(期)：

孙占全，刘威，朱效民， SUN Zhan-quan， LIU Wei， ZHU Xiao-min山东省计算中心山东省计算机网络重点实验室,济南,250014

交通运输系统工程与信息

Journal of Transportation Systems Engineering and Information Technology2013,13(3)

本文链接：http://d.g.wanfangdata.com.cn/Periodical_jtysxtgcyxx201303019.aspx

大规模交通流预测方法研究

相关文章