高斯过程回归方法综述

第xx 卷第x 期V ol. xx No. x

文章编号:1001-0920(0000)00-0000-00

控制与

and

决策

Control Decision

xxxx 年x 月Xxx. xxxx

高斯过程回归方法综述

何志昆, 刘光斌, 赵曦晶, 王明昊

(第二炮兵工程大学控制工程系,西安710025)

要:高斯过程回归是基于贝叶斯理论和统计学习理论发展起来的一种全新机器学习方法, 适于处理高维数、小

样本和非线性等复杂回归问题. 在阐述该方法原理的基础上, 分析了其存在的计算量大、噪声必须服从高斯分布等问题, 并给出了改进方法. 与神经网络、支持向量机相比, 该方法具有容易实现、超参数自适应获取、输出具有概率意义等优点, 方便与预测控制、自适应控制、贝叶斯滤波等相结合. 最后总结了其应用并展望了其未来发展方向. 关键词:高斯过程回归;机器学习;函数空间;协方差矩阵;近似法;不确定度中图分类号:TP181

文献标识码:A

Overview of Gaussian Process Regression

HE Zhi-kun , LIU Guang-bin , ZHAO Xi-jing , WANG Ming-hao

(Departmentof Control Engineering, The Second Artillery Engineering University, Xi ’an 710025,China. Correspondent :HE Zhi-kun ,E-mail :[email protected])

Abstract:Gaussian process regression (GPR)is a new machine learning method by the context of Bayesian theory and statistical learning theory. It provides a flexibleframework for probabilistic regression and is widely used to solve the high-dimensional, small-sample or nonlinear regression problems. Its principle is introduced in the function-space view and several limitations such as computational difficultiesfor large data sets and restrictive modelling assumptions for complex data sets are discussed. Several improved approaches for these limitations are summarized. GPR is simple to implement, flexibleto nonparameter infer and self-adaptive to determinate hyperparameters in comparison with neural network and support vector machine. The attractive feature that GPR models provide Gaussian uncertainty estimates for their predictions allows them to be seamlessly incorporated into predictive control, adaptive control and Bayesian filteringtechniques. Finally, its applications are given and future research trends are prospected.

Key words:Gaussian process regression ;machine learning ;function space ;covariance matrix ;approximations ;uncertainty

1引言

出为连续的) 和分类问题(输出为离散的). 其中, 回归问题可以数学描述如下:

假设有训练集D ={(x i , y i ) |i =1, ···, n }=

(X, y ) , 其中x i ]∈R d 为d 维输入矢量, X =[

x 1x 2···x n 为d ×n 维输入矩阵, y i ∈R 为相应的输出标量, y 为输出矢量. 回归的任务是根据训练集

机器学习是当前计算机科学和信息科学中一个重要的前沿领域, 与模式识别和统计推断密切相关, 日益得到各领域学者的重视. 它是一门多学科交叉研究, 研究内容和应用领域极其广泛, 几乎囊括了所有人类认知领域. 机器学习问题大体可以分为三大类:监督学习、无监督学习和强迫学习. 根据经验数据(训练集) 来学习输入—输出之间的映射关系, 使得给定新的输入, 可以得到相应的输出值(即预测值), 即为监督学习问题. 根据输出值的类型, 可分为回归问题(输

收稿日期:xxxx-xx-xx ;修回日期:xxxx-xx-xx. 基金项目:国家863计划项目(2010AA7010213).

学习输入X 与输出y 之间的映射关系(f (·) :R d →R ), 从而预测出与新测试点x ∗对应的最可能输出值f (x ∗) .

在监督学习中, 通常有两类方法来确定映射函数. 第一类就是参数化回归, 即假设训练数据是通过

作者简介:何志昆(1984−), 男, 博士生, 从事机器学习、非线性滤波及组合导航等研究;刘光斌(1963−), 男, 教授, 博

士生导师, 从事系统辨识与仿真、卫星信号仿真等研究.

一个由参数w 定义的函数f (x ; w ) 产生得到的. 此时, 函数映射f (x ; ·) 和特定参数集w 共同定义了参数化模型, 而参数化回归就是寻找一组使数据得到“最好”诠释的参数. 该方法引入一个新的问题:如何判断一个模型是最好的或者一个模型比另一个模型更好? 一种方法就是寻找一组能使某一损失函数L (w ) 最小化的参数. 通常采用的损失函数为二次损失函数, 典型的例子有最小二乘多项式回归、最小二乘BP 神经网络等. 这种方法存在明显的缺陷:仅致力在训练集上降低模型误差. 若一味为了降低模型误差而增加模型复杂度, 易导致过拟合, 尽管在训练集上回归精度高, 但是其泛化能力或预测性能不佳. 为了避免过拟合, 可以使用一个相对简单的模型, 它忽略了复杂特征和噪声, 相对比较平滑. 但是模型过于简单同样会造成预测性能差. 另一种方法就是极大似然法, 它不需要损失函数. 首先由假定的噪声分布得到训练集的联合概率密度(即似然函数), 再通过寻找使似然函数最大化的参数w 来获得回归模型. 倘若噪声分布满足高斯分布, 通过比较似然函数和二次损失函数不难发现, 该似然函数的负对数与二次损失函数成一定比例关系, 表明了这两种方法在本质上是一样的.

为了避免过拟合, 有了第二类方法, 就是贝叶斯回归. 该方法定义了一个函数分布, 赋予每一种可能的函数一个先验概率, 可能性越大的函数, 其先验概率越大. 但是可能的函数往往为一个不可数集, 即有无限个可能的函数, 随之引入一个新的问题:如何在有限的时间内对这些无限的函数进行选择? 一种有效解决方法就是高斯过程回归(Gaussianprocess regression, GPR).

GPR 是近年来发展起来的一种新的机器学习回归方法, 它有着严格的统计学习理论基础, 对处理高维数、小样本、非线性等复杂的问题具有很好的适应性, 且泛化能力强. 与神经网络、支持向量机相比, GPR 具有容易实现、超参数自适应获取、非参数推断灵活以及输出具有概率意义等优点, 在国外发展很快, 并取得了许多研究成果, 现已成为国际机器学习领域的研究热点[1-3]; 近几年也逐步得到国内学者的重视, 在许多领域得到了成功应用[4-6]. 下文首先阐述GPR 的基本原理, 对GPR 存在的主要问题进行了探讨, 总结了相应的改进方法. 最后对GPR 的应用进行总结并指出几个发展趋势.

2高斯过程回归原理

2.1预测

从函数空间视角出发, 定义一个高斯过

程(Gaussianprocess, GP) 来描述函数分布, 直接在函数空间进行贝叶斯推理[1,7]. GP 是任意有限个随机变量均具有联合高斯分布的集合, 它的性质完全由均值函数和协方差函数确定{

:

m (x ) =E [f (x )],

k (x , x ′) =E[(f (x ) −m (x ))(f (x ′) −m (x ′))],

式中, x , x ′∈R d 为任意随机变量. 因此GP 可定义为f (x ) ∼GP (m (x ) , k (x , x ′)) . 为了符号上的简洁, 通常对数据作预处理, 使其均值函数等于0.

对于回归问题, 考虑如下模型:

y =f (x ) +ε,

(1)

式中, x 为输入向量, f 为函数值, y 为受加性噪声污染

的观测值, 进一步假设噪声ε∼N (0, σ2

n ) .

可以得到观测值y 的先验分布为

y ∼N (0, K (X, X ) +σ2

n

I n ) , 以及观测值[y 和预测值f ∗的联合先验分布为:

y ]([K (X, X ) +σ2

])

n I n K f ∼N 0, (X, x ∗)

K (x X ) k (x , ∗∗, ∗, x ∗) 式中, K (X, X ) =K n =(k ij ) 为n ×n 阶对称正定的协方差矩阵, 矩阵元素k ij =k (x i , x j ) , 度量x i 和x j 之间的相关性, K (X, x ∗) =K (x ∗, X ) T 为测试点x ∗与训练集的输入X 之间的n ×1阶协方差矩阵, k (x ∗, x ∗) 为测试点x ∗自身的协方差, I n 为n 维单位矩阵.

由此可以计算出预测值f ∗的后验分布为

f ∗|X, y , x ∗∼N (f ¯∗, cov(f ∗)) ,

其中,

f ¯∗=K (x ∗, X )[K (X, X ) +σ2n I n ]

−1y , (2)

cov(f ∗) =k (x ∗, x ∗) −K (x ∗, X ) ×

[K (X, X ) +σ2

n I n ]−1K (X, x ∗) ,

(3)

则µˆ∗=f ¯∗, ˆσ2f ∗

=cov(f ∗) 即为测试点x ∗对应预测值f ∗的均值和方差。2.2

训练

GPR 可以选择不同的协方差函数, 常用的协方差函数有平方指数协方差, 如下所示:

k (x , x ′) =σ2

exp(−1f (x −x ′) T M −1(x −x ′)) ,

式中, M =diag (l 22) , l 为方差尺度, σ2

f 为信号方差. 参

数集合θ={M, σ2f , σ2n }即为超参数, 一般通过极大似

然法求得:首先建立训练样本条件概率的负对数似然函数L (θ) =−log p (y |X, θ) , 并令其对超参数θ求偏导, 然后采用共轭梯度法、牛顿法等优化方法对偏导数做最小化得到超参数的最优解. 其中, 负对数似然函

数L (θ) 及其关于超参数θ的偏导数形式如下所示:

L (θ) =12y T C −1y +1n

2log |C |+2

log 2π,

∂L(θ) ()

=1tr (ααT ∂C

∂θ2−C −1) ∂θ, i i

式中:C =K n +σ2n I n , α=(K +σ2

n I n ) −1y =C −1y .

获得最优超参数后, 利用式(2)(3)就可以得到测

试点x ∗对应的预测值f ∗及其方差σˆ2f ∗

. 3GPR 存在的主要问题及改进方法

尽管GPR 方法具有容易实现、超参数自适应获取及预测输出具有概率意义等优点, 但是它目前仍存在一些问题, 主要有两个方面:一是计算量大; 二是局限于高斯噪声分布假设. 3.1降低计算量的改进方法

GPR 的非参数性质直接导致了其计算量大的问题. 如前所述, 训练中超参数一般是通过最优化边缘似然获取的. 每一次梯度计算都需要对协方差矩阵K n +

σ2

n I n 求逆,

因此计算量达O (n 3

×梯度计算的

次数); 预测时, 每个测试点的预测计算量为O (n 2) . 当处理大数据集时, 计算量将成为限制高斯过程回归方法应用的一大瓶颈.

过去二十年里, 为了解决这个问题, 许多学者做了大量的工作, 提出了许多有效的近似方法, 大体上可以分为以下三类:

3.1.1数据子集(Subsetof data, SD) 近似法

在众多降低计算复杂度的方法中, 最简单的就是SD 近似法——仅选择原n 维训练集中的一个维数为m 的小子集作为新训练集, 用于GPR 预测. 尽管该方法看似简单、不值一提, 但是相比其它更复杂的近似方法来说, 它没有额外的计算量和内存开销, 在许多场合下可能是最好的方法:如对于高度冗余数据集而言, 额外的数据点能提供关于函数的信息非常少, 此时没有必要牺牲计算量来采用其它复杂的近似方法以获得在性能上微不足道的改善. 应用SD 近似法的关键是如何选取一个合适的数据子集. 下文的许多算法也都面临同样的问题, 目前通常采用的方法有两种:一是随机选取; 二是采用贪心算法(Greedyapproach), 也称前向选取策略(Forwardselection strate-gy).

3.1.2降秩(Reduced-rank)近似法

降低计算量的另一种思路就是对协方差矩阵K n 进行降秩近似, 即K n =V V T , 其中V 为n ×

m 维(m

(K n +σ2n I n ) −1=σ−n 2I n −σ−n 2V (σ2

n I p +V T V ) −1V T .

从上式可以看出, n ×n 维矩阵的求逆已经转变成m ×m 维矩阵的求逆, 训练计算量已由O (n 3) 降至O (n 2m ) , 预测计算量由O (n 2) 降至O (m 2) . 但是如何实现K n =V V T 是该方法的关键. 采用特征值分解, 然后保留m 个主导特征值的方法可以实现该步骤, 但是由于一般情况下对K n 进行特征值分解的计算量同样高达O (n 3) , 因此该方法不适用. 但是由此我们可以得到启发, 可采用高效(计算量小) 的近似特征值分解方法, 应用较广泛的是Nystr¨o m 方法[8].

A. Nystr¨o m 近似法

类似SD 近似法, 从原训练集中选取一个维数为m 的子集, 称为包含集或活动集, 则K n 可模块分解为

[

K K ]

n =

mm K m (n −m )

K ,

(n −m ) m K (n −m )(n −m )

上式顶部m ×n 模块记为K m n (其转置为K n m ). 采用Nystr¨o m 方法去构建K n , 得到一种近似协方差矩阵:

K

˜n =K nm K mm −1K mn . 此时, K

˜n 的计算量为O (m 2n ) . 同时可得K mm =K

˜mm , K m (n −m ) =K ˜m (n −m ) , K ˜(n −m )(n −m ) =K (n −m ) m K mm −1K m (n −m ) , K (n −m ) m =K ˜(n −m ) m , 记k m (x ) =[k (x , x 1) , ···, k (x , x m )]T , ˜k

(x , x ′) =k m (x ) T K mm −1

k m (x ′) . Williams 等[8]直接在式(2)(3)中用K ˜n 替换K n ; 该方法称为GPR 的Nystr¨o m 近似法. 它

的训练计算量降至O (m 2n ) , 单测试样本的均值和协方差预测计算量分别降至O (n ) 和O (mn ) .

B. 回归量子集(Subsetof regressors, SR) 法式(2)还可写成如下形式:

n µˆ∑∗=αi k (x i , x ∗) ,

(4)

i =1

式中, αi 为α=[K (X, X ) +σ2

n I n ]−1y 的第i 个元素. 由

式(4)可得, 一个简单的近似就是仅考虑回归量的一个子集, 即

f SR (x ∗) =

m αi k (x i , x ∗) ,

i =1

其中, αm ∼

N (0, K mm −1

) .

该方法最早由Wahba [9]和Poggio and Girosi

[10]

提出, 并且Wahba 将

其命名为SR 近似法. SR 近似法与Nystr¨o m 近似法不同

之处在于它用˜k

(x , x ′) 替代式(2)(3)中的k (x , x ′) , 得到f ¯SR (x ∗) =k m (x ∗) T (K mn K nm +σ2n K mm ) −1K mn y , cov(f SR (x ∗)) =σ2

n k m (x ∗) T ×

(K mn K nm +σ2

n K mm ) −1k m (x ∗) .

SR 近似法的训练计算量为O (m 2n ) , 单测试样本

的均值和协方差预测计算量分别为O (m ) 和O (m 2) . 实践证明, m 较大时, SR 近似法和Nystr¨o m 近似法的性能相近, 但当m 较小时, Nystr¨o m 近似法的性能将变得非常差[11]. 这是由于Nystr¨o m 近似法不是利用˜k

(x , x ′) 来系统地代替k (x , x ′) , 可能会导致出现近似预测方差为负的情况, 因此Nystr¨o m 近似法仅适用

于当K n 的第m +1个特征值远远小于σ2n 的情况. 若对

于固定的x ′, 当|x |→∞时, k (x , x ′) →0, 那么当x 远

离包含集时, ˜k

(x , x ) ≈0, 这导致了预测性能非常差, 特别是低估了预测方差.

C. 映射过程(Projectedprocess, PP) 近似法SR 近似法得到的结果是一个退化的高斯过程回归模型(即有限维模型), 而SD 近似法的不足在于它仅使用了m 个数据点. 于是有了另一种近似法——PP近似法

[12,13]

, 它利用了所有n 个数据

点的信息. 得到了一个非退化的GPR 模型. 之所以称之为PP 近似法是因为它在计算似然函数时将m (

K (n −m ) m K mm

−1f m . 用N (y n −m |E [f n −m |f m ], σ2n I ) 来代替剩余数据点集的真实似然函数, 得到

y |f m ∼

N (K nm K mm −1f m , σ2n I )

=

N (E [f |f m ], σ2

n I ) .

由上式可以看到, 与SD 近似法、SR 近似法不同, PP 近似法是将所有n 个数据点的信息压缩合并到所选取的m 个数据点中. 从而得到后验分布为

f m |y ∼N (µf m |y , A f m |y ) ,

其中,

µf y =K mm (σ2

m |n K mm +K mn K nm ) −1K mn y , A −f 1

m |y

=

σ−n 2K mm −1(σ2

n K mm

+

K mn K nm ) K mm −1

.

最终得到

f ¯P P (x ∗) =k m (x ∗) T K mm −1µ

=k m (x ∗) T (K mn K nm +σ2

n K mm ) −1K mn y =f ¯SR (x ∗) ,

cov(f P P (x ∗)) =k (x ∗, x ∗) −k m (x ∗) T K mm −1

k m (x ∗)+

σ2n k m (x ∗) T (K mn K nm +σ2

n K mm ) −1k m (x ∗)

=cov(f ∗|f m ) +cov(f SR (x ∗)) .

可以看出, PP 近似法的预测均值与SR 近似法相同, 预测方差比SR 近似法多一项条件预测

方差cov(f ∗|f m ) =k (x ∗, x ∗) −k m (x ∗) T K mm −1

k m (x ∗) ,

即cov(f P P (x ∗)) >cov(f SR (x ∗)) , 且当测试点x ∗远

离所选数据集时, cov(f P P (x ∗)) →k (x ∗, x ∗) , 避免了SR 近似法低估预测方差的问题. PP 近似法的训练计算量为O (m 2n ) , 单测试样本的均值和协方差预测计算量分别为O (m ) 和O (m 2) .

此外, 还有许多其它的近似方法, 如Tresp 等[14]基于分块数据集提出了BCM(Bayesiancommittee ma-chine) 方法用于提高GPR 效率, 等等. 3.1.3

稀疏伪输入(Sparsepseudo-input Gaussian process, SPGP) 法

前述近似方法中普遍存在一个问题:由于需要重复选择活动点集和最优化超参数且新点集干扰了超参数的最优化, 可能导致收敛困难, 参数学习结果可靠性降低. Snelson 等[15]提出了SPGP 法. 这种方法的主要思想是:将伪输入集初始化为训练点集的一个子集, 它们是连续变量, 其值通过最优化得到. 这使得GPR 超参数和伪输入集位置的最优化同时进行.

由式(2)(3)得, 可将该预测分布的均值和方差分别看作是新测试样本x ∗的函数. 假定超参数已知且固定, 那么这两个函数中的参数由训练集D 中n 个输入输出对的位置决定. SPGP 法利用一组伪数据

集D ¯=(X, ¯¯f ) 来代替真实数据集D , 再令由该伪数据集得到的GPR 预测分布作为一个参数化的模型似然函数, 其中横杆表示伪数据集不是真实的观测数据,

伪输入X ¯={x ¯i }m i =1

, 伪输出¯f ={f ¯}m i

i =1

等价于不含噪声的潜在函数变量值. 而实际观测输出值仍假定受噪声污染(见式(1)),可得

y |x ∗, X, ¯¯f ∼N (¯k m (x ∗) T K ¯mm −1¯f ,

¯k (x ∗, x ∗) −k ¯m (x ∗) T K ¯mm −1¯k m (x ∗) +σ2n ) ,

其中, [¯k m (x ∗)]i =K (x ¯i , x ∗) , [K ¯mm ]ij =K (x ¯i , x ¯j ) . 此

时, 可将其看作一个均值函数为特定参数化形式且输入相关的标准回归模型. 应用标准GPR 原理, 可得

f ¯SP (x ∗) =¯k m (x ∗) T Q ¯−mm 1K ¯mn (Λ+σ2n I )

−1y , cov(f SP (x ∗)) =k (x ¯∗, x ¯∗) −¯k

m (x ∗) T ×(K ¯mm −1−Q ¯−mm 1) ¯k m (x ∗) +σ2n , 其中, [K

¯nm ]ij =

K (x i , x ¯j ) , Λ=diag (λ) , λn =K nn −K ¯nm T K ¯mm −1K ¯mn , Q

¯mm =K ¯mm +K ¯mn (Λ+σ2n I ) −1K ¯nm .

在SPGP 法的模型训练中, 除了要学习超参数外, 还要确定伪数据集的最优位置, 共有md +num (θ) 个参数. 这些未知参数一般通过梯度上升法来最大化边缘似然函数的.

由于m

差预测的复杂度分别为O (m ) 和O (m 2) .

表1归纳了上述几种GPR 近似方法的计算量.

表1

标准GPR 和近似GPR 的计算量比较(m

单个测试样本

计算量训练

均值预测

协方差预测

标准GPR O (n 3) O (n ) O (n 2) SD 近似法O (m 2n ) O (m ) O (m 2) Nystr¨o m 法O (m 2n ) O (n ) O (mn ) SR 近似法O (m 2n ) O (m ) O (m 2) PP 近似法O (m 2n ) O (m ) O (m 2) SPGP 近似法

O (m 2n )

O (m )

O (m 2)

上述几个近似方法也称全局GPR 近似法, 这是因为这些方法试图利用所选的包含集来表征所有n 个数据点. 另一种不同的近似方法就是局部GPR 近似法——仅利用测试点附近的训练数据点集用于预测; 当一个变化比较剧烈的数据集(如研究对象函数曲线严重振荡等) 难以用一个小数据子集(包含集) 表征时, 局部GPR 近似法能给出一个更快更精确的结果. Snelson 等[16]结合全局GPR 法和局部GPR 法的优点, 提出了一种新的稀疏GPR 近似法——部分独立条件(Partiallyindependent conditional, PIC) 近似法.

各种各样的近似方法仍在不断的涌现, 如稀疏在线高斯过程[17]、增量在线稀疏法[18]以及进化高斯过程[19]等等. 为了提高GRP 法的效率, 可以采用硬件如图形处理器(Graphicalprocess units, GPU) 等并行处理技术[20].

3.2突破高斯噪声分布假设的改进方法

由第2节的GPR 方法原理可知, 存在一个假设——噪声必须满足高斯分布, 即观测数据满足多变量联合高斯分布. 该假设使得GPR 方法中的矩阵运算变得简单方便, 其预测分布也满足高斯型. 但是许多实际情况并不满足这个假设, 如观测值为正且在好几个数量级之间变化的, 这种情形难以直接假设一个同方差的高斯噪声. 一般做法是先对其作取对数log 变换处理, 然后假设变换后的数据受高斯噪声污染, 此时GPR 方法能得到较好的效果. 实际中, 存在一些其它连续变换, 可以把观测空间的数据转换到某一个能够用GPR 方法很好建模的空间, log 变换只是这些变换中一个例子. 基于这种思想, Snelson 等

[21]

提出了翘曲

高斯过程(WarpedGaussian processes, WGP) 方法.

假定z 为真实观测矢量经过同一单调函数t 映射转换到隐式空间的隐式观测值矢量, 即z 中每一个元素满足

z =t (y ; Ψ).

(5)

应用GPR 方法对z 进行回归, 可得p (z |θ) =N (0, C ) , 其中θ和C 定义如前. 易得负对数似然函数L z 为

L z =−log p (z |θ) =

1

log det C +1z T C

−1

z +n

log(2π) .

再应用式(5),可得

L =−log p (y |θ,Ψ)=

11

∑log det C +t (y ) T C −1t (y ) −n (6)

log ∂t(y ) i =1

y +n log(2π) . i 其中, t (y )

=[t (y 1) , t (y 2) ,..., t (y n )]T .

与GPR 训练原理一样, WGPR 模型的训练也是通过式(6)对参数Ψ和θ求偏导, 再采用共轭梯度法等优化方法对偏导数做最小化得到参数的最优解. 可以看出, 超参数θ和非线性翘曲函数的优化是同时进行的. 同GPR 预测原理, 可得新测试样本x ∗对应预测值z ∗的后验分布为

z ∗|y , θ,Ψ∼N (µz ∗, (σz ∗) 2

) ,

式中,

µz ∗=K (x ∗, X )[K (X, X ) +σ2n I n ]−1

z =K (x ∗, X )[K (X, X ) +σ2

n I n ]−1t (y ) , (σz ∗) 2

=k (x ∗, x ∗) −K (x ∗, X ) ×

[K (X, X ) +σ2n I n ]−1K (X, x ∗) +σ2

n .

在真实观测空间中,预测后验分布变为

p (f t ′(f [∗|y , θ,Ψ)=∗) exp −1(t (f ∗) −µz ) ∗

2

]2π(σz 2σ. ∗

) 2∗由上式可以看出, 预测后验分布的形状取决于翘曲函数t , 一般为非对称且多峰值的. 一种可选的翘曲函数为如下双曲正切函数的神经网络式求和

t (y ; Ψ)=y +∑

I a i tanh(b i (y +c i )) , a i , b i ≥0, ∀i

i =1

其中, Ψ={a , b , c }.

此外, 目前通常采用共轭梯度法求取训练样本对数似然函数的极大值以自适应地获得最优超参数, 但是共轭梯度法存在优化效果初值依赖性强、迭代次数难以确定、易陷入局部最优解的缺陷. 针对这种情况,刘开云等[22]采用十进制遗传算法代替共轭梯度法搜寻高斯过程最优超参数,有效避免了共轭梯度法的缺陷,可以在参数搜索区间快速找到全局最优解,从而提高GPR 的泛化性能。Zhu 等[23]利用粒子群算法优化超参数并用于位移预报,得到的预报精度优于遗传算法。申倩倩等[24]提出了在GP 的训练中使用自适应自然梯度法,即基于自适应自然梯度法的在线GPR 建模算法,满足了在线建模算法的实时

性要求。Petelin 等[25]实验研究验证了三种随机优化方法(遗传算法,差分进化算法和粒子群算法)用于超参数优化的有效性。

4与神经网络、支持向量机的关系

随着机器学习领域研究的不断深入, 许多基于机器学习的先进算法已经广泛应用于非线性回归、分类、概率密度估计和数据挖掘等领域, 比如神经网络和支持向量机, 其在解决回归和分类问题中已取得一定成果. 然而, 神经网络在研究过程中通常都会碰到如何选择一个合适的网络架构, 如何从数据中获取更多的有用信息等问题; 支持向量机存在如何选取合适的惩罚项来防止过拟合、如何确定核函数参数以及如何定量评价预测输出等问题.

以贝叶斯的视角来看, 神经网络方法可以看成是在非线性函数簇上定义一个先验概率分布, 其学习过程也可以用未知函数上的后验概率分布来描述(如一些学习算法是以最大化后验概率来获取最优函数, 一些蒙特卡罗方法是从该后验概率分布中采样的等). Buntine and Weigend [26]、MacKay [27,28]和Neal [29]等人几乎同时提出将贝叶斯分析方法和神经网络相结合, 在网络权重空间中充分考虑了其概率分布, 先验分布经过贝叶斯推理得到后验分布, 这点与一般的神经网络设计方法明显不同. Neal 于1996年发现, 当神经网络的隐层节点数趋于无穷大时, 网络权重的高斯先验分布就趋近于一个GP, 神经网络模型的超参数决定了GP 的参数[30]. 该发现促使了研究人员从研究参数化神经网络方法转向更为直接的GP 方法; 此时, 神经网络中的参数优化计算变为GP 中协方差矩阵的简单矩阵运算. Williams 等于1996年提出将GP 方法推广应用到原本由神经网络、决策树等方法所解决的高维回归问题中[31].

统计学习理论是机器学习的一种实现方法, Vap-nik 等从20世纪六七十年代就开始这方面的研究

[32]

.

随着统计学习理论的不断发展, 产生了许多基于统计学习理论体系的通用机器学习方法, 其中支持向量机和高斯过程都是基于统计学习理论发展起来的核学习机, 对于处理高维数、小样本以及非线性等复杂问题具有很好的适应性, 且泛化能力强. 而高斯过程应用了贝叶斯技巧, 得到的模型属于非参数概率模型, 其优势主要表现在:

(1)不仅能够对未知输入做预测输出, 而且能够对该预测输出的精度参数或不确定性(即估计方差) 进行定量分析;

(2)可以以先验概率的形式表示过程的先验知

识, 而后通过标准的贝叶斯方法进行模型选择, 从而提高过程模型性能;

(3)与神经网络、支持向量机等方法相比, 其模型参数明显减少, 且能方便地推断出超参数.

5高斯过程回归方法的发展及应用

虽然高斯过程在20世纪90年代中期才开始被研究应用于机器学习领域[33], 但是基于高斯过程的预测, 特别是对于时间序列分析而言, 其基础理论至少可追溯到20世纪40年代[34,35], 比如统计地质学中众所周知的“Kriging 法”[36,37]即为高斯过程预测; 该方法先后在空间预测[38]和空间统计[39,40]上得到应用. 至此, 人们逐渐意识到高斯过程回归可以用于解决一般的回归问题. 文献[41-43]利用一系列计算机仿真试验验证了GP 方法的有效性, 并讨论了超参数优化等问题. Williams 和Rasmussen [1,31]基于机器学习理论系统地阐述了GP 方法的基本原理及应用, 将GP 方法的推广应用推向了一个新的高度. 5.1

用于时间序列预测分析

GPR 方法在时间序列预测分析中的应用历史较为悠久, 近几年来又不断地得到发展和完善. Brahim-Belhouari 等应用GPR 方法对平稳和非平稳时间序列进行预测研究[44,45]. Girard 等基于GPR 方法解决了输入不确定情况下时间序列的多步预测问题[46]. Zhang 等提出一种用于时间序列分析的高效率GPR 方法[47]. Wang 等对比分析了人工神经网络(ANN)和GPR 方法在时间序列预测上的应用效果, 指出GPR 方法更适合于非平稳情形[48]. Farrell 等应用GPR 方法进行股票趋势预测[49]. 国内, 苏国韶、沈赟和徐冲等人将GPR 方法分别应用于基坑非线性位移时间序列预测[50]、隧道围岩变形预报[51]、隧道位移时序分析和边坡变形预测[52]. 5.2

用于动态系统模型辨识

GPR 方法由于其独特的优势, 自20世纪90年代末就开始应用于动态系统模型的辨识. Murray-Smith 等基于蒙特卡罗方法对高斯过程先验模型和多模型方法进行了分析比较[53]. Gregor˘c i˘c 针对参数化多模型方法存在结构确定难、参数获取困难以及“维数灾难”等不足, 将高斯过程用于动态非线性系统的建模, 对输入空间维数选择和多步预测等问题进行探讨, 给出了模型结构的选择方法, 并应用于液压系统[54]. Ni 等针对大多数工业过程中存在的非线性和时变特性严重削弱传统软传感器预测性能的问题, 提出了基于双重更新和双重预处理两个策略的移动窗GPR 方

法, 并应用于动态非线性系统辨识, 有效提高了对动态过程的跟踪性能[55].

Lawrence 对GP 进行了拓展, 提出了一种新的非线性隐变量模型——高斯过程隐变量模型(Gaussianprocess latent variable model, GP-LVM) [56]. Wang 等在隐空间内应用GP-LVM 对动态系统模型进行辨识[57]. 此外, 王磊等应用高斯过程对表情动作单元进行跟踪, 并利用高斯过程隐变量空间的分布方差对跟踪效果实施有效约束, 降低了跟踪过程中的非数值型误差[6]. 5.3用于系统控制或控制系统设计

GPR 方法能够给出预测值的不确定度, 因此能方便地与预测控制、自适应控制等方法相结合, 由此出现了一系列预测控制和自适应控制等新方法.

Kocijan 于2002年率先将GPR 模型提供的方差信息引入到控制信号的优化过程中, 提出了一种新的预测控制方法[58]. Likar 等建立了气液分离装置的GPR 模型, 并基于此模型实现了预测函数控制[59]. 此外, 基于GPR 模型的预测控制方法还有很多, 如内模控制方法[60]、随机预测控制方法[61]等, 在实际应用中都取得很好的效果.

Murray-Smith 等于2002年将GPR 模型引入自适应控制过程, 所得控制器能够自适应跟踪参考信号和从观测响应中学习系统模型[62]. 针对非最小相位非线性系统, Sbarbaro 等结合GPR 模型, 设计了一种自适应非参数控制器[63]. Rottmann 等基于GPR 模型, 分开并交替学习系统的动态模型和价值函数, 提出了一种自适应自冶控制方法, 能够实时学习系统的控制策略, 并成功应用于微型飞船高度的实时控制[64]. Petelin 等提出了进化GP 模型, 并基于此模型实现了自适应控制系统的设计[19].

其它基于GPR 模型的控制算法参见文献[2].5.4与贝叶斯滤波方法相结合

传统的滤波方法大多要求系统模型和先验噪声统计特性已知, 然而在实际中难以精确获取系统模型和噪声统计特性, 导致滤波方法的性能受限甚至无法正常工作. GPR 模型能够提供预测值的不确定度, 使得它也能够方便地与滤波方法相结合, 可以在一定程度上克服滤波方法对系统模型和噪声统计特性的依赖性.

Ferris 等于2006年最先将GPR 与高斯滤波相结合, 提出了高斯过程粒子滤波(GP-PF),并在基于无线电强度估计的移动载体定位中得到应用[65]. 紧接着Ko 、Deisenroth 等于2007年和2009年先后提出

了高斯过程扩展卡尔曼滤波(GP-EKF)[66]、高斯过程Unscented 卡尔曼滤波(GP-UKF)[67]、高斯过程假设密度滤波算法[68]. 2008年, Ko 等提出了高斯过程滤波这一名称, 并对相关算法进行了总结, 实验验证了高斯过程滤波的性能优越性[69]. 近年来, 国内, 李鹏等将高斯过程回归融入平方根UKF 算法中, 提出一种不确定系统模型协方差自适应调节滤波算法, 并将其应用于无人飞行器SINS/GPS组合导航[70,71]和航天器交会对接过程中[5].

6展望与结论

与神经网络、支持向量机相比, GPR 方法具有容易实现、灵活的非参数推断、超参数自适应获取等优点, 且是一个具有概率意义的核学习机, 可对预测输出做出概率解释, 在实际应用中已取得许多令人满意的成果. 但是, 目前GPR 方法还不够完善, 仍在不断地发展, 主要有以下几个发展趋势[2,72]:

(1)计算量大是限制GPR 方法应用的主要问题, 寻求效率更高的协方差求逆计算方法或训练集选择方法仍是不变的研究内容. 一方面, 可以结合计算机软硬件及并行计算技术, 提高计算效率; 另一方面, 自动处理数据并寻找“信息数据”以压缩数据集来降低计算量是另一发展趋势. 此外, 基于GPR 模型的递归辨识或在线学习方法的高效实现方法仍面临着一些挑战.

(2)对于控制系统而言, 抗干扰性能至关重要, 但是目前大部分基于GPR 模型的控制方法更多地仅关注设定点的跟踪性能, 缺少关于抗干扰的性能分析和设计. 另外, 基于GPR 模型的鲁棒控制设计将也是今后研究的趋势之一.

(3)利用GPR 方法辨识动态系统的状态方程和观测方程, 有效解决了滤波过程中由于模型不准确或统计特性未知导致滤波结果发散的问题, 优势明显, 可以与更多滤波方法(如容积卡尔曼滤波等) 相结合, 并应用于实际工程中.

随着贝叶斯理论和统计学习理论的进一步深入发展以及计算技术的飞速进步, 日趋成熟完善和不断实用化的GPR 方法将不断拓宽其应用领域, 如生物系统之类的不确定系统模型辨识等; 而新应用新要求也将促使GPR 方法不断取得新的进展. 参考文献(References )

[1]

Williams C K I, Rasmussen C E. Gaussian processes for machine learning[M].Cambridge, USA:MIT press, 2006. [2]

Kocijan J. Control algorithms based on Gaussian process

models:a state-of-the-art survey[C].Proc of the Special International Conference on Complex Systems:Synergy of Control, Communications and Computing. Hotel Metropol Resort, Ohrid, Republic of Macedonia, 2011:69-80. [3]

Petelin D, Kocijan J, Grancharova A. Online Gaussian process model for the prediction of the ozone concentration in the air[J].Comptes rendus de lAcad´e mie bulgare des Sciences, 2011, 64(1):117-124.[4]

He Z K, Liu G B, Zhao X J, et al. Temperature model for FOG zero-bias using Gaussian process regression[J].Advances in Intelligent Systems and Computing, 2012, 180:37-45. [5]

李鹏, 宋申民, 段广仁. 改进的平方根UKF 及其在交会对接中的应用[J].电机与控制学报, 2010, 14(11):100-104. (LiP, Song S M, Duan G R. Improved square root unscented Kalman filterand its application in rendezvous and docking[J].Electric Machines and Control, 2010, 14(11):100-104.) [6]

王磊, 邹北骥, 彭小宁, 等. 基于高斯过程的表情动作单元跟踪技术[J].电子学报, 2007, 35(11):2087-2091. (WangL, Zou B J, Peng X N, et al. Facial tracking by Gaussian process[J].ACTA Electronica Sinica, 2007, 35(11):2087-2091.) [7]

Snelson E. Flexible and efficientGaussian process models for machine learning[D].PhD thesis, University of Cambridge, 2007. [8]

Williams C K I, Seeger M. Using the Nystr¨o m method to speed up kernel machines[C].Proc of the International Conference on Advances in Neural Information Processing Systems (NIPS)13. Denver, CO, USA, 2001:682-688. [9]

Wahba G. Spline models for observational data[C].Society for Industrial and Applied Mathematics, Philadelphia, PA. CBMSNSF Regional Conference series in applied mathematics, 1990.

[10]Poggio T, Girosi F. Networks for approximation and

learning[C].Proc of IEEE, 1990, 78:1481-1497. [11]Williams C K I, Rasmussen C E, Schwaighofer A, et al.

Observations on the Nystr¨o m method for Gaussian process prediction[R].Technical Report, University of Edinburgh, 2002.

[12]Seeger M, Williams C K I, Lawrence N D. Fast

forward selection to speed up sparse Gaussian process regression[C].Proc of the 9th International Workshop on ArtificialIntelligence and Statistics. Key West, Florida, 2003.

[13]Keerthi S, Chu W. A matching pursuit approach to sparse

Gaussian process regression[C].Proc of the NIPS 18. Vancouver, British Columbia, Canada, 2005:643-650.

[14]Tresp V . A Bayesian committee machine[J].Neural

Computation, 2000, 12:2719-2741.

[15]Snelson E, Ghahramani Z. Sparse Gaussian processes

using pseudo-inputs[C].Proc of the NIPS 18. Vancouver, British Columbia, Canada, 2006:1257-1264.

[16]Snelson E, Ghahramani Z. Local and global sparse

Gaussian process approximations[C].Proc of the 11th International Workshop on ArtificialIntelligence and Statistics. Puertorico, 2007.

[17]Csat´o L, Opper M. Sparse online Gaussian processes[J].

Neural computation, 2002, 14(3):641-668. [18]Nguyen-Tuong

D,

Peters

J.

Incremental

online sparsificationfor model learning in realtime robot control[J].Neurocomputing, 2011, 74(11):1859-1867. [19]Petelin D, Kocijan J. Control system with evolving

Gaussian process model[C].Proc of IEEE Symposium Series on Computational Intelligence, 2011.

[20]Musizza B, Petelin D, Kocijan J. Accelerated learning of

Gaussian process models[C].Proc of the 7th EUROSIM Congress on Modelling and Simulation. Praha, CZ, VCVUT, 2010, 2:8.

[21]Snelson E, Rasmussen C E, Ghahramani Z. Warped

Gaussian processes[C].Proc of the NIPS 16. Vancouver, British Columbia, Canada, 2004.

[22]刘开云, 刘保国, 徐冲. 基于遗传-组合核函数高斯过程

回归算法的边坡非线性变形时序分析智能模型[J].岩石力学与工程学报, 2009, 28(10):2128-2134.

(LiuK Y , Liu B G, Xu C. Intelligent analysis model of slope nonlinear displacement time series based on genetic-Gaussian process regression algorithm of combined kernel function[J].Chinese Journal of Rock Mechanics and Engineering, 2009, 28(10):2128-2134.)

[23]Zhu F W, Xu C, Dui G S. Particle swarm hybridize with

Gaussian

process regression for displacement prediction[C].Proc of 2010IEEE Fifth International Conference on Bio-Inspired Computing:Theories and Applications, 2010.

[24]申倩倩, 孙宗海. 基于自适应自然梯度法的在线高斯过

程建模[J].计算机应用研究, 2011, 28(1):95-97, 120. (ShenQ Q, Sun Z H. Online learning algorithm of Gaussian process based on adaptive nature gradient[J].Application Research of Computers, 2011, 28(1):95-97, 120.) [25]Petelin D, Filipi˘

c B, Kocijan J. Optimization of Gaussian process models with evolutionary algorithms[C].Proc of the 10th International Conference on Adaptive and Natural Computing Algorithms -V olume 6593, Part I, Ljubljana, Slovenia, 2011:420-429.

[26]Buntine W, Weigend A. Bayesian back propagation[J].

Complex Systems, 1991, 5:603-643.

[27]MacKay D. A practical Bayesian framework for backprop

networks[J].Neural Computation, 1992, 4:448-472. [28]MacKay D. Bayesian methods for neural networks:theory

and applications[R].Technical Report, Cavendish Lab, Cambridge University, 1995.

[29]Neal R M. Bayesian training of backpropagation networks

by the hybrid Monte Carlo method[R].Technical Report, Department of Computer Science, University of Toronto, 1993.

[30]Neal R M. Bayesian learning for neural networks[J].

Lecture Notes in Statistics, 1996:18.

[31]Williams C K I, Rasmussen C E. Gaussian processes for

regression[C].Proc of the NIPS 8. Denver, CO, USA, 1996:514-520.

[32]Vapnik V N. Statistical learning theory[M].New York:

John Wiley &Sons, 1998.

[33]Rasmussen C E. Evaluation of Gaussian processes and

other methods for non-linear regression[D].PhD thesis, University of Toronto, 1996.

[34]Wiener, N. Extrapolation, interpolation and smoothing of

stationary time series[M].Cambridge, USA:MIT Press, 1949.

[35]Kolmogorov A N. Interpolation und extrapolation von

station¨a ren zuf¨a ligen folgen. Bull[J].Acad. Sci. USSR Ser. Math, 1941, 5:3-14.

[36]Matheron G. The intrinsic random functions and their

applications[J].Advances in Applied Probability, 1973, 5:439-468.

[37]Journel A G, Huijbregts C J. Mining geostatistics[M].New

York:Academic Press, 1978.

[38]Whittle P. Prediction and regulation by linear least-square

methods[M].London:English Universities Press, 1963. [39]Ripley B. Spatial statistics[M].New York:Wiley, 1981. [40]Cressie N A C. Statistics for spatial data[M].New York:

Wiley, 1993.

[41]O ’Hagan A. Curve fittingand optimal design for

prediction[J].Journal of the Royal Statistical Society B, 1978, 40:1-42.

[42]Sacks J, Welch W J, Mitchell T J, et al. Design and analysis

of computer experiments[J].Statistical Science, 1989, 4(4):409-435.

[43]Santner T J, Williams B J, Notz W. The design

and Aanalysis of computer experiments[M].New York:Springer, 2003.

[44]Brahim-Belhouari S, Vesin J M. Bayesian learning using

Gaussian process for time series prediction[C].Proc of the 11th IEEE Workshop on Statistical Signal Processing. Singapore, 2001:433-436.

[45]Brahim-Belhouari S, Bermak A. Gaussian process for

nonstationary time series prediction[J].Computational Statistics &Data Analysis, 2004, 47:705-712.

[46]Girard A, Rasmussen C E, Qui˜n onero Candela J, et al.

Gaussian process priors with uncertain inputs -application to multiple-step ahead time series forecasting[C].Proc of the NIPS 15. Vancouver, British Columbia, Canada, 2003:529-536.

[47]Zhang Y N, Leithead W E, Leith D J. Time-series

Gaussian process regression based on Toeplitz computation of O(N2)operations and O(N)-levelstorage. [C].Proc of the 44th IEEE Conference on Decision and Control, and the European Control Conference 2005, Seville, Spain, 2005:3711-3716.

[48]Wang T D, Chuang S J, Fyfe C. Comparing Gaussian

processes and artificialneural networks for forecasting[C].Proc of 9th Joint Conference on Information Sciences, Taiwan, 2006:1-4.

[49]Todd Farrell M, Correa A. Gaussian process regression

models for predicting stock trends[R].MIT Technical Report, 2007:1-9.

[50]苏国韶, 燕柳斌, 张小飞, 等. 基坑位移时间序列预测

的高斯过程方法[J].广西大学学报(自然科学版), 2007, 32(2):223-226.

(SuG S, Yan L B, Zhang X F, et al. Time series prediction of foundation pit displacement using Gaussian process method[J].Journal of Guangxi University (NatSci Ed), 2007, 32(2):223-226.)

[51]苏国韶, 张研, 燕柳斌. 隧道围岩变形预报的高斯过程

机器学习模型[J].桂林理工大学学报, 2010, 30(4):551-555.

(SuG S, Z Y , Yan L B. Deformation forecasting for tunnel rock by Gaussian process machine learning model[J].Journal of Guilin University of Technology, 2010, 30(4):551-555.)

[52]徐冲. 分岔隧道设计施工优化与稳定性评价[D].北京:

北京交通大学博士学位论文, 2011:23-56.

(XuC. Study on optimization and stability evaluation of design and construction of forked tunnel[D].Beijing:Beijing Jiaotong University, 2011:23-56.)

[53]Murray-Smith R, Johansen T A, Shorten R. On transient

dynamics, off-equilibrium behaviour and identificationin blended multiple model structures[C].Proc of the

European Control Conference (ECC99).Karslruhe, 1999:BA-14.

[54]Gregor˘c i˘c G, Lightbody G. Gaussian processes for

modelling of dynamic non-linear Systems[C].Proc of the Irish Signals and Systems Conference. Cork, 2002:141-147.

[55]Ni W D, Tan S K, Ng W J, et al. Moving-window GPR

for nonlinear dynamic system modeling with dual updating and dual preprocessing[J].Industrial and Engineering Chemistry Research, 2012, 51(18):6416-6428.

[56]Lawrence N D. Gaussian process latent variable Mod-els

for visualisation of high dimensional data[C].Proc of the NIPS 16. Vancouver, British Columbia, Canada, 2004. [57]Wang J, Fleet D, Hertzmann A. Gaussian process

dynamical models[C].Proc of the NIPS 18. Vancouver, British Columbia, Canada, 2006:1441-1448.

[58]Kocijan J. Gaussian process model based predictive

control[R].Technical Report, DP-8710, Institut Jo˘z ef Stefan, Ljubljana, 2002.

[59]Likar B, Kocijan J. Predictive control of a gas-liquid

separation plant based on a Gaussian process model[J].Computers and Chemical Engineering, 2007, 31(3):142-152.

[60]Gregor˘c i˘c G, Lightbody G. Internal model control based

on Gaussian process prior model[C].Proc of the 2003American Control Conference (ACC2003). Denver, CO, 2003:4981-4986.

[61]Grancharova A, Kocijan J. Stochastic predictive control of

a thermoelectric power plant[C].Proc of the International Conference Automatics and Informatics 07. Sofia,2007:I-13-I-16.

[62]Murray-Smith R, Sbarbaro D. Nonlinear adaptive control

using nonparametric Gaussian process prior models[C].Proc of the 15th IFAC World Congress. Barcelona, 2002. [63]Sbarbaro D, Murray-Smith R. An Adaptive Nonparametric

Controller for a Class of Nonminimum Phase Non-linear System[C].Proc of the 16th IFAC World Congress. Praga, 2005.

[64]Rottmann A, Burgard W. Adaptive autonomous control

using online value iteration with Gaussian processes[C].

Proc of IEEE International Conference on Robotics and Automation. Kobe, Japan, 2009:2106-2111.

[65]Ferris B, Haehnel D, Fox D. Gaussian processes for

signal strength-based location estimation[C].Proc of the International Conference on Robotics, Science and Systems. Philadelphia, PA, USA, 2006.

[66]Ko J, Klein D J, Fox D, Haehnel D. Gaussian processes

and reinforcement learning for identificationand control of an autonomous blimp[C].Proc of the International Conference on Robotics and Automation. Rome, Italy, 2007:742-747.

[67]Ko J, Fox D, Haehnel D. GP-UKF:unscented Kalman

filterswith Gaussian process prediction and observation models[C].Proc of the International Conference on Intelligent Robots and Systems. San Diego, California, USA, 2007.

[68]Deisenroth M P, Huber M F, Hanebeck U D. Analytic

moment-based Gaussian process filtering[C].Proc of the 26th International Conference on Machine Learning. Montreal, Quebec, Canaba, 2009:81-94.

[69]Ko J, Fox D. GP-BayesFilters:Bayesian filteringusing

Gaussian process prediction and observation models[J].Automomous Robots, 27(1):75-90.

[70]李鹏, 宋申民, 陈兴林. 自适应平方根无迹卡尔曼滤波算

法[J].控制理论与应用, 2010, 27(2):143-146.

(LiPeng ,Song Shenmin ,Chen Xinglin. Adaptive square-root unscented Kalman filteralgorithm[J].Control Theory &Applications, 2010, 27(2):143-146.)

[71]李鹏, 宋申民, 陈兴林, 等. 联合高斯回归的平方

根UKF 方法[J]系统工程与电子技术, 2010, 32(6):1281-1285. (Li

Peng ,Song

Shenmin ,Chen

Xinglin,

et al. Square root unscented Kalman filterincorporating Gaussian process regression[J].Systems Engineering and Electronics, 2010, 32(6):1281-1285.)

[72]Kocijan J. Dynamic GP models:an overview and recent

developments.[C].Proc of the 6th International Conference on

Applied

Mathematics,

Simulation,

Modelling.

V ouliagmeni Beach, Athens, Greece, 2012:38-43.

第xx 卷第x 期V ol. xx No. x

文章编号:1001-0920(0000)00-0000-00

控制与

and

决策

Control Decision

xxxx 年x 月Xxx. xxxx

高斯过程回归方法综述

何志昆, 刘光斌, 赵曦晶, 王明昊

(第二炮兵工程大学控制工程系,西安710025)

要:高斯过程回归是基于贝叶斯理论和统计学习理论发展起来的一种全新机器学习方法, 适于处理高维数、小

样本和非线性等复杂回归问题. 在阐述该方法原理的基础上, 分析了其存在的计算量大、噪声必须服从高斯分布等问题, 并给出了改进方法. 与神经网络、支持向量机相比, 该方法具有容易实现、超参数自适应获取、输出具有概率意义等优点, 方便与预测控制、自适应控制、贝叶斯滤波等相结合. 最后总结了其应用并展望了其未来发展方向. 关键词:高斯过程回归;机器学习;函数空间;协方差矩阵;近似法;不确定度中图分类号:TP181

文献标识码:A

Overview of Gaussian Process Regression

HE Zhi-kun , LIU Guang-bin , ZHAO Xi-jing , WANG Ming-hao

(Departmentof Control Engineering, The Second Artillery Engineering University, Xi ’an 710025,China. Correspondent :HE Zhi-kun ,E-mail :[email protected])

Abstract:Gaussian process regression (GPR)is a new machine learning method by the context of Bayesian theory and statistical learning theory. It provides a flexibleframework for probabilistic regression and is widely used to solve the high-dimensional, small-sample or nonlinear regression problems. Its principle is introduced in the function-space view and several limitations such as computational difficultiesfor large data sets and restrictive modelling assumptions for complex data sets are discussed. Several improved approaches for these limitations are summarized. GPR is simple to implement, flexibleto nonparameter infer and self-adaptive to determinate hyperparameters in comparison with neural network and support vector machine. The attractive feature that GPR models provide Gaussian uncertainty estimates for their predictions allows them to be seamlessly incorporated into predictive control, adaptive control and Bayesian filteringtechniques. Finally, its applications are given and future research trends are prospected.

Key words:Gaussian process regression ;machine learning ;function space ;covariance matrix ;approximations ;uncertainty

1引言

出为连续的) 和分类问题(输出为离散的). 其中, 回归问题可以数学描述如下:

假设有训练集D ={(x i , y i ) |i =1, ···, n }=

(X, y ) , 其中x i ]∈R d 为d 维输入矢量, X =[

x 1x 2···x n 为d ×n 维输入矩阵, y i ∈R 为相应的输出标量, y 为输出矢量. 回归的任务是根据训练集

机器学习是当前计算机科学和信息科学中一个重要的前沿领域, 与模式识别和统计推断密切相关, 日益得到各领域学者的重视. 它是一门多学科交叉研究, 研究内容和应用领域极其广泛, 几乎囊括了所有人类认知领域. 机器学习问题大体可以分为三大类:监督学习、无监督学习和强迫学习. 根据经验数据(训练集) 来学习输入—输出之间的映射关系, 使得给定新的输入, 可以得到相应的输出值(即预测值), 即为监督学习问题. 根据输出值的类型, 可分为回归问题(输

收稿日期:xxxx-xx-xx ;修回日期:xxxx-xx-xx. 基金项目:国家863计划项目(2010AA7010213).

学习输入X 与输出y 之间的映射关系(f (·) :R d →R ), 从而预测出与新测试点x ∗对应的最可能输出值f (x ∗) .

在监督学习中, 通常有两类方法来确定映射函数. 第一类就是参数化回归, 即假设训练数据是通过

作者简介:何志昆(1984−), 男, 博士生, 从事机器学习、非线性滤波及组合导航等研究;刘光斌(1963−), 男, 教授, 博

士生导师, 从事系统辨识与仿真、卫星信号仿真等研究.

一个由参数w 定义的函数f (x ; w ) 产生得到的. 此时, 函数映射f (x ; ·) 和特定参数集w 共同定义了参数化模型, 而参数化回归就是寻找一组使数据得到“最好”诠释的参数. 该方法引入一个新的问题:如何判断一个模型是最好的或者一个模型比另一个模型更好? 一种方法就是寻找一组能使某一损失函数L (w ) 最小化的参数. 通常采用的损失函数为二次损失函数, 典型的例子有最小二乘多项式回归、最小二乘BP 神经网络等. 这种方法存在明显的缺陷:仅致力在训练集上降低模型误差. 若一味为了降低模型误差而增加模型复杂度, 易导致过拟合, 尽管在训练集上回归精度高, 但是其泛化能力或预测性能不佳. 为了避免过拟合, 可以使用一个相对简单的模型, 它忽略了复杂特征和噪声, 相对比较平滑. 但是模型过于简单同样会造成预测性能差. 另一种方法就是极大似然法, 它不需要损失函数. 首先由假定的噪声分布得到训练集的联合概率密度(即似然函数), 再通过寻找使似然函数最大化的参数w 来获得回归模型. 倘若噪声分布满足高斯分布, 通过比较似然函数和二次损失函数不难发现, 该似然函数的负对数与二次损失函数成一定比例关系, 表明了这两种方法在本质上是一样的.

为了避免过拟合, 有了第二类方法, 就是贝叶斯回归. 该方法定义了一个函数分布, 赋予每一种可能的函数一个先验概率, 可能性越大的函数, 其先验概率越大. 但是可能的函数往往为一个不可数集, 即有无限个可能的函数, 随之引入一个新的问题:如何在有限的时间内对这些无限的函数进行选择? 一种有效解决方法就是高斯过程回归(Gaussianprocess regression, GPR).

GPR 是近年来发展起来的一种新的机器学习回归方法, 它有着严格的统计学习理论基础, 对处理高维数、小样本、非线性等复杂的问题具有很好的适应性, 且泛化能力强. 与神经网络、支持向量机相比, GPR 具有容易实现、超参数自适应获取、非参数推断灵活以及输出具有概率意义等优点, 在国外发展很快, 并取得了许多研究成果, 现已成为国际机器学习领域的研究热点[1-3]; 近几年也逐步得到国内学者的重视, 在许多领域得到了成功应用[4-6]. 下文首先阐述GPR 的基本原理, 对GPR 存在的主要问题进行了探讨, 总结了相应的改进方法. 最后对GPR 的应用进行总结并指出几个发展趋势.

2高斯过程回归原理

2.1预测

从函数空间视角出发, 定义一个高斯过

程(Gaussianprocess, GP) 来描述函数分布, 直接在函数空间进行贝叶斯推理[1,7]. GP 是任意有限个随机变量均具有联合高斯分布的集合, 它的性质完全由均值函数和协方差函数确定{

:

m (x ) =E [f (x )],

k (x , x ′) =E[(f (x ) −m (x ))(f (x ′) −m (x ′))],

式中, x , x ′∈R d 为任意随机变量. 因此GP 可定义为f (x ) ∼GP (m (x ) , k (x , x ′)) . 为了符号上的简洁, 通常对数据作预处理, 使其均值函数等于0.

对于回归问题, 考虑如下模型:

y =f (x ) +ε,

(1)

式中, x 为输入向量, f 为函数值, y 为受加性噪声污染

的观测值, 进一步假设噪声ε∼N (0, σ2

n ) .

可以得到观测值y 的先验分布为

y ∼N (0, K (X, X ) +σ2

n

I n ) , 以及观测值[y 和预测值f ∗的联合先验分布为:

y ]([K (X, X ) +σ2

])

n I n K f ∼N 0, (X, x ∗)

K (x X ) k (x , ∗∗, ∗, x ∗) 式中, K (X, X ) =K n =(k ij ) 为n ×n 阶对称正定的协方差矩阵, 矩阵元素k ij =k (x i , x j ) , 度量x i 和x j 之间的相关性, K (X, x ∗) =K (x ∗, X ) T 为测试点x ∗与训练集的输入X 之间的n ×1阶协方差矩阵, k (x ∗, x ∗) 为测试点x ∗自身的协方差, I n 为n 维单位矩阵.

由此可以计算出预测值f ∗的后验分布为

f ∗|X, y , x ∗∼N (f ¯∗, cov(f ∗)) ,

其中,

f ¯∗=K (x ∗, X )[K (X, X ) +σ2n I n ]

−1y , (2)

cov(f ∗) =k (x ∗, x ∗) −K (x ∗, X ) ×

[K (X, X ) +σ2

n I n ]−1K (X, x ∗) ,

(3)

则µˆ∗=f ¯∗, ˆσ2f ∗

=cov(f ∗) 即为测试点x ∗对应预测值f ∗的均值和方差。2.2

训练

GPR 可以选择不同的协方差函数, 常用的协方差函数有平方指数协方差, 如下所示:

k (x , x ′) =σ2

exp(−1f (x −x ′) T M −1(x −x ′)) ,

式中, M =diag (l 22) , l 为方差尺度, σ2

f 为信号方差. 参

数集合θ={M, σ2f , σ2n }即为超参数, 一般通过极大似

然法求得:首先建立训练样本条件概率的负对数似然函数L (θ) =−log p (y |X, θ) , 并令其对超参数θ求偏导, 然后采用共轭梯度法、牛顿法等优化方法对偏导数做最小化得到超参数的最优解. 其中, 负对数似然函

数L (θ) 及其关于超参数θ的偏导数形式如下所示:

L (θ) =12y T C −1y +1n

2log |C |+2

log 2π,

∂L(θ) ()

=1tr (ααT ∂C

∂θ2−C −1) ∂θ, i i

式中:C =K n +σ2n I n , α=(K +σ2

n I n ) −1y =C −1y .

获得最优超参数后, 利用式(2)(3)就可以得到测

试点x ∗对应的预测值f ∗及其方差σˆ2f ∗

. 3GPR 存在的主要问题及改进方法

尽管GPR 方法具有容易实现、超参数自适应获取及预测输出具有概率意义等优点, 但是它目前仍存在一些问题, 主要有两个方面:一是计算量大; 二是局限于高斯噪声分布假设. 3.1降低计算量的改进方法

GPR 的非参数性质直接导致了其计算量大的问题. 如前所述, 训练中超参数一般是通过最优化边缘似然获取的. 每一次梯度计算都需要对协方差矩阵K n +

σ2

n I n 求逆,

因此计算量达O (n 3

×梯度计算的

次数); 预测时, 每个测试点的预测计算量为O (n 2) . 当处理大数据集时, 计算量将成为限制高斯过程回归方法应用的一大瓶颈.

过去二十年里, 为了解决这个问题, 许多学者做了大量的工作, 提出了许多有效的近似方法, 大体上可以分为以下三类:

3.1.1数据子集(Subsetof data, SD) 近似法

在众多降低计算复杂度的方法中, 最简单的就是SD 近似法——仅选择原n 维训练集中的一个维数为m 的小子集作为新训练集, 用于GPR 预测. 尽管该方法看似简单、不值一提, 但是相比其它更复杂的近似方法来说, 它没有额外的计算量和内存开销, 在许多场合下可能是最好的方法:如对于高度冗余数据集而言, 额外的数据点能提供关于函数的信息非常少, 此时没有必要牺牲计算量来采用其它复杂的近似方法以获得在性能上微不足道的改善. 应用SD 近似法的关键是如何选取一个合适的数据子集. 下文的许多算法也都面临同样的问题, 目前通常采用的方法有两种:一是随机选取; 二是采用贪心算法(Greedyapproach), 也称前向选取策略(Forwardselection strate-gy).

3.1.2降秩(Reduced-rank)近似法

降低计算量的另一种思路就是对协方差矩阵K n 进行降秩近似, 即K n =V V T , 其中V 为n ×

m 维(m

(K n +σ2n I n ) −1=σ−n 2I n −σ−n 2V (σ2

n I p +V T V ) −1V T .

从上式可以看出, n ×n 维矩阵的求逆已经转变成m ×m 维矩阵的求逆, 训练计算量已由O (n 3) 降至O (n 2m ) , 预测计算量由O (n 2) 降至O (m 2) . 但是如何实现K n =V V T 是该方法的关键. 采用特征值分解, 然后保留m 个主导特征值的方法可以实现该步骤, 但是由于一般情况下对K n 进行特征值分解的计算量同样高达O (n 3) , 因此该方法不适用. 但是由此我们可以得到启发, 可采用高效(计算量小) 的近似特征值分解方法, 应用较广泛的是Nystr¨o m 方法[8].

A. Nystr¨o m 近似法

类似SD 近似法, 从原训练集中选取一个维数为m 的子集, 称为包含集或活动集, 则K n 可模块分解为

[

K K ]

n =

mm K m (n −m )

K ,

(n −m ) m K (n −m )(n −m )

上式顶部m ×n 模块记为K m n (其转置为K n m ). 采用Nystr¨o m 方法去构建K n , 得到一种近似协方差矩阵:

K

˜n =K nm K mm −1K mn . 此时, K

˜n 的计算量为O (m 2n ) . 同时可得K mm =K

˜mm , K m (n −m ) =K ˜m (n −m ) , K ˜(n −m )(n −m ) =K (n −m ) m K mm −1K m (n −m ) , K (n −m ) m =K ˜(n −m ) m , 记k m (x ) =[k (x , x 1) , ···, k (x , x m )]T , ˜k

(x , x ′) =k m (x ) T K mm −1

k m (x ′) . Williams 等[8]直接在式(2)(3)中用K ˜n 替换K n ; 该方法称为GPR 的Nystr¨o m 近似法. 它

的训练计算量降至O (m 2n ) , 单测试样本的均值和协方差预测计算量分别降至O (n ) 和O (mn ) .

B. 回归量子集(Subsetof regressors, SR) 法式(2)还可写成如下形式:

n µˆ∑∗=αi k (x i , x ∗) ,

(4)

i =1

式中, αi 为α=[K (X, X ) +σ2

n I n ]−1y 的第i 个元素. 由

式(4)可得, 一个简单的近似就是仅考虑回归量的一个子集, 即

f SR (x ∗) =

m αi k (x i , x ∗) ,

i =1

其中, αm ∼

N (0, K mm −1

) .

该方法最早由Wahba [9]和Poggio and Girosi

[10]

提出, 并且Wahba 将

其命名为SR 近似法. SR 近似法与Nystr¨o m 近似法不同

之处在于它用˜k

(x , x ′) 替代式(2)(3)中的k (x , x ′) , 得到f ¯SR (x ∗) =k m (x ∗) T (K mn K nm +σ2n K mm ) −1K mn y , cov(f SR (x ∗)) =σ2

n k m (x ∗) T ×

(K mn K nm +σ2

n K mm ) −1k m (x ∗) .

SR 近似法的训练计算量为O (m 2n ) , 单测试样本

的均值和协方差预测计算量分别为O (m ) 和O (m 2) . 实践证明, m 较大时, SR 近似法和Nystr¨o m 近似法的性能相近, 但当m 较小时, Nystr¨o m 近似法的性能将变得非常差[11]. 这是由于Nystr¨o m 近似法不是利用˜k

(x , x ′) 来系统地代替k (x , x ′) , 可能会导致出现近似预测方差为负的情况, 因此Nystr¨o m 近似法仅适用

于当K n 的第m +1个特征值远远小于σ2n 的情况. 若对

于固定的x ′, 当|x |→∞时, k (x , x ′) →0, 那么当x 远

离包含集时, ˜k

(x , x ) ≈0, 这导致了预测性能非常差, 特别是低估了预测方差.

C. 映射过程(Projectedprocess, PP) 近似法SR 近似法得到的结果是一个退化的高斯过程回归模型(即有限维模型), 而SD 近似法的不足在于它仅使用了m 个数据点. 于是有了另一种近似法——PP近似法

[12,13]

, 它利用了所有n 个数据

点的信息. 得到了一个非退化的GPR 模型. 之所以称之为PP 近似法是因为它在计算似然函数时将m (

K (n −m ) m K mm

−1f m . 用N (y n −m |E [f n −m |f m ], σ2n I ) 来代替剩余数据点集的真实似然函数, 得到

y |f m ∼

N (K nm K mm −1f m , σ2n I )

=

N (E [f |f m ], σ2

n I ) .

由上式可以看到, 与SD 近似法、SR 近似法不同, PP 近似法是将所有n 个数据点的信息压缩合并到所选取的m 个数据点中. 从而得到后验分布为

f m |y ∼N (µf m |y , A f m |y ) ,

其中,

µf y =K mm (σ2

m |n K mm +K mn K nm ) −1K mn y , A −f 1

m |y

=

σ−n 2K mm −1(σ2

n K mm

+

K mn K nm ) K mm −1

.

最终得到

f ¯P P (x ∗) =k m (x ∗) T K mm −1µ

=k m (x ∗) T (K mn K nm +σ2

n K mm ) −1K mn y =f ¯SR (x ∗) ,

cov(f P P (x ∗)) =k (x ∗, x ∗) −k m (x ∗) T K mm −1

k m (x ∗)+

σ2n k m (x ∗) T (K mn K nm +σ2

n K mm ) −1k m (x ∗)

=cov(f ∗|f m ) +cov(f SR (x ∗)) .

可以看出, PP 近似法的预测均值与SR 近似法相同, 预测方差比SR 近似法多一项条件预测

方差cov(f ∗|f m ) =k (x ∗, x ∗) −k m (x ∗) T K mm −1

k m (x ∗) ,

即cov(f P P (x ∗)) >cov(f SR (x ∗)) , 且当测试点x ∗远

离所选数据集时, cov(f P P (x ∗)) →k (x ∗, x ∗) , 避免了SR 近似法低估预测方差的问题. PP 近似法的训练计算量为O (m 2n ) , 单测试样本的均值和协方差预测计算量分别为O (m ) 和O (m 2) .

此外, 还有许多其它的近似方法, 如Tresp 等[14]基于分块数据集提出了BCM(Bayesiancommittee ma-chine) 方法用于提高GPR 效率, 等等. 3.1.3

稀疏伪输入(Sparsepseudo-input Gaussian process, SPGP) 法

前述近似方法中普遍存在一个问题:由于需要重复选择活动点集和最优化超参数且新点集干扰了超参数的最优化, 可能导致收敛困难, 参数学习结果可靠性降低. Snelson 等[15]提出了SPGP 法. 这种方法的主要思想是:将伪输入集初始化为训练点集的一个子集, 它们是连续变量, 其值通过最优化得到. 这使得GPR 超参数和伪输入集位置的最优化同时进行.

由式(2)(3)得, 可将该预测分布的均值和方差分别看作是新测试样本x ∗的函数. 假定超参数已知且固定, 那么这两个函数中的参数由训练集D 中n 个输入输出对的位置决定. SPGP 法利用一组伪数据

集D ¯=(X, ¯¯f ) 来代替真实数据集D , 再令由该伪数据集得到的GPR 预测分布作为一个参数化的模型似然函数, 其中横杆表示伪数据集不是真实的观测数据,

伪输入X ¯={x ¯i }m i =1

, 伪输出¯f ={f ¯}m i

i =1

等价于不含噪声的潜在函数变量值. 而实际观测输出值仍假定受噪声污染(见式(1)),可得

y |x ∗, X, ¯¯f ∼N (¯k m (x ∗) T K ¯mm −1¯f ,

¯k (x ∗, x ∗) −k ¯m (x ∗) T K ¯mm −1¯k m (x ∗) +σ2n ) ,

其中, [¯k m (x ∗)]i =K (x ¯i , x ∗) , [K ¯mm ]ij =K (x ¯i , x ¯j ) . 此

时, 可将其看作一个均值函数为特定参数化形式且输入相关的标准回归模型. 应用标准GPR 原理, 可得

f ¯SP (x ∗) =¯k m (x ∗) T Q ¯−mm 1K ¯mn (Λ+σ2n I )

−1y , cov(f SP (x ∗)) =k (x ¯∗, x ¯∗) −¯k

m (x ∗) T ×(K ¯mm −1−Q ¯−mm 1) ¯k m (x ∗) +σ2n , 其中, [K

¯nm ]ij =

K (x i , x ¯j ) , Λ=diag (λ) , λn =K nn −K ¯nm T K ¯mm −1K ¯mn , Q

¯mm =K ¯mm +K ¯mn (Λ+σ2n I ) −1K ¯nm .

在SPGP 法的模型训练中, 除了要学习超参数外, 还要确定伪数据集的最优位置, 共有md +num (θ) 个参数. 这些未知参数一般通过梯度上升法来最大化边缘似然函数的.

由于m

差预测的复杂度分别为O (m ) 和O (m 2) .

表1归纳了上述几种GPR 近似方法的计算量.

表1

标准GPR 和近似GPR 的计算量比较(m

单个测试样本

计算量训练

均值预测

协方差预测

标准GPR O (n 3) O (n ) O (n 2) SD 近似法O (m 2n ) O (m ) O (m 2) Nystr¨o m 法O (m 2n ) O (n ) O (mn ) SR 近似法O (m 2n ) O (m ) O (m 2) PP 近似法O (m 2n ) O (m ) O (m 2) SPGP 近似法

O (m 2n )

O (m )

O (m 2)

上述几个近似方法也称全局GPR 近似法, 这是因为这些方法试图利用所选的包含集来表征所有n 个数据点. 另一种不同的近似方法就是局部GPR 近似法——仅利用测试点附近的训练数据点集用于预测; 当一个变化比较剧烈的数据集(如研究对象函数曲线严重振荡等) 难以用一个小数据子集(包含集) 表征时, 局部GPR 近似法能给出一个更快更精确的结果. Snelson 等[16]结合全局GPR 法和局部GPR 法的优点, 提出了一种新的稀疏GPR 近似法——部分独立条件(Partiallyindependent conditional, PIC) 近似法.

各种各样的近似方法仍在不断的涌现, 如稀疏在线高斯过程[17]、增量在线稀疏法[18]以及进化高斯过程[19]等等. 为了提高GRP 法的效率, 可以采用硬件如图形处理器(Graphicalprocess units, GPU) 等并行处理技术[20].

3.2突破高斯噪声分布假设的改进方法

由第2节的GPR 方法原理可知, 存在一个假设——噪声必须满足高斯分布, 即观测数据满足多变量联合高斯分布. 该假设使得GPR 方法中的矩阵运算变得简单方便, 其预测分布也满足高斯型. 但是许多实际情况并不满足这个假设, 如观测值为正且在好几个数量级之间变化的, 这种情形难以直接假设一个同方差的高斯噪声. 一般做法是先对其作取对数log 变换处理, 然后假设变换后的数据受高斯噪声污染, 此时GPR 方法能得到较好的效果. 实际中, 存在一些其它连续变换, 可以把观测空间的数据转换到某一个能够用GPR 方法很好建模的空间, log 变换只是这些变换中一个例子. 基于这种思想, Snelson 等

[21]

提出了翘曲

高斯过程(WarpedGaussian processes, WGP) 方法.

假定z 为真实观测矢量经过同一单调函数t 映射转换到隐式空间的隐式观测值矢量, 即z 中每一个元素满足

z =t (y ; Ψ).

(5)

应用GPR 方法对z 进行回归, 可得p (z |θ) =N (0, C ) , 其中θ和C 定义如前. 易得负对数似然函数L z 为

L z =−log p (z |θ) =

1

log det C +1z T C

−1

z +n

log(2π) .

再应用式(5),可得

L =−log p (y |θ,Ψ)=

11

∑log det C +t (y ) T C −1t (y ) −n (6)

log ∂t(y ) i =1

y +n log(2π) . i 其中, t (y )

=[t (y 1) , t (y 2) ,..., t (y n )]T .

与GPR 训练原理一样, WGPR 模型的训练也是通过式(6)对参数Ψ和θ求偏导, 再采用共轭梯度法等优化方法对偏导数做最小化得到参数的最优解. 可以看出, 超参数θ和非线性翘曲函数的优化是同时进行的. 同GPR 预测原理, 可得新测试样本x ∗对应预测值z ∗的后验分布为

z ∗|y , θ,Ψ∼N (µz ∗, (σz ∗) 2

) ,

式中,

µz ∗=K (x ∗, X )[K (X, X ) +σ2n I n ]−1

z =K (x ∗, X )[K (X, X ) +σ2

n I n ]−1t (y ) , (σz ∗) 2

=k (x ∗, x ∗) −K (x ∗, X ) ×

[K (X, X ) +σ2n I n ]−1K (X, x ∗) +σ2

n .

在真实观测空间中,预测后验分布变为

p (f t ′(f [∗|y , θ,Ψ)=∗) exp −1(t (f ∗) −µz ) ∗

2

]2π(σz 2σ. ∗

) 2∗由上式可以看出, 预测后验分布的形状取决于翘曲函数t , 一般为非对称且多峰值的. 一种可选的翘曲函数为如下双曲正切函数的神经网络式求和

t (y ; Ψ)=y +∑

I a i tanh(b i (y +c i )) , a i , b i ≥0, ∀i

i =1

其中, Ψ={a , b , c }.

此外, 目前通常采用共轭梯度法求取训练样本对数似然函数的极大值以自适应地获得最优超参数, 但是共轭梯度法存在优化效果初值依赖性强、迭代次数难以确定、易陷入局部最优解的缺陷. 针对这种情况,刘开云等[22]采用十进制遗传算法代替共轭梯度法搜寻高斯过程最优超参数,有效避免了共轭梯度法的缺陷,可以在参数搜索区间快速找到全局最优解,从而提高GPR 的泛化性能。Zhu 等[23]利用粒子群算法优化超参数并用于位移预报,得到的预报精度优于遗传算法。申倩倩等[24]提出了在GP 的训练中使用自适应自然梯度法,即基于自适应自然梯度法的在线GPR 建模算法,满足了在线建模算法的实时

性要求。Petelin 等[25]实验研究验证了三种随机优化方法(遗传算法,差分进化算法和粒子群算法)用于超参数优化的有效性。

4与神经网络、支持向量机的关系

随着机器学习领域研究的不断深入, 许多基于机器学习的先进算法已经广泛应用于非线性回归、分类、概率密度估计和数据挖掘等领域, 比如神经网络和支持向量机, 其在解决回归和分类问题中已取得一定成果. 然而, 神经网络在研究过程中通常都会碰到如何选择一个合适的网络架构, 如何从数据中获取更多的有用信息等问题; 支持向量机存在如何选取合适的惩罚项来防止过拟合、如何确定核函数参数以及如何定量评价预测输出等问题.

以贝叶斯的视角来看, 神经网络方法可以看成是在非线性函数簇上定义一个先验概率分布, 其学习过程也可以用未知函数上的后验概率分布来描述(如一些学习算法是以最大化后验概率来获取最优函数, 一些蒙特卡罗方法是从该后验概率分布中采样的等). Buntine and Weigend [26]、MacKay [27,28]和Neal [29]等人几乎同时提出将贝叶斯分析方法和神经网络相结合, 在网络权重空间中充分考虑了其概率分布, 先验分布经过贝叶斯推理得到后验分布, 这点与一般的神经网络设计方法明显不同. Neal 于1996年发现, 当神经网络的隐层节点数趋于无穷大时, 网络权重的高斯先验分布就趋近于一个GP, 神经网络模型的超参数决定了GP 的参数[30]. 该发现促使了研究人员从研究参数化神经网络方法转向更为直接的GP 方法; 此时, 神经网络中的参数优化计算变为GP 中协方差矩阵的简单矩阵运算. Williams 等于1996年提出将GP 方法推广应用到原本由神经网络、决策树等方法所解决的高维回归问题中[31].

统计学习理论是机器学习的一种实现方法, Vap-nik 等从20世纪六七十年代就开始这方面的研究

[32]

.

随着统计学习理论的不断发展, 产生了许多基于统计学习理论体系的通用机器学习方法, 其中支持向量机和高斯过程都是基于统计学习理论发展起来的核学习机, 对于处理高维数、小样本以及非线性等复杂问题具有很好的适应性, 且泛化能力强. 而高斯过程应用了贝叶斯技巧, 得到的模型属于非参数概率模型, 其优势主要表现在:

(1)不仅能够对未知输入做预测输出, 而且能够对该预测输出的精度参数或不确定性(即估计方差) 进行定量分析;

(2)可以以先验概率的形式表示过程的先验知

识, 而后通过标准的贝叶斯方法进行模型选择, 从而提高过程模型性能;

(3)与神经网络、支持向量机等方法相比, 其模型参数明显减少, 且能方便地推断出超参数.

5高斯过程回归方法的发展及应用

虽然高斯过程在20世纪90年代中期才开始被研究应用于机器学习领域[33], 但是基于高斯过程的预测, 特别是对于时间序列分析而言, 其基础理论至少可追溯到20世纪40年代[34,35], 比如统计地质学中众所周知的“Kriging 法”[36,37]即为高斯过程预测; 该方法先后在空间预测[38]和空间统计[39,40]上得到应用. 至此, 人们逐渐意识到高斯过程回归可以用于解决一般的回归问题. 文献[41-43]利用一系列计算机仿真试验验证了GP 方法的有效性, 并讨论了超参数优化等问题. Williams 和Rasmussen [1,31]基于机器学习理论系统地阐述了GP 方法的基本原理及应用, 将GP 方法的推广应用推向了一个新的高度. 5.1

用于时间序列预测分析

GPR 方法在时间序列预测分析中的应用历史较为悠久, 近几年来又不断地得到发展和完善. Brahim-Belhouari 等应用GPR 方法对平稳和非平稳时间序列进行预测研究[44,45]. Girard 等基于GPR 方法解决了输入不确定情况下时间序列的多步预测问题[46]. Zhang 等提出一种用于时间序列分析的高效率GPR 方法[47]. Wang 等对比分析了人工神经网络(ANN)和GPR 方法在时间序列预测上的应用效果, 指出GPR 方法更适合于非平稳情形[48]. Farrell 等应用GPR 方法进行股票趋势预测[49]. 国内, 苏国韶、沈赟和徐冲等人将GPR 方法分别应用于基坑非线性位移时间序列预测[50]、隧道围岩变形预报[51]、隧道位移时序分析和边坡变形预测[52]. 5.2

用于动态系统模型辨识

GPR 方法由于其独特的优势, 自20世纪90年代末就开始应用于动态系统模型的辨识. Murray-Smith 等基于蒙特卡罗方法对高斯过程先验模型和多模型方法进行了分析比较[53]. Gregor˘c i˘c 针对参数化多模型方法存在结构确定难、参数获取困难以及“维数灾难”等不足, 将高斯过程用于动态非线性系统的建模, 对输入空间维数选择和多步预测等问题进行探讨, 给出了模型结构的选择方法, 并应用于液压系统[54]. Ni 等针对大多数工业过程中存在的非线性和时变特性严重削弱传统软传感器预测性能的问题, 提出了基于双重更新和双重预处理两个策略的移动窗GPR 方

法, 并应用于动态非线性系统辨识, 有效提高了对动态过程的跟踪性能[55].

Lawrence 对GP 进行了拓展, 提出了一种新的非线性隐变量模型——高斯过程隐变量模型(Gaussianprocess latent variable model, GP-LVM) [56]. Wang 等在隐空间内应用GP-LVM 对动态系统模型进行辨识[57]. 此外, 王磊等应用高斯过程对表情动作单元进行跟踪, 并利用高斯过程隐变量空间的分布方差对跟踪效果实施有效约束, 降低了跟踪过程中的非数值型误差[6]. 5.3用于系统控制或控制系统设计

GPR 方法能够给出预测值的不确定度, 因此能方便地与预测控制、自适应控制等方法相结合, 由此出现了一系列预测控制和自适应控制等新方法.

Kocijan 于2002年率先将GPR 模型提供的方差信息引入到控制信号的优化过程中, 提出了一种新的预测控制方法[58]. Likar 等建立了气液分离装置的GPR 模型, 并基于此模型实现了预测函数控制[59]. 此外, 基于GPR 模型的预测控制方法还有很多, 如内模控制方法[60]、随机预测控制方法[61]等, 在实际应用中都取得很好的效果.

Murray-Smith 等于2002年将GPR 模型引入自适应控制过程, 所得控制器能够自适应跟踪参考信号和从观测响应中学习系统模型[62]. 针对非最小相位非线性系统, Sbarbaro 等结合GPR 模型, 设计了一种自适应非参数控制器[63]. Rottmann 等基于GPR 模型, 分开并交替学习系统的动态模型和价值函数, 提出了一种自适应自冶控制方法, 能够实时学习系统的控制策略, 并成功应用于微型飞船高度的实时控制[64]. Petelin 等提出了进化GP 模型, 并基于此模型实现了自适应控制系统的设计[19].

其它基于GPR 模型的控制算法参见文献[2].5.4与贝叶斯滤波方法相结合

传统的滤波方法大多要求系统模型和先验噪声统计特性已知, 然而在实际中难以精确获取系统模型和噪声统计特性, 导致滤波方法的性能受限甚至无法正常工作. GPR 模型能够提供预测值的不确定度, 使得它也能够方便地与滤波方法相结合, 可以在一定程度上克服滤波方法对系统模型和噪声统计特性的依赖性.

Ferris 等于2006年最先将GPR 与高斯滤波相结合, 提出了高斯过程粒子滤波(GP-PF),并在基于无线电强度估计的移动载体定位中得到应用[65]. 紧接着Ko 、Deisenroth 等于2007年和2009年先后提出

了高斯过程扩展卡尔曼滤波(GP-EKF)[66]、高斯过程Unscented 卡尔曼滤波(GP-UKF)[67]、高斯过程假设密度滤波算法[68]. 2008年, Ko 等提出了高斯过程滤波这一名称, 并对相关算法进行了总结, 实验验证了高斯过程滤波的性能优越性[69]. 近年来, 国内, 李鹏等将高斯过程回归融入平方根UKF 算法中, 提出一种不确定系统模型协方差自适应调节滤波算法, 并将其应用于无人飞行器SINS/GPS组合导航[70,71]和航天器交会对接过程中[5].

6展望与结论

与神经网络、支持向量机相比, GPR 方法具有容易实现、灵活的非参数推断、超参数自适应获取等优点, 且是一个具有概率意义的核学习机, 可对预测输出做出概率解释, 在实际应用中已取得许多令人满意的成果. 但是, 目前GPR 方法还不够完善, 仍在不断地发展, 主要有以下几个发展趋势[2,72]:

(1)计算量大是限制GPR 方法应用的主要问题, 寻求效率更高的协方差求逆计算方法或训练集选择方法仍是不变的研究内容. 一方面, 可以结合计算机软硬件及并行计算技术, 提高计算效率; 另一方面, 自动处理数据并寻找“信息数据”以压缩数据集来降低计算量是另一发展趋势. 此外, 基于GPR 模型的递归辨识或在线学习方法的高效实现方法仍面临着一些挑战.

(2)对于控制系统而言, 抗干扰性能至关重要, 但是目前大部分基于GPR 模型的控制方法更多地仅关注设定点的跟踪性能, 缺少关于抗干扰的性能分析和设计. 另外, 基于GPR 模型的鲁棒控制设计将也是今后研究的趋势之一.

(3)利用GPR 方法辨识动态系统的状态方程和观测方程, 有效解决了滤波过程中由于模型不准确或统计特性未知导致滤波结果发散的问题, 优势明显, 可以与更多滤波方法(如容积卡尔曼滤波等) 相结合, 并应用于实际工程中.

随着贝叶斯理论和统计学习理论的进一步深入发展以及计算技术的飞速进步, 日趋成熟完善和不断实用化的GPR 方法将不断拓宽其应用领域, 如生物系统之类的不确定系统模型辨识等; 而新应用新要求也将促使GPR 方法不断取得新的进展. 参考文献(References )

[1]

Williams C K I, Rasmussen C E. Gaussian processes for machine learning[M].Cambridge, USA:MIT press, 2006. [2]

Kocijan J. Control algorithms based on Gaussian process

models:a state-of-the-art survey[C].Proc of the Special International Conference on Complex Systems:Synergy of Control, Communications and Computing. Hotel Metropol Resort, Ohrid, Republic of Macedonia, 2011:69-80. [3]

Petelin D, Kocijan J, Grancharova A. Online Gaussian process model for the prediction of the ozone concentration in the air[J].Comptes rendus de lAcad´e mie bulgare des Sciences, 2011, 64(1):117-124.[4]

He Z K, Liu G B, Zhao X J, et al. Temperature model for FOG zero-bias using Gaussian process regression[J].Advances in Intelligent Systems and Computing, 2012, 180:37-45. [5]

李鹏, 宋申民, 段广仁. 改进的平方根UKF 及其在交会对接中的应用[J].电机与控制学报, 2010, 14(11):100-104. (LiP, Song S M, Duan G R. Improved square root unscented Kalman filterand its application in rendezvous and docking[J].Electric Machines and Control, 2010, 14(11):100-104.) [6]

王磊, 邹北骥, 彭小宁, 等. 基于高斯过程的表情动作单元跟踪技术[J].电子学报, 2007, 35(11):2087-2091. (WangL, Zou B J, Peng X N, et al. Facial tracking by Gaussian process[J].ACTA Electronica Sinica, 2007, 35(11):2087-2091.) [7]

Snelson E. Flexible and efficientGaussian process models for machine learning[D].PhD thesis, University of Cambridge, 2007. [8]

Williams C K I, Seeger M. Using the Nystr¨o m method to speed up kernel machines[C].Proc of the International Conference on Advances in Neural Information Processing Systems (NIPS)13. Denver, CO, USA, 2001:682-688. [9]

Wahba G. Spline models for observational data[C].Society for Industrial and Applied Mathematics, Philadelphia, PA. CBMSNSF Regional Conference series in applied mathematics, 1990.

[10]Poggio T, Girosi F. Networks for approximation and

learning[C].Proc of IEEE, 1990, 78:1481-1497. [11]Williams C K I, Rasmussen C E, Schwaighofer A, et al.

Observations on the Nystr¨o m method for Gaussian process prediction[R].Technical Report, University of Edinburgh, 2002.

[12]Seeger M, Williams C K I, Lawrence N D. Fast

forward selection to speed up sparse Gaussian process regression[C].Proc of the 9th International Workshop on ArtificialIntelligence and Statistics. Key West, Florida, 2003.

[13]Keerthi S, Chu W. A matching pursuit approach to sparse

Gaussian process regression[C].Proc of the NIPS 18. Vancouver, British Columbia, Canada, 2005:643-650.

[14]Tresp V . A Bayesian committee machine[J].Neural

Computation, 2000, 12:2719-2741.

[15]Snelson E, Ghahramani Z. Sparse Gaussian processes

using pseudo-inputs[C].Proc of the NIPS 18. Vancouver, British Columbia, Canada, 2006:1257-1264.

[16]Snelson E, Ghahramani Z. Local and global sparse

Gaussian process approximations[C].Proc of the 11th International Workshop on ArtificialIntelligence and Statistics. Puertorico, 2007.

[17]Csat´o L, Opper M. Sparse online Gaussian processes[J].

Neural computation, 2002, 14(3):641-668. [18]Nguyen-Tuong

D,

Peters

J.

Incremental

online sparsificationfor model learning in realtime robot control[J].Neurocomputing, 2011, 74(11):1859-1867. [19]Petelin D, Kocijan J. Control system with evolving

Gaussian process model[C].Proc of IEEE Symposium Series on Computational Intelligence, 2011.

[20]Musizza B, Petelin D, Kocijan J. Accelerated learning of

Gaussian process models[C].Proc of the 7th EUROSIM Congress on Modelling and Simulation. Praha, CZ, VCVUT, 2010, 2:8.

[21]Snelson E, Rasmussen C E, Ghahramani Z. Warped

Gaussian processes[C].Proc of the NIPS 16. Vancouver, British Columbia, Canada, 2004.

[22]刘开云, 刘保国, 徐冲. 基于遗传-组合核函数高斯过程

回归算法的边坡非线性变形时序分析智能模型[J].岩石力学与工程学报, 2009, 28(10):2128-2134.

(LiuK Y , Liu B G, Xu C. Intelligent analysis model of slope nonlinear displacement time series based on genetic-Gaussian process regression algorithm of combined kernel function[J].Chinese Journal of Rock Mechanics and Engineering, 2009, 28(10):2128-2134.)

[23]Zhu F W, Xu C, Dui G S. Particle swarm hybridize with

Gaussian

process regression for displacement prediction[C].Proc of 2010IEEE Fifth International Conference on Bio-Inspired Computing:Theories and Applications, 2010.

[24]申倩倩, 孙宗海. 基于自适应自然梯度法的在线高斯过

程建模[J].计算机应用研究, 2011, 28(1):95-97, 120. (ShenQ Q, Sun Z H. Online learning algorithm of Gaussian process based on adaptive nature gradient[J].Application Research of Computers, 2011, 28(1):95-97, 120.) [25]Petelin D, Filipi˘

c B, Kocijan J. Optimization of Gaussian process models with evolutionary algorithms[C].Proc of the 10th International Conference on Adaptive and Natural Computing Algorithms -V olume 6593, Part I, Ljubljana, Slovenia, 2011:420-429.

[26]Buntine W, Weigend A. Bayesian back propagation[J].

Complex Systems, 1991, 5:603-643.

[27]MacKay D. A practical Bayesian framework for backprop

networks[J].Neural Computation, 1992, 4:448-472. [28]MacKay D. Bayesian methods for neural networks:theory

and applications[R].Technical Report, Cavendish Lab, Cambridge University, 1995.

[29]Neal R M. Bayesian training of backpropagation networks

by the hybrid Monte Carlo method[R].Technical Report, Department of Computer Science, University of Toronto, 1993.

[30]Neal R M. Bayesian learning for neural networks[J].

Lecture Notes in Statistics, 1996:18.

[31]Williams C K I, Rasmussen C E. Gaussian processes for

regression[C].Proc of the NIPS 8. Denver, CO, USA, 1996:514-520.

[32]Vapnik V N. Statistical learning theory[M].New York:

John Wiley &Sons, 1998.

[33]Rasmussen C E. Evaluation of Gaussian processes and

other methods for non-linear regression[D].PhD thesis, University of Toronto, 1996.

[34]Wiener, N. Extrapolation, interpolation and smoothing of

stationary time series[M].Cambridge, USA:MIT Press, 1949.

[35]Kolmogorov A N. Interpolation und extrapolation von

station¨a ren zuf¨a ligen folgen. Bull[J].Acad. Sci. USSR Ser. Math, 1941, 5:3-14.

[36]Matheron G. The intrinsic random functions and their

applications[J].Advances in Applied Probability, 1973, 5:439-468.

[37]Journel A G, Huijbregts C J. Mining geostatistics[M].New

York:Academic Press, 1978.

[38]Whittle P. Prediction and regulation by linear least-square

methods[M].London:English Universities Press, 1963. [39]Ripley B. Spatial statistics[M].New York:Wiley, 1981. [40]Cressie N A C. Statistics for spatial data[M].New York:

Wiley, 1993.

[41]O ’Hagan A. Curve fittingand optimal design for

prediction[J].Journal of the Royal Statistical Society B, 1978, 40:1-42.

[42]Sacks J, Welch W J, Mitchell T J, et al. Design and analysis

of computer experiments[J].Statistical Science, 1989, 4(4):409-435.

[43]Santner T J, Williams B J, Notz W. The design

and Aanalysis of computer experiments[M].New York:Springer, 2003.

[44]Brahim-Belhouari S, Vesin J M. Bayesian learning using

Gaussian process for time series prediction[C].Proc of the 11th IEEE Workshop on Statistical Signal Processing. Singapore, 2001:433-436.

[45]Brahim-Belhouari S, Bermak A. Gaussian process for

nonstationary time series prediction[J].Computational Statistics &Data Analysis, 2004, 47:705-712.

[46]Girard A, Rasmussen C E, Qui˜n onero Candela J, et al.

Gaussian process priors with uncertain inputs -application to multiple-step ahead time series forecasting[C].Proc of the NIPS 15. Vancouver, British Columbia, Canada, 2003:529-536.

[47]Zhang Y N, Leithead W E, Leith D J. Time-series

Gaussian process regression based on Toeplitz computation of O(N2)operations and O(N)-levelstorage. [C].Proc of the 44th IEEE Conference on Decision and Control, and the European Control Conference 2005, Seville, Spain, 2005:3711-3716.

[48]Wang T D, Chuang S J, Fyfe C. Comparing Gaussian

processes and artificialneural networks for forecasting[C].Proc of 9th Joint Conference on Information Sciences, Taiwan, 2006:1-4.

[49]Todd Farrell M, Correa A. Gaussian process regression

models for predicting stock trends[R].MIT Technical Report, 2007:1-9.

[50]苏国韶, 燕柳斌, 张小飞, 等. 基坑位移时间序列预测

的高斯过程方法[J].广西大学学报(自然科学版), 2007, 32(2):223-226.

(SuG S, Yan L B, Zhang X F, et al. Time series prediction of foundation pit displacement using Gaussian process method[J].Journal of Guangxi University (NatSci Ed), 2007, 32(2):223-226.)

[51]苏国韶, 张研, 燕柳斌. 隧道围岩变形预报的高斯过程

机器学习模型[J].桂林理工大学学报, 2010, 30(4):551-555.

(SuG S, Z Y , Yan L B. Deformation forecasting for tunnel rock by Gaussian process machine learning model[J].Journal of Guilin University of Technology, 2010, 30(4):551-555.)

[52]徐冲. 分岔隧道设计施工优化与稳定性评价[D].北京:

北京交通大学博士学位论文, 2011:23-56.

(XuC. Study on optimization and stability evaluation of design and construction of forked tunnel[D].Beijing:Beijing Jiaotong University, 2011:23-56.)

[53]Murray-Smith R, Johansen T A, Shorten R. On transient

dynamics, off-equilibrium behaviour and identificationin blended multiple model structures[C].Proc of the

European Control Conference (ECC99).Karslruhe, 1999:BA-14.

[54]Gregor˘c i˘c G, Lightbody G. Gaussian processes for

modelling of dynamic non-linear Systems[C].Proc of the Irish Signals and Systems Conference. Cork, 2002:141-147.

[55]Ni W D, Tan S K, Ng W J, et al. Moving-window GPR

for nonlinear dynamic system modeling with dual updating and dual preprocessing[J].Industrial and Engineering Chemistry Research, 2012, 51(18):6416-6428.

[56]Lawrence N D. Gaussian process latent variable Mod-els

for visualisation of high dimensional data[C].Proc of the NIPS 16. Vancouver, British Columbia, Canada, 2004. [57]Wang J, Fleet D, Hertzmann A. Gaussian process

dynamical models[C].Proc of the NIPS 18. Vancouver, British Columbia, Canada, 2006:1441-1448.

[58]Kocijan J. Gaussian process model based predictive

control[R].Technical Report, DP-8710, Institut Jo˘z ef Stefan, Ljubljana, 2002.

[59]Likar B, Kocijan J. Predictive control of a gas-liquid

separation plant based on a Gaussian process model[J].Computers and Chemical Engineering, 2007, 31(3):142-152.

[60]Gregor˘c i˘c G, Lightbody G. Internal model control based

on Gaussian process prior model[C].Proc of the 2003American Control Conference (ACC2003). Denver, CO, 2003:4981-4986.

[61]Grancharova A, Kocijan J. Stochastic predictive control of

a thermoelectric power plant[C].Proc of the International Conference Automatics and Informatics 07. Sofia,2007:I-13-I-16.

[62]Murray-Smith R, Sbarbaro D. Nonlinear adaptive control

using nonparametric Gaussian process prior models[C].Proc of the 15th IFAC World Congress. Barcelona, 2002. [63]Sbarbaro D, Murray-Smith R. An Adaptive Nonparametric

Controller for a Class of Nonminimum Phase Non-linear System[C].Proc of the 16th IFAC World Congress. Praga, 2005.

[64]Rottmann A, Burgard W. Adaptive autonomous control

using online value iteration with Gaussian processes[C].

Proc of IEEE International Conference on Robotics and Automation. Kobe, Japan, 2009:2106-2111.

[65]Ferris B, Haehnel D, Fox D. Gaussian processes for

signal strength-based location estimation[C].Proc of the International Conference on Robotics, Science and Systems. Philadelphia, PA, USA, 2006.

[66]Ko J, Klein D J, Fox D, Haehnel D. Gaussian processes

and reinforcement learning for identificationand control of an autonomous blimp[C].Proc of the International Conference on Robotics and Automation. Rome, Italy, 2007:742-747.

[67]Ko J, Fox D, Haehnel D. GP-UKF:unscented Kalman

filterswith Gaussian process prediction and observation models[C].Proc of the International Conference on Intelligent Robots and Systems. San Diego, California, USA, 2007.

[68]Deisenroth M P, Huber M F, Hanebeck U D. Analytic

moment-based Gaussian process filtering[C].Proc of the 26th International Conference on Machine Learning. Montreal, Quebec, Canaba, 2009:81-94.

[69]Ko J, Fox D. GP-BayesFilters:Bayesian filteringusing

Gaussian process prediction and observation models[J].Automomous Robots, 27(1):75-90.

[70]李鹏, 宋申民, 陈兴林. 自适应平方根无迹卡尔曼滤波算

法[J].控制理论与应用, 2010, 27(2):143-146.

(LiPeng ,Song Shenmin ,Chen Xinglin. Adaptive square-root unscented Kalman filteralgorithm[J].Control Theory &Applications, 2010, 27(2):143-146.)

[71]李鹏, 宋申民, 陈兴林, 等. 联合高斯回归的平方

根UKF 方法[J]系统工程与电子技术, 2010, 32(6):1281-1285. (Li

Peng ,Song

Shenmin ,Chen

Xinglin,

et al. Square root unscented Kalman filterincorporating Gaussian process regression[J].Systems Engineering and Electronics, 2010, 32(6):1281-1285.)

[72]Kocijan J. Dynamic GP models:an overview and recent

developments.[C].Proc of the 6th International Conference on

Applied

Mathematics,

Simulation,

Modelling.

V ouliagmeni Beach, Athens, Greece, 2012:38-43.


相关文章

  • 哈工大组合导航作业2_容积卡尔曼滤波综述
  • 容积卡尔曼滤波(CKF)国内外研究发展现状综述 摘 要:本文以容积卡尔曼滤波为研究对象,对其进行国内外文献综述.首先回顾了滤波方法的发展历程,对各种非线性滤波方法进行了简介,容积卡尔曼滤波方法作为一种非线性滤波方法,以其对随机变量非线性变换 ...查看


  • 汽车保险精算定价模型研究
  • 汽车保险论文关于汽车保险论文: 汽车保险精算定价模型研究综述 摘要:汽车保险定价模型在非寿险精算领域内占有重要地位,本文对车险定价模型一百多年来的研究进展作了综述性的回顾.首先,本文介绍了车险定价模型的先验估费方法:其次着重介绍了时齐的后验 ...查看


  • 运动目标跟踪算法研究综述
  • 第26卷第12期2009年12月 计算机应用研究 ApplicationResearchofComputersVol126No112Dec12009 运动目标跟踪算法研究综述 张 娟,毛晓波,陈铁军 (郑州大学电气工程学院,郑州450001 ...查看


  • 粒子滤波算法综述
  • 第20卷第4期 Vol.20No.4 控 制 与 决 策 Controland Decision 2005年4月 Apr.2005 文章编号:1001-0920(2005)04-0361-05 粒子滤波算法综述 胡士强,敬忠良 1,2 1 ...查看


  • 小波变换图像去噪综述
  • 科技论文写作大作业 小波变换图像去噪综述 院系: 班级: 学号: 姓名: 摘 要 小波图象去噪已经成为目前图象去噪的主要方法之一. 在对目前小波去噪文献进行理解和综合的基础上, 首先通过对小波去噪问题的描述, 揭示了小波去噪的数学背景和滤波 ...查看


  • 垃圾焚烧厂c
  • 垃圾焚烧厂的经济补偿问题 摘要 随着经济水平的不断发展,人口不断增加,致使环境不断恶化.其中"垃圾围城"在我国尤显突出,亟待人们解决.因此,采取垃圾焚烧以求解决这一问题.其中垃圾焚烧排放的有害物质,对周围居民生活健康存在 ...查看


  • 用于不确定性分析的高斯过程响应面模型
  • 第20卷第1期 2011年3月 计算机辅助工程 ComputerAidedEngineering V01.20No.1Mar.2011 文章编号:1006-0871(2011)01.0101.05 用于不确定性分析的高斯过程响应面模型 设计 ...查看


  • 室内自主移动机器人定位方法研究综述
  • 第 卷第 期 年 月 机器人 × ∂ √ 文章编号 2 2 2 室内自主移动机器人定位方法研究综述 李群明 熊蓉 褚健 浙江大学工业控制技术国家重点实验室 浙江杭州 Ξ 摘 要 定位是确定机器人在其作业环境中所处位置的过程 应用传感器感知信 ...查看


  • 计量经济学
  • 一元性回归模型的古典假设:1)假定SLR.1:参数线性假定(2)假定SLR.2:随机抽样假定(独立同分布假定)(3)假定SLR.3:随机项零条件均值假定(解释变量外生性假定).(线性的和无偏的)(4)假定SLR.4:条件同方差性假定.在假定 ...查看


热门内容