ComputerEngineeringandApplications计算机工程与应用2009,45(29)241
农用地定级决策树模型构建与应用研究
赵璐1,郑新奇1,闫弘文2,郭正鑫3ZHAOLu1,ZHENGXin-qi1,YANHong-wen2,GUOZheng-xin3
(北京)土地科学技术学院,北京1000831.中国地质大学
·资源与环境学院,济南2500142.山东师范大学人口
济南2500133.山东省国土测绘院,
1.SchoolofLandScienceandTechnology,ChinaUniversityofGeosciences,Beijing100083,China
ResourcesandEnvironment,ShandongNormalUniversity,Jinan250014,China2.CollegeofPopulation,
3.ShandongInstituteofLandSurveying&Mapping,Jinan250013,China
ZHAOLu,ZHENGXin-qi,YANHong-wen,etal.Constructionandapplicationofagriculturallandgradingmodelbased
(29):onMATLABanddecisiontree.ComputerEngineeringandApplications,2009,45241-244.Abstract:Aimingatthedefectsoftraditionalagriculturallandgrading,thispaperdiscussesideaandtechnicalrouteofagricul-
turallandgradingontheapplicationofdecisiontreemethod,andconstructsanagriculturallandclassificationmodelbasedonMATLABanddecisiontreeC4.5algorithm.LuanwanvillageofPingyincountyisusedforthetrial.Sevenindicatorsareselectedastestattributes.Agriculturalland-levelonsupportofthismodelispredicted,andtherulesareexpressedbywayofquantitativeexpression.Theresultsshowthat,agriculturallandgradingbasedondecisiontreedoesn’trelyonempiricalknowledge.Theknow-ledgeiseasytobeunderstood,andthehigherrateofaccuracywillbeabletomeettherequirementsofevaluation.Keywords:decisiontree;agriculturallandgrading;visualization;MATLAB摘要:针对传统农用地定级的缺陷,探讨了应用决策树方法进行农用地定级评价的研究思路和技术路线,构建了基于MATLAB和决策树C4.5算法的农用地定级模型,并以平阴县栾湾乡为试验区,选取7个指标作为测试属性,运用模型预测农用地级别,并以定量规则的方式表达所获取的知识。结果表明,基于决策树的农用地定级不依赖经验知识,其知识易于理解,且具有较高的准确率,能够满足评价的要求。关键词:决策树;农用地定级;可视化;MATLABDOI:10.3778/j.issn.1002-8331.2009.29.072
文章编号:(2009)1002-833129-0241-04
文献标识码:A
中图分类号:TP311
1前言
农用地定级是根据地方土地管理工作的需要,选择影响土
地质量的自然因素和社会经济因素,对行政区内的农用地进行质量综合评定。传统的农用地定级方法主要有因素法、修正法和样地法[1]。对于土地信息,各种资料可能会出现不完整的情况,在处理缺失和错误数据方面,传统的定级方法不能很好地解决问题。此外,传统的定级方法多依赖于经验知识,不具备自学习能力,难以处理定性描述变量。
决策树是数据挖掘中广泛使用的分类方法之一,目前已在遥感影像信息提取、灾害天气预测以及环境变量相关性研究等方面得到了广泛的应用[2-4]。决策树分析方法对于传统的定级方法所存在的上述问题都有相应的处理策略,并且农用地定级可以看成是对农用地质量产生影响的各类因素因子量化后混合
空间数据的分类预测问题,其分类预测结果就是农用地级别划分结果,所以尝试地将决策树分类方法应用于农用地定级,构建基于MATLAB的农用地定级决策树模型,以求克服传统定级评价方法的缺陷。
2决策树算法
决策树算法是以实例为基础的归纳学习算法,从一组无次序、无规则的事例中推理出树表示形式的分类规则,其擅长的数据挖掘任务是混合数据的分类预测问题[5]。它包括两个步骤:第一步是利用训练样本集建立决策树模型,包括建树和剪枝。这是一个从数据中获取知识,进行机器学习的过程。第二步是利用建好的决策树对新数据进行分类和预测。
早期的决策树算法是CLS学习算法和CART算法,其中
基金项目:国家自然科学基金(theNationalNaturalScienceFoundationofChinaunderGrantNo.40571119);国家社会科学基金资助项目(the
。NationalSocialScienceFoundationofChinaunderGrantNo.07BZZ015)
作者简介:赵璐(1985-),女,博士生,主要从事土地评价与规划、空间数据挖掘和GIS研究;郑新奇(1963-),男,教授,博士生导师,主要从事GIS
),。
收稿日期:2008-06-06
修回日期:2008-08-01
2422009,45(29)ComputerEngineeringandApplications计算机工程与应用
(doclass)functionfig=figuresetup
(′IntegerHandle′,fig=figure′off′,′NumberTitle′,′off′,...′Units′,′points′,);′PaperPositionMode′,′auto′,...′Tag′,′decisiontree′(′Parent′,(1,),);ax=axesfig,′UserData′,cell4′XLim′,0:1,′YLim′,0:1
pt=printtemplate;pt.PrintUI=0;
(fig,)set′PrintTemplate′,pt
…figtitle=′农用地分等决策树模型′;
(fig,hframe=uicontrol′Units′,′points′,′Style′,′frame′,...
);…′Position′,[0011],′Tag′,′frame′
(ax,(3));set′Position′,[00apostbottom]
set(fig,′Toolbar′,′figure′,′Name′,figtitle,′HandleVisibility′,′call-);…back′
最有影响的是Quinlan提出的ID3算法[6],之后又提出了ID3
算法的改进版本C4.5算法[7]。C4.5算法引入了新的方法和功能,如分支指标采用信息增益比例,可以合并具有连续属性的值和处理缺少属性值的训练样本,使用k次迭代交叉验证评估模型的优劣等[8-9]。
鉴于C4.5算法的优势,利用其构建农用地定级决策树模型。C4.5算法建立决策树模型的主要思想[10]是:首先对每一个测试属性计算其信息增益率,然后选取信息增益比率最大的属性作为根节点,并按其值划分数据集合,如果该属性只有一个值则停止划分。对划分的每个子数据集递归执行上述操作。
3农用地定级决策树模型的构建3.1模型功能设计
根据农用地定级的流程和特点,基于决策树的农用地定级技术路线见图1。首先根据所获得的农用地分等定级资料选取恰当的影响因素构建指标体系,然后对其进行量化。利用训练样本集构建基本决策树,然后根据需要进行裁剪,得到最佳决策树模型。利用测试样本对模型进行评价,满足要求后进行模型的应用,并将结果写入农用地定级数据库中,利用GIS技术对定级结果进行可视化输出显示。
农用地分等定级资料
训练样本抽取
影响因素分析选取定级因素作用分值量化
数据库连接数据预处理
图2
通过训练生成基本决策树
决策树修剪改良农用地定级数据库
规则库GIS图形数据库
决策树分析
农用地定级决策树模型主界面
3.3模型实现
传统农用地定级方法调整结果可视化输出
图1基于决策树的农用地定级技术路线
因此,农用地定级决策树模型应具有以下功能:(1)可方便地与数据库连接,快速读入农用地定级相关数据;(2)实现原始数据的预处理,如数据缺失、无穷大值处理以及消除量纲等操作;
(3)模型可自动对决策树进行剪枝处理,得到能够体现当地农用地定级规则的最佳树;
(4)模型能够以可视化的方式提供分类预测结果和决策树模型。
模型通过ODBC与数据库建立连接,并通过数据预处理模块对其中一些数据进行预处理。然后,将处理好的数据在相关视图中显示,同时导入决策树构建模块进行数据学习,结果为剪枝前的决策树,以可视化的方式提供给用户,这样用户可以进一步分析原始数据的内部特征以对模型参数等做出调整。模型提供两种剪枝方法:一种是用户自行设置剪枝水平,直至得到最佳树模型;另一种是由模块通过交叉验证的方法来估计树的最佳剪枝水平,然后自动构建改良后的决策树模型。部分源代码如下:
(train_features);[Ni,M]=size
inc_node=inc_node*M/100;
(5);Nu=10;N=region
(N,)(region(1),(2),);mx=ones1*linspaceregionN(region(3),(4),)(1,);my=linspaceregionN′*onesN(:),(:)flatxy=[mxmy]′;
(train_features,);…[f,t,UW,m]=PCAtrain_targets,Ni,region
(train_features,tree=make_treetrain_targets,inc_node,discrete_dim,(discrete_dim),);max0(());targets=use_treeflatxy,1:N^2,tree,discrete_dim,uniquetrain_targets(targets,);…D=reshapeN,N
3.2模型界面设计
模型界面包括了用户与计算机系统进行交互的所有工具。
即命令行、自然语言、表单输Horward等总结了五种交互手段,
入、菜单和直接交互等。根据当前计算机软件的主要界面特征[11],在MATLAB图形用户界面开发环境(GraphicalUserIn-
[12-14])下,模型提供了terfaceDevelopmentEnvironment,GUIDE
表单输入、菜单和直接交互等几种交互形式。
模型主界面见图2。模型集成了数据库管理、数据预处理、决策树构建和剪枝、分类预测以及可视化表达和评价等功能,、、显示区。部分源码如下:
4农用地定级决策树模型的应用
以平阴县栾湾乡农用地定级为研究对象,所用数据来自于2002年济南市平阴县农用地分等定级估价数据库。平阴县农用地分等定级估价为国土资源部试点项目,农用地评价单元的“1:000度分级图、土壤图,将形成的封闭图斑作为初步划分土地评价
赵璐,郑新奇,闫弘文,等:农用地定级决策树模型构建与应用研究
单元,并对小于最小上图面积的图斑进行归并。栾湾乡共划分为2353个评价单元。
农用地等指数<200200~350350~600600~900>900
区位条件<1010~2020~3030~40>40
2009,45(29
)243
表1测试属性值分级表
耕作便利条件<5050~6060~70>70
土地利用强度<2020~3030~4040~50>50
土地利用结构<1010~2020~3030~45>45
土地利用集约度<2525~4040~5050~60>60
土地经营效益<1515~3030~4545~65>65
分级编号12345
4.1数据准备
根据研究区农用地资源特点和数据源特点,以农用地级别
为分类属性,选取农用地等指数、区位条件、耕作便利条件、土地利用强度、土地利用结构、土地利用集约度、土地经营效益作为测试属性。根据规程,不同性质的定级因素需采用不同的量化处理方法,如面状因素量化方法采用均值度法;线状因素和点状因素常采用直线衰减或指数衰减量化方法。在以MapBa-sic6.0和VC++6.0为开发语言进行二次开发的农用地分等定级估价信息系统的支持下得到各属性的量化值。
根据空间分布均匀和样本级别分布均匀的原则,在整个试验区内,共选取了2118个评价单元(90%)作为训练样本集。另10%的评价单元作为测试集,以检验决策树模型的预测精度。图3为训练样本分布图。
训练样本单元测试样本单元非农用地单元
图4数据预处理后的部分训练样本属性集
一定能准确拟合,而且某些下级分支可能较强地受到异常值和其他因素的影响。所以,要通过树的剪枝来找到一种简单的树结构,来避免过度拟合的问题。
系统自动所得到的栾湾乡农用地定级最佳决策树模型见图5,包括22条“IF-THEN”规则,且模型提供各节点的节点类型、节点处规则和节点统计信息。其中IF部分包含一条路径的全部检验,规则的IF部分是相THEN部分则是最终分类结果,互排斥并且完备的。
图3试验区训练样本分布图
4.2数据预处理
根据2002年栾湾乡农用地修正法定级结果,该乡农用地划分为13个级别。为了便于统计和计算,将其整理合并归为6个级别,以此作为决策树学习及误差检验的依据。
此外,由于所获取的属性数据多为连续型数值,过于细碎,为了便于分析和计算,在构建数据库时将其表示为分级区段值,见表1。图4为数据预处理后的部分训练样本。
4.4预测分类和模型评价
利用235个测试样本检验该决策树模型对于栾湾乡农用
地级别预测的准确性和有效性,所得到的预测分类结果在模块界面的图表显示区展示给用户,见图6。通过与原有农用地分等定级估价数据库进行比对,该模型的预测分类准确率为采用10次迭代交叉验证法进行模型评估,所得95.74%。此外,
到决策树的平均预测分类准确率为95.65%。
从决策树产生的规则来看,栾湾乡农用地首选等级为Ⅰ级,这与当地的农用地实际情况相符。涵盖样本数最大的部分规则如下:
IF农用地等指数<2.5and土地利用结构<2.5and土地经
4.3决策树生成
在决策树分析主界面内输入相应的测试属性和分类属性后,模块自动构建出栾湾乡农用地定级决策树模型。但该决策树模型过于庞杂,对当前数据可能拟合得很好,对新数据却不
图5
栾湾乡农用地定级决策树模型(剪枝后)
2442009,45(29)ComputerEngineeringandApplications
计算机工程与应用
能构建了基于决策树的农用地定级模型,并通过实例验证了模型的实用性和有效性。与传统的农用地定级相比,该模型具有以下优点:
(1)有效避免了传统农用地定级中主观判断和经验知识的缺陷,并且在土地信息不完整的情况下,增强了处理缺失和错误数据方面的能力;
(2)随着土地资源数据的变更,可快速更新农用地定级评价数据,为农用地评价提供了新的思路和方法;
(3)可视化技术的应用使农用地定级过程成为一个循环动态、以用户为中心、互动的过程,做到了宏观与微观、纵向与横向的结合,增强了辅助决策的能力。
鉴于模型的地图辅助视图和空间分析功能还比较薄弱,需要在今后研究中探讨以地图作为模型中所有视图连接的中心,以便于用户进行地图可视化空间思考和探索性数据分析。
图6栾湾乡农用地定级决策树分类结果
营效益<3.5THEN农用地级别为Ⅰ级;
IF农用地等指数=3and1.5<土地利用集约度and1.5<土地经营效益<4.5THEN农用地级别为Ⅱ级;
IF农用地等指数=3and4.5<土地经营效益THEN农用地级别为Ⅲ级;
IF农用地等指数=4and4.5<土地利用结构THEN农用地级别为Ⅳ级;
IF4.5<农用地等指数and区位条件<3.5and土地利用强度<4THEN农用地级别为Ⅴ级;
IF4.5<农用地等指数and4<土地利用强度and4.5<土地利用结构THEN农用地级别为Ⅵ级。
分析所得到的规则发现,农用地等指数、土地经营效益、土
土地利用强度和区位条件与农用地级别有较强的地利用结构、
联系,这与栾湾乡2002年农用地定级指标体系各指标的权重分配也是一致的。表2为I~VI农用地等级中测试属性的部分特征取值。
表2
I~VI农用地等级中测试属性的部分特征取值
I1,21,21,254,1,21,2,31,2,3
II2,32,32,3,42,31,1,22,32,3,4
III3,41,2,31,2,43,42,2,34,53,4,5
IV4,52,3,43,43,51,2,3,54,53,4,5
V4,51,23,432,3,54,54,5
VI51,5452,3,54,55
参考文献:
中国标准出[1]中华人民共和国国土资源部.农用地定级规程[S].北京:
版社,2003.
彭宏,王小华.C4.5算法在保险客户流失分析中的应用[J].[2]桂现才,
计算机工程与应用,(17):2005,41197-199.
译.北京:清华大[3]RoigerRJ,GeatzMW.数据挖掘教程[M].翁译农,
学出版社,2003.
黄金才.数据挖掘技术[M].北京:北京工业大学出版社,[4]陈文伟,
2002.
刘耀林,张彤.空间数据挖掘技术在土地定级估价中应用[J].[5]贾泽露,
地球科学与环境学报,(3):2005,2772-77.
(1):[6]QuinlanJR.Inductionofdecisiontree[J].MachineLearning,1986
1-356.
[7]QuinlanJR.C4.5-Programsformachinelearning[M].NewYork:
MorganKaufman,1993:81-106.
王文杰,李游华.数据挖掘分类算法综述[J].微型计算机与[8]谈恒贵,
应用,(2):20054-9.
黄韶坤,朱炜.应用C4.5构造客户分类决策树的方法[J].计[9]王晓国,
算机工程,(14):2003,2989-91.
陈剑,陈国青.数据挖掘中的分类算法综述[J].清华大学学[10]刘红岩,
报:自然科学版,(6):2002,42727-730.
译.北京:机械工业出版社,[11]Johnson.GUI设计禁忌[M].王蔓,2005.李玉忍.用MATLAB制作图形用户界面[J].电脑开发与应[12]张秋红,
用,(3):2003,1610-14.
[13]尤姗姗.MATLAB在数学CAI课件开发中的应用[J].科技咨询导报,
(25):2007232-233.
李伟光,叶邦彦.基于Matlab的GUI设计数控系统圆弧插[14]周建辉,
补仿真软件[J].机械与电子,(9):200745-47.
测试属性农用地等指数区位条件耕作便利度土地利用强度土地利用结构土地利用集约度土地经营效益
5结语
应用MATLAB优秀的数值分析能力和可视化图形设计功
(上接232页)
[4]SametH.Connectedcomponentlabelingusingquadtrees[J].JACM,
(3):1981,28487-501.
[5]StefanoD,BulgarelliA.Asimpleandefficientconnectedcomponents
labelingalgorithm[C]//InternationalConferenceonImageAnalysisandProcessing,1999:27-29.
[6]GonzalesR,WoodsR.Digitalimageprocessing[M].[S.l.]:AddisonWes-
ley,1992:42-45.
[7]KletteR,ZamperoniP.Handbookofimageprocessingoperators[M].
JohnWiley&Sons,1996:314-319.NewYork:
[8]张桂林.基于跑长码的连通区域标记算法[J].华中理工大学学报,
(5)1994,22.
译.北京:电子工业出版[9]CastlemanKR.数字图像处理[M].朱志刚,
社,2006.
ComputerEngineeringandApplications计算机工程与应用2009,45(29)241
农用地定级决策树模型构建与应用研究
赵璐1,郑新奇1,闫弘文2,郭正鑫3ZHAOLu1,ZHENGXin-qi1,YANHong-wen2,GUOZheng-xin3
(北京)土地科学技术学院,北京1000831.中国地质大学
·资源与环境学院,济南2500142.山东师范大学人口
济南2500133.山东省国土测绘院,
1.SchoolofLandScienceandTechnology,ChinaUniversityofGeosciences,Beijing100083,China
ResourcesandEnvironment,ShandongNormalUniversity,Jinan250014,China2.CollegeofPopulation,
3.ShandongInstituteofLandSurveying&Mapping,Jinan250013,China
ZHAOLu,ZHENGXin-qi,YANHong-wen,etal.Constructionandapplicationofagriculturallandgradingmodelbased
(29):onMATLABanddecisiontree.ComputerEngineeringandApplications,2009,45241-244.Abstract:Aimingatthedefectsoftraditionalagriculturallandgrading,thispaperdiscussesideaandtechnicalrouteofagricul-
turallandgradingontheapplicationofdecisiontreemethod,andconstructsanagriculturallandclassificationmodelbasedonMATLABanddecisiontreeC4.5algorithm.LuanwanvillageofPingyincountyisusedforthetrial.Sevenindicatorsareselectedastestattributes.Agriculturalland-levelonsupportofthismodelispredicted,andtherulesareexpressedbywayofquantitativeexpression.Theresultsshowthat,agriculturallandgradingbasedondecisiontreedoesn’trelyonempiricalknowledge.Theknow-ledgeiseasytobeunderstood,andthehigherrateofaccuracywillbeabletomeettherequirementsofevaluation.Keywords:decisiontree;agriculturallandgrading;visualization;MATLAB摘要:针对传统农用地定级的缺陷,探讨了应用决策树方法进行农用地定级评价的研究思路和技术路线,构建了基于MATLAB和决策树C4.5算法的农用地定级模型,并以平阴县栾湾乡为试验区,选取7个指标作为测试属性,运用模型预测农用地级别,并以定量规则的方式表达所获取的知识。结果表明,基于决策树的农用地定级不依赖经验知识,其知识易于理解,且具有较高的准确率,能够满足评价的要求。关键词:决策树;农用地定级;可视化;MATLABDOI:10.3778/j.issn.1002-8331.2009.29.072
文章编号:(2009)1002-833129-0241-04
文献标识码:A
中图分类号:TP311
1前言
农用地定级是根据地方土地管理工作的需要,选择影响土
地质量的自然因素和社会经济因素,对行政区内的农用地进行质量综合评定。传统的农用地定级方法主要有因素法、修正法和样地法[1]。对于土地信息,各种资料可能会出现不完整的情况,在处理缺失和错误数据方面,传统的定级方法不能很好地解决问题。此外,传统的定级方法多依赖于经验知识,不具备自学习能力,难以处理定性描述变量。
决策树是数据挖掘中广泛使用的分类方法之一,目前已在遥感影像信息提取、灾害天气预测以及环境变量相关性研究等方面得到了广泛的应用[2-4]。决策树分析方法对于传统的定级方法所存在的上述问题都有相应的处理策略,并且农用地定级可以看成是对农用地质量产生影响的各类因素因子量化后混合
空间数据的分类预测问题,其分类预测结果就是农用地级别划分结果,所以尝试地将决策树分类方法应用于农用地定级,构建基于MATLAB的农用地定级决策树模型,以求克服传统定级评价方法的缺陷。
2决策树算法
决策树算法是以实例为基础的归纳学习算法,从一组无次序、无规则的事例中推理出树表示形式的分类规则,其擅长的数据挖掘任务是混合数据的分类预测问题[5]。它包括两个步骤:第一步是利用训练样本集建立决策树模型,包括建树和剪枝。这是一个从数据中获取知识,进行机器学习的过程。第二步是利用建好的决策树对新数据进行分类和预测。
早期的决策树算法是CLS学习算法和CART算法,其中
基金项目:国家自然科学基金(theNationalNaturalScienceFoundationofChinaunderGrantNo.40571119);国家社会科学基金资助项目(the
。NationalSocialScienceFoundationofChinaunderGrantNo.07BZZ015)
作者简介:赵璐(1985-),女,博士生,主要从事土地评价与规划、空间数据挖掘和GIS研究;郑新奇(1963-),男,教授,博士生导师,主要从事GIS
),。
收稿日期:2008-06-06
修回日期:2008-08-01
2422009,45(29)ComputerEngineeringandApplications计算机工程与应用
(doclass)functionfig=figuresetup
(′IntegerHandle′,fig=figure′off′,′NumberTitle′,′off′,...′Units′,′points′,);′PaperPositionMode′,′auto′,...′Tag′,′decisiontree′(′Parent′,(1,),);ax=axesfig,′UserData′,cell4′XLim′,0:1,′YLim′,0:1
pt=printtemplate;pt.PrintUI=0;
(fig,)set′PrintTemplate′,pt
…figtitle=′农用地分等决策树模型′;
(fig,hframe=uicontrol′Units′,′points′,′Style′,′frame′,...
);…′Position′,[0011],′Tag′,′frame′
(ax,(3));set′Position′,[00apostbottom]
set(fig,′Toolbar′,′figure′,′Name′,figtitle,′HandleVisibility′,′call-);…back′
最有影响的是Quinlan提出的ID3算法[6],之后又提出了ID3
算法的改进版本C4.5算法[7]。C4.5算法引入了新的方法和功能,如分支指标采用信息增益比例,可以合并具有连续属性的值和处理缺少属性值的训练样本,使用k次迭代交叉验证评估模型的优劣等[8-9]。
鉴于C4.5算法的优势,利用其构建农用地定级决策树模型。C4.5算法建立决策树模型的主要思想[10]是:首先对每一个测试属性计算其信息增益率,然后选取信息增益比率最大的属性作为根节点,并按其值划分数据集合,如果该属性只有一个值则停止划分。对划分的每个子数据集递归执行上述操作。
3农用地定级决策树模型的构建3.1模型功能设计
根据农用地定级的流程和特点,基于决策树的农用地定级技术路线见图1。首先根据所获得的农用地分等定级资料选取恰当的影响因素构建指标体系,然后对其进行量化。利用训练样本集构建基本决策树,然后根据需要进行裁剪,得到最佳决策树模型。利用测试样本对模型进行评价,满足要求后进行模型的应用,并将结果写入农用地定级数据库中,利用GIS技术对定级结果进行可视化输出显示。
农用地分等定级资料
训练样本抽取
影响因素分析选取定级因素作用分值量化
数据库连接数据预处理
图2
通过训练生成基本决策树
决策树修剪改良农用地定级数据库
规则库GIS图形数据库
决策树分析
农用地定级决策树模型主界面
3.3模型实现
传统农用地定级方法调整结果可视化输出
图1基于决策树的农用地定级技术路线
因此,农用地定级决策树模型应具有以下功能:(1)可方便地与数据库连接,快速读入农用地定级相关数据;(2)实现原始数据的预处理,如数据缺失、无穷大值处理以及消除量纲等操作;
(3)模型可自动对决策树进行剪枝处理,得到能够体现当地农用地定级规则的最佳树;
(4)模型能够以可视化的方式提供分类预测结果和决策树模型。
模型通过ODBC与数据库建立连接,并通过数据预处理模块对其中一些数据进行预处理。然后,将处理好的数据在相关视图中显示,同时导入决策树构建模块进行数据学习,结果为剪枝前的决策树,以可视化的方式提供给用户,这样用户可以进一步分析原始数据的内部特征以对模型参数等做出调整。模型提供两种剪枝方法:一种是用户自行设置剪枝水平,直至得到最佳树模型;另一种是由模块通过交叉验证的方法来估计树的最佳剪枝水平,然后自动构建改良后的决策树模型。部分源代码如下:
(train_features);[Ni,M]=size
inc_node=inc_node*M/100;
(5);Nu=10;N=region
(N,)(region(1),(2),);mx=ones1*linspaceregionN(region(3),(4),)(1,);my=linspaceregionN′*onesN(:),(:)flatxy=[mxmy]′;
(train_features,);…[f,t,UW,m]=PCAtrain_targets,Ni,region
(train_features,tree=make_treetrain_targets,inc_node,discrete_dim,(discrete_dim),);max0(());targets=use_treeflatxy,1:N^2,tree,discrete_dim,uniquetrain_targets(targets,);…D=reshapeN,N
3.2模型界面设计
模型界面包括了用户与计算机系统进行交互的所有工具。
即命令行、自然语言、表单输Horward等总结了五种交互手段,
入、菜单和直接交互等。根据当前计算机软件的主要界面特征[11],在MATLAB图形用户界面开发环境(GraphicalUserIn-
[12-14])下,模型提供了terfaceDevelopmentEnvironment,GUIDE
表单输入、菜单和直接交互等几种交互形式。
模型主界面见图2。模型集成了数据库管理、数据预处理、决策树构建和剪枝、分类预测以及可视化表达和评价等功能,、、显示区。部分源码如下:
4农用地定级决策树模型的应用
以平阴县栾湾乡农用地定级为研究对象,所用数据来自于2002年济南市平阴县农用地分等定级估价数据库。平阴县农用地分等定级估价为国土资源部试点项目,农用地评价单元的“1:000度分级图、土壤图,将形成的封闭图斑作为初步划分土地评价
赵璐,郑新奇,闫弘文,等:农用地定级决策树模型构建与应用研究
单元,并对小于最小上图面积的图斑进行归并。栾湾乡共划分为2353个评价单元。
农用地等指数<200200~350350~600600~900>900
区位条件<1010~2020~3030~40>40
2009,45(29
)243
表1测试属性值分级表
耕作便利条件<5050~6060~70>70
土地利用强度<2020~3030~4040~50>50
土地利用结构<1010~2020~3030~45>45
土地利用集约度<2525~4040~5050~60>60
土地经营效益<1515~3030~4545~65>65
分级编号12345
4.1数据准备
根据研究区农用地资源特点和数据源特点,以农用地级别
为分类属性,选取农用地等指数、区位条件、耕作便利条件、土地利用强度、土地利用结构、土地利用集约度、土地经营效益作为测试属性。根据规程,不同性质的定级因素需采用不同的量化处理方法,如面状因素量化方法采用均值度法;线状因素和点状因素常采用直线衰减或指数衰减量化方法。在以MapBa-sic6.0和VC++6.0为开发语言进行二次开发的农用地分等定级估价信息系统的支持下得到各属性的量化值。
根据空间分布均匀和样本级别分布均匀的原则,在整个试验区内,共选取了2118个评价单元(90%)作为训练样本集。另10%的评价单元作为测试集,以检验决策树模型的预测精度。图3为训练样本分布图。
训练样本单元测试样本单元非农用地单元
图4数据预处理后的部分训练样本属性集
一定能准确拟合,而且某些下级分支可能较强地受到异常值和其他因素的影响。所以,要通过树的剪枝来找到一种简单的树结构,来避免过度拟合的问题。
系统自动所得到的栾湾乡农用地定级最佳决策树模型见图5,包括22条“IF-THEN”规则,且模型提供各节点的节点类型、节点处规则和节点统计信息。其中IF部分包含一条路径的全部检验,规则的IF部分是相THEN部分则是最终分类结果,互排斥并且完备的。
图3试验区训练样本分布图
4.2数据预处理
根据2002年栾湾乡农用地修正法定级结果,该乡农用地划分为13个级别。为了便于统计和计算,将其整理合并归为6个级别,以此作为决策树学习及误差检验的依据。
此外,由于所获取的属性数据多为连续型数值,过于细碎,为了便于分析和计算,在构建数据库时将其表示为分级区段值,见表1。图4为数据预处理后的部分训练样本。
4.4预测分类和模型评价
利用235个测试样本检验该决策树模型对于栾湾乡农用
地级别预测的准确性和有效性,所得到的预测分类结果在模块界面的图表显示区展示给用户,见图6。通过与原有农用地分等定级估价数据库进行比对,该模型的预测分类准确率为采用10次迭代交叉验证法进行模型评估,所得95.74%。此外,
到决策树的平均预测分类准确率为95.65%。
从决策树产生的规则来看,栾湾乡农用地首选等级为Ⅰ级,这与当地的农用地实际情况相符。涵盖样本数最大的部分规则如下:
IF农用地等指数<2.5and土地利用结构<2.5and土地经
4.3决策树生成
在决策树分析主界面内输入相应的测试属性和分类属性后,模块自动构建出栾湾乡农用地定级决策树模型。但该决策树模型过于庞杂,对当前数据可能拟合得很好,对新数据却不
图5
栾湾乡农用地定级决策树模型(剪枝后)
2442009,45(29)ComputerEngineeringandApplications
计算机工程与应用
能构建了基于决策树的农用地定级模型,并通过实例验证了模型的实用性和有效性。与传统的农用地定级相比,该模型具有以下优点:
(1)有效避免了传统农用地定级中主观判断和经验知识的缺陷,并且在土地信息不完整的情况下,增强了处理缺失和错误数据方面的能力;
(2)随着土地资源数据的变更,可快速更新农用地定级评价数据,为农用地评价提供了新的思路和方法;
(3)可视化技术的应用使农用地定级过程成为一个循环动态、以用户为中心、互动的过程,做到了宏观与微观、纵向与横向的结合,增强了辅助决策的能力。
鉴于模型的地图辅助视图和空间分析功能还比较薄弱,需要在今后研究中探讨以地图作为模型中所有视图连接的中心,以便于用户进行地图可视化空间思考和探索性数据分析。
图6栾湾乡农用地定级决策树分类结果
营效益<3.5THEN农用地级别为Ⅰ级;
IF农用地等指数=3and1.5<土地利用集约度and1.5<土地经营效益<4.5THEN农用地级别为Ⅱ级;
IF农用地等指数=3and4.5<土地经营效益THEN农用地级别为Ⅲ级;
IF农用地等指数=4and4.5<土地利用结构THEN农用地级别为Ⅳ级;
IF4.5<农用地等指数and区位条件<3.5and土地利用强度<4THEN农用地级别为Ⅴ级;
IF4.5<农用地等指数and4<土地利用强度and4.5<土地利用结构THEN农用地级别为Ⅵ级。
分析所得到的规则发现,农用地等指数、土地经营效益、土
土地利用强度和区位条件与农用地级别有较强的地利用结构、
联系,这与栾湾乡2002年农用地定级指标体系各指标的权重分配也是一致的。表2为I~VI农用地等级中测试属性的部分特征取值。
表2
I~VI农用地等级中测试属性的部分特征取值
I1,21,21,254,1,21,2,31,2,3
II2,32,32,3,42,31,1,22,32,3,4
III3,41,2,31,2,43,42,2,34,53,4,5
IV4,52,3,43,43,51,2,3,54,53,4,5
V4,51,23,432,3,54,54,5
VI51,5452,3,54,55
参考文献:
中国标准出[1]中华人民共和国国土资源部.农用地定级规程[S].北京:
版社,2003.
彭宏,王小华.C4.5算法在保险客户流失分析中的应用[J].[2]桂现才,
计算机工程与应用,(17):2005,41197-199.
译.北京:清华大[3]RoigerRJ,GeatzMW.数据挖掘教程[M].翁译农,
学出版社,2003.
黄金才.数据挖掘技术[M].北京:北京工业大学出版社,[4]陈文伟,
2002.
刘耀林,张彤.空间数据挖掘技术在土地定级估价中应用[J].[5]贾泽露,
地球科学与环境学报,(3):2005,2772-77.
(1):[6]QuinlanJR.Inductionofdecisiontree[J].MachineLearning,1986
1-356.
[7]QuinlanJR.C4.5-Programsformachinelearning[M].NewYork:
MorganKaufman,1993:81-106.
王文杰,李游华.数据挖掘分类算法综述[J].微型计算机与[8]谈恒贵,
应用,(2):20054-9.
黄韶坤,朱炜.应用C4.5构造客户分类决策树的方法[J].计[9]王晓国,
算机工程,(14):2003,2989-91.
陈剑,陈国青.数据挖掘中的分类算法综述[J].清华大学学[10]刘红岩,
报:自然科学版,(6):2002,42727-730.
译.北京:机械工业出版社,[11]Johnson.GUI设计禁忌[M].王蔓,2005.李玉忍.用MATLAB制作图形用户界面[J].电脑开发与应[12]张秋红,
用,(3):2003,1610-14.
[13]尤姗姗.MATLAB在数学CAI课件开发中的应用[J].科技咨询导报,
(25):2007232-233.
李伟光,叶邦彦.基于Matlab的GUI设计数控系统圆弧插[14]周建辉,
补仿真软件[J].机械与电子,(9):200745-47.
测试属性农用地等指数区位条件耕作便利度土地利用强度土地利用结构土地利用集约度土地经营效益
5结语
应用MATLAB优秀的数值分析能力和可视化图形设计功
(上接232页)
[4]SametH.Connectedcomponentlabelingusingquadtrees[J].JACM,
(3):1981,28487-501.
[5]StefanoD,BulgarelliA.Asimpleandefficientconnectedcomponents
labelingalgorithm[C]//InternationalConferenceonImageAnalysisandProcessing,1999:27-29.
[6]GonzalesR,WoodsR.Digitalimageprocessing[M].[S.l.]:AddisonWes-
ley,1992:42-45.
[7]KletteR,ZamperoniP.Handbookofimageprocessingoperators[M].
JohnWiley&Sons,1996:314-319.NewYork:
[8]张桂林.基于跑长码的连通区域标记算法[J].华中理工大学学报,
(5)1994,22.
译.北京:电子工业出版[9]CastlemanKR.数字图像处理[M].朱志刚,
社,2006.