数据挖掘算法研究与综述

第26卷第9期

V01.26

No.9

计算机工程与设计

ComputerEngineeringandDesign

2005年9月

Sept.2005

数据挖掘算法研究与综述

邹志文,

朱金伟

(江苏大学计算机学院,江苏镇江212013)

摘要:数据挖掘方法结合了机器学习、模式识别、统计学、数据库和人工智能等众多领域的知识,是解决从大量信息中获取有甩知识、提供决策支持的有效途径,具有广泛的应用前景。以关联、分类、聚类归类,对当前数据挖掘的多种方法进行了研究,并指出其现存的问题。这些方法都有局限性,多方法融合、有机组合互补将成为数据挖掘的发展趋势。

关键词:数据挖掘;分类算法;关联分析;分类分析;聚类分析中图法分类号:TP301.6

文献标识码:A

文章编号:1000.7024(2005)09.2304.04

Researchandsummaryofdataminingalgorithms

ZOUZhi.wen.

ZHUJin.wei

(CollegeofComputer,JiangsuUniversity,Zhenjiang212013,China)

Abstract:DataMiningintegrateswithknowledgeofnumerousfieldssuch

as

machinelearning,paaemrecognition,statistics,database

andartificialintelligence.Itisaneffectiveapproachtofetchusefulinformationfromlargedatabaseandofferdecisionsupport.Thereis

broadapplicationforegroundofdatamining.Manylatestmethodsrangebyassociation,classificationandclusteringindatamining

theirremainingproblemswerediscussed.As

WaSresearched,and

whole,allthesealgorithmshavetheirownlimitations,andorganically

combiningseveralmethodswillbethedevelopmenttrendfordatamining.

Keywords:datamining;classificationalgorithm;associationanalysis;classificationanalysis;clusteringanalysis

1引

规则一般表示式为:A。八A2^…A=-->B。八B:八…Bm,其中,丸

(k=1,2,…,m),Bj(j=I,2,…,n)是数据库中的数据项,且有Sup-port(A=>B)=P(AUB),Confidence(A=>B)=P(AlB)数据项之间的关联,即根据一个事务中某些数据项的出现可以导出另一些数据项在同一事务中的出现。在关联规则挖掘法的研究中,算法的效率是核心问题,如何提高算法的效率是所要解决的关键。

2.1

随着信息化的到来,各类数据急剧膨胀,面对海量的存储数据,如何从中发现有价值的信息或知识是一项非常艰巨的任务。数据挖掘就是为了满足这种要求而迅速发展起来的。数据挖掘是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程Ⅲ。数据挖掘以机器学习、模式识别、统计学、数据库和人工智能等众多学科为基础,是目前国际上数据库和信息决策系统最前沿的研究方向之一,己引起了学术界和工业界的广泛关注。与此同时,各种数据挖掘算法纷纷出现,本文就目前有一定影响力的算法按基于关联、分类、聚类分别进行分析、评述,并指出了这一领域可能的发展方向。

Apriori算法

在关联分析中经典算法是R.Agrawal等人提出的Apriofi

算法Ⅲ,这是一种很有影响力的挖掘关联规则频繁项集的算法,它探查逐级挖掘Apfiofi性质:频繁项集的所有非空子集都必须是频繁的。根据频繁k.项集,形成频繁(k+1).项集候选,并扫描数据库1次,完成第k次迭代(k>1),找出完整的频繁(k+1)一项集Lk+-。

Apfiofi算法的优点是简单易懂;但同时也存在以下两方

2关联分析

R.Agrawal等人首先提出了关联规则挖掘问题。关联规则是数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多个域问的依赖关系。关联规则挖掘对象一般是大型数据库(TransactionalDatabase),该收稿日期:2005.03—12。

基金项目:国家863高技术研究发展基金项目(2002AA412020)。

面的不足:①当事务数据库中的频繁1.项集的数目叫比较大

时,由频繁1.项集产生的候选2一项集C:就非常大,C:由吼。]个

2一项集组成;②为了由Ct产生Lk,需要重复扫描数据库中的事务并计算候选项集Ck中每个候选项集支持度,因而当事务数据库中的事务个数很大时,扫描数据库的开销将变得很大。

作者简介:邹志文(1968一),男,江西抚州人,硕士,讲师,研究方向为webgis和数据挖掘;

方向为数据挖掘。・——2304-——

朱金伟(1981一),男,浙江永康人,硕士,研究

万方数据 

2.2

AprioriTid算法

为了提高Apriori算法的有效性,.目前已经提出了许多

Apriori变形,旨在提高原算法的效率,在文献[2]中提出了Apri.oriTid算法。

从AprioriTid算法寻找频繁项集的思路中,可知道该算法的优点:即仅在第1次扫描时用事务数据库D计算候选频繁项集的支持度,其它各次扫描用其上一次扫描生成的候选事

务数据库D’来计算候选频繁项集的支持度。如此将减少对数

据库的扫描次数,在一定情况下能迅速削减候选频繁项集。

即使进行了优化,但是AprioriTid方法一些固有的缺陷还是无法克服:①可能产生大量的候选集。当长度为1的频集有10000个的时候,长度为2的候选集个数将会超过10M。还有就是如果要生成一个很长的规则的时候,要产生的中间元素也是巨大量的;②可能需要重复扫描数据库,通过模式匹配检查一个很大的候选集;③无法对稀有信息进行分析。

2.3

FP.growth算法

为了解决这些问题文献【3]中采用了一种叫FP.growth的

方法。它采取了分治策略:首先,构造频繁模式树FP.树,根据事务数据库及设定的最小支持度阀值,将包含频繁项集的数据库压缩到FP.树上;其次,在FP-树上进行频繁模式的挖掘,FP.树的挖掘进行如下,由长度为1的频繁模式(初始后缀模式)开始,构造它的条件模式基(FP.树中和后缀模式一起出现的前缀路径集),然后构造条件模式基的FP.树,即模式树的增长,并递归地在FP.树上进行挖掘。

这种方法对于挖掘长的和短的频繁模式,都是有效和可以伸缩的,并比Apriori方法快了1个数量级;但是当数据库很大时,构造基于内存的FP—tree不太现实。

3分类

分类分析是通过分析训练集中的数据,为每个类别做出

准确的描述或建立分析模型或挖掘出分类规则,以便以后厢

这个分类规则对其它数据库中的记录进行分类的方法。

3.1决策树法

决策树归纳学习算法以其易于提取显式规则、计算量相

对较小、可以显示重要的决策属性和较高的分类准确率等优

点而得到广泛的应用。决策树根据不同的特征,以树型结构表示分类或决策集合,产生规则和发现规律。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

3.1.1

ID3算法

Quinlan在文献[4】中提出了著名的ID3算法,借用信息论

中的互信息(信息增益)作为单一属性分辨能力的度量,试图减少树的平均深度,忽略了叶子数目的研究。ID3的1个优点是:它的建树时间和任务的困难度(如样本集样本个数,每个样本的属性个数,研究概念的复杂程度即决策树的节点数)呈线性递增关系,计算量相对较小。但存在的主要间题有:①互信息的计算依赖于属性取值的数目较多的特征,而属性取值较多的属性不一定最优:②ID3是非递增学习算法;③抗噪性差,训练例子中正例和反例较难控制。

Schimmer和Fisher在文献[5】中设计了ID4递增式算法,通过修改ID3算法,在每个可能的决策树结点创建一系列表,

万 

方数据每个表由未检测属性值及其示例组成,当处理新例时,每个属性值的正例和反例递增计量。

在ID4的基础上,Utgoff在文献[6】中提出了ID5算法,它抛弃了旧的检测属性下面的子树,从下面选择属性构造树。

3.1.2

C4.5算法

文献[7】提出了C4.5算法,对类ID3算法进行了改进,提高

了算法的效率。尽管如此,C4.5算法仍然有如下的缺点:首先,在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效;其次,C4.5只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。

3.1.3

SLIQ算法

文献[8】提出了SLIQ算法,使用gini指标(giniindex)代替

信息量(Information),对数据集包含n个类的数据集S,gini(S)定义为:gini(S)=1一Y.pj+PJ,PJ是S中第J类数据的频率,gini越小,InformtionGain越大。

由于算法采用了“预排序”和“广度优先”这两种技术使得该算法能够处理比CA.5所能处理的大得多的训练集,因此在一定程度上具有良好的随记录个数和属性个数增长的可扩展性。然而它仍然存在如下缺点:①由于需要将类别列表存放于内存,而类别列表的长度与训练集的长度是相同的,这就在一定程度上限制了可以处理的数据集的大小;②由于采用了预排序技术,而排序算法的复杂度本身并不是与记录个数成线性关系,因此使得SLIQ算法不可能达到随记录数目增长的线性可扩展性。

3.1.4

SPRINT算法

为了减少需要驻留于内存的数据量,文献[9】提出了

SPRINT算法,进一步改进了决策树算法实现时的数据结构,去掉在SLIQ中需要驻留于内存的类别列表,将它的类别列合并到每个属性列表中。

其优点是:在寻找每个结点的最优分裂标准时变得相对简单一些。但是其缺点是:对非分裂属性的属性列表进行分裂变得很困难。解决的办法是对分裂属性进行分裂时用哈希表记录下每个记录属于哪个孩子结点,若内存能够容纳下整个哈希表,其它属性列表的分裂只需参照该哈希表即可。

3.1.5

RainForest算法框架

在过去的研究提出的多种决策树算法中,到目前为止还

没有一种算法在任何数据集合下生成决策树的质量方面能超过所有其它的算法。文献【10]提出了RainForest算法框架,该框架关注于提高决策树算法的伸缩性,该框架可运用于大多数决策树算法(例如Spnnt和SLIQ),使算法获得的结果与将全部的数据放置于内存所得到的结果一致,但是在运行时可以使用较少的内存。生成的决策树的质量取决于具体的决策树算法,与本框架无关。因此,在内存~定的情况下,可以更好地满足算法的需求。

3.2

Bayes分类算法

Bayes分类算法是利用概率统计知识进行分类的算法,主

要利用Bayes定理来预测1个未知类别的样本属于各个类别的可能性,选择其中可能性最大的1个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。较有代表性的算法是NB算法“”,还有降

-——2305・——

低独立性假设的TAN(treeaugmented

Bayesnetwork)算法“”。3.3

cBA(Classification

Basedon

Association)算法

CBA算法“21是基于关联规则发现方法的分类算法。该算法分两个步骤构造分类器:第1步,发现所有的右部为类别的类别关联规,贝lJ(classificationassociationrules,简称CAR);第2步,从已发现的CAR中选择高优先度的规则来覆盖训练集。

CBA算法的优点是:其分类准确度较高,因为它发现的规则相对较全面。但是,当最小支持度被设为0时,产生的频繁集有时多得在内存无法容纳,从而会使程序无法继续运行。

3.4

MIND(MininginDatabase)算法

MIND算法“”是采用数据库中用户定义的函数(user-defin.

edfunction,简称UDF)来实现发现分类规则的算法。该算法的优点是:通过采用UDF实现决策树的构造过程使得分类算法易于与数据库系统集成。该算法的缺点是:算法采用UDF完成主要的计算任务,而UDF一般是由用户利用高级语言实现的,无法使用数据库系统提供的查询处理机制,无法利用查询优化方法,且UDF的编写和维护相当复杂。另外MIND中用SQL语句实现的那部分功能本身就是比较简单的操作,而采用SQL实现的方法却显得相当复杂。

3.5神经网络

神经网络是由大量的简单神经元,通过极其丰富和完善的连接而构成的自适应非线性动态系统,并具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。在数据挖掘领域,主要采用前向神经网络“”提取分类规则。

其最大的缺点是“黑箱钆陛,人们难以理解网络的学习和决策过程。通常有两种解决方案:①建立一个基于规则的系统辅助;②直接从训练好的网络中提取规则。

3.6粗集理论

粗集理论“”的特点是不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布、模糊集理论中的隶属度或

隶属函数等,而是直接从给定问题出发,通过不可分辨关系和

不可分辨类确定问题的近似域,从而找出问题中的内在规律。粗集理论同模糊集、神经网络、证据理论等其它理论均成为不确定性计算的一个重要分支。在数据挖掘领域,粗集方法广泛应用于不精确、不确定、不完全的信息的分类和知识获取。

粗集的数学基础是集合论,难以直接处理连续的属性。而现实决策表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点之一。目前比较有代表性的监督离散化方法有以下几种:(至)Holte提出了一种贪婪的单规则离散器(oneruledi鲥℃血神方法;②统计检验方法;③信息熵方法等。

以上几种方法各有特点,但都存在1个不足:每个属性的离散化过程是相互独立的,忽略了属性之间的关联,从而使得离散的结果中含有冗余或不合理的分割点。

3.7遗传算法

遗传算法是模拟生物进化过程,利用复制(选择)、交叉(重组)和变异(突变)3个基本算子优化求解的技术。遗传算法类似统计学,模型的形式必须预先确定,在算法实施的过程中,首先对求解的问题进行编码,产生初始群体,然后计算个体的适应度,再进行染色体的复制、交换、突变等操作,优胜劣汰,适者生存,直到最佳方案出现为止。

-——2306・——

万 

方数据在数据挖掘领域,遗传算法的作用表现在以下几个方面:①和神经网络、粗集等技术的结合。如用遗传算法和B

算法结合训练神经网络,然后从网络提取规则。实践证明这是一种有效的方法;②分类系统的设计。遗传算法用于分类器始于20世纪80年代初。90年代后,遗传算法用于分类系统的理论得到广泛的研究和应用。

遗传算法具有计算简单、优化效果好的特点,它在处理组合优化问题方面也有一定的优势。但还存在以下问题:算法较复杂,收敛于局部极小的过早收敛等难题未得到彻底解决。

4聚类分析

聚类分析与分类不同,聚类分析处理的数据对象的类是未知的。聚类分析就是将对象集合分组为由类似的对象组成的多个簇的过程。

4.1

Ipartitioning

method(划分方法)

给定1个N个对象或者元组的数据库,1个划分方法构建数据的K个划分,每1个划分表示1个聚簇,并且K<N。

经典算法有K.MEAN(K平均值)[161K-MEDOIDS(K中心点)o”,而且这些算法已经被加入到许多统计分析软件包或系统中,例如SAS、SPSS。

4.2

hierarchicalmethod(层次方法)

层次方法对给定数据对象集合进行层次的分解。根据分解的形成不同,层次方法可以分为凝聚的层次方法和分裂的层次方法。

层次方法存在着缺陷:一旦1个步骤完成,它就不能被撤消,这样它就不能更正错误的决定。有两种方法可改进层次聚类的结果;第1,使用CU爪.E和变色龙方法中的做法,在每个层次划分时,仔细分析对象之间的联接;第2,综合层次凝聚和迭代的重定位方法,首先用凝聚的自底向上的分析算法,然后进行迭代的重定位来改进结果,BIRTH中用的就是这种算法。

4.3

grid.based

method(基于网格的方法)

这种方法采用一个多分辨率的网格数据结构。将空间量化为有限数目的单元,这些单元形成了网格结构,所有聚类分析都在网格上进行。这种方法主要优点是:处理速度快,它的处理时间仅依赖于量化空间中每一维上的单元数目,却独立于数据的数目。常用的算法有STING"SkWAVECLUSTER【”1和CLIQUE洲。

4.4其它基于模型的聚类分析方法

主要有统计学和神经网络方面的方法。

5结论

随着数据量的日益积累以及数据库种类的多样化,数据挖掘的应用前景相当广阔。本文对各类算法进行了分析、比较和总结。总而言之,各种数据挖掘方法作用范围有限,都有局限性,因此采用单一方法难以得到决策所需的各种知识。但它们的有机组合具有互补性,多方法融合将成为数据挖掘算法的发展趋势。

参考文献:

[1】HartJ,KambrM.Datamining:Concepts

and

techniques[M].

BeijingHigherEducationPress,2001.1-3.

[12】Liu

B,Hsu

W,MaY

Integrating

classificationandassociation

[2】Agrawal

R,SrikantR.Fastalgorithmforminingassociationru-

rule

mining[A].Procofthe4thintconfonknowle-dge

discovery

lesinlargedatabases[A】.The

InternationalConferenceon

very

anddataMining[C].NY9USA:AAAIPress,1998.80-86.LargeDataBases【C】.1994.487-499.[13】WANGM,IyerB,Vitter

S.Scalableminingforclassification

【3】Han

J,PeiJ,Yin

Y.Mingfrequentpatternswithoutcandidaterulesinrelationaldatabases[A].EaglestoneB,DesaiBC,SHAOgeneration[A].InProc.2000ACM-SIGMODInt.Con£Manage—

Jianlma.Procofthe1998Intdatabaseengandapplsyrup[C].

ment

ofData(SIGMOD’oo)[c】.Dallas,TX,2000.1—12.

Cardiff,Wales,UK:IEEEComputerSociety,1998.58-67.

【4】

Quinlan

JR.Inductionofdecision

trees[J】.Machine

Learning,

【14】Wang

Li

qiang,TangChangjie.Dataminingonw曲[J】.Computer

1986,(1):81—106.Applications,1998,18(10):912.

【5】

SchlimmerJC,FisherD.A

case

studyof

incrementalconcept【15】李永敏,朱善君.基于粗糙理论的数据挖掘模型[J】.清华大学学

induction[A].InProceedingsofAAAI一86[C].1986.报(自然科学版),1999,39(1):110.113.

(6】Utgoff

PE.ID5:An

incrementalID3[A】.InProceedingsof

【16】MacQueenJ.Somemethodsforclassificationand

analysis

of

ICML-88[C].SanMateo,CA,1988.multivariateobservations[A】.Proc5thberkeleysymp.math

sta-

【7】

Quinlan

R.C4.5:Programsformachinelearning[M].SanMa-

tist[C].Prob,1967.01.teo,California:MorganKaufmann,1993.[17】Kaufman

L,RousseeuwPJ.Findinggroupsindata:anintroduc—

[8】

MehtaM,AgrawalRRissanenJ.SLIQ:Afastscalableclassifi-

tion

to

cluster

analysis[M].JohnWileyand

Sons,1990.

er

fordata

mining[A].Lecture

notesin

computersciProcofthe【18】WeiWang,JiongYang,RichardMuntz.STING:A

statisticalin—

5thimconf

on

extending

databaseTech[C].Avignon,France,formationgridapproachtospatialdatamining[A].Twenty-third

1996.18.33.

internationalconference

on

verylargedatabases[C],1997.

[9】ShaferJC,AgrawalR,MehtaM.SPRINT:Ascalableparallel[19】SheikholeslamiG,ChatterjeeS,ZhangA.Wave

cluster:amulti-

classifier

fordatamining[A】.Procofthe22ndIntconfonvery—

resolutionclusteringapproach

forverylargespatialdatabases

largedatabases[C].Mumbai(Bombay),India,1996.

[A】.Proc.Int.Conf.onvery

largedatabases[C].NewYork,NY9

[10】GehrkeJ,Ramakrishnan

R,Ganti

VRainforest

frameworkfor

1998.428.439.

fastdecisiontreeconstructionoflargedatasets[A】.InVLDB[C].

[20】AgrawalR,GehrkeJ,Gunopulos

D.Automaticsubspaceclus-

1998.

teringofhigh

dimensionaldatafordataminingapplications[A】.

【11】FriedmanN,Geiger

D,GoldszmidtM.Bayesiannetworkclassi-

Proc.ACMSIGMODint.coneonmanagementofdata[C].Seat.tier[J】.Machine

earning,1997,29(1):131—163.

tle,WA.1998.94.105.

(上接第2281页)

3.3

SDG自动建模策略

构、动态行为、实现构造、模型组织管理、可扩展性等方面有优由于实际系统都有比较完备的系统工艺流程图(Process

秀的表现。对于SDG(HAZOP)模型自动建立领域的空白来FlowDiagram简称PFD)。通过工艺流程图,业主、建筑设计者、讲,UML方法的引入无论是为SDG(HAzOP)模型的自动建模操作人员、全权评价人员和其他人员可以快速了解系统信息策略研究还是为SDG自动建模软件平台的后续开发都树立如设备位置容量、流量、进出口流体温度、泵的数据、系统压力了良好的开端。

等及系统价值、潜在问题等。

SDG自动建模策略的提出是为了后续可以建立自动建模参考文献:

软件平台,以及和已经有的SDG推理软件连接以改善目前计[1】

张贝克,夏涛,吴重光.集成化SDG建模、推理与信息处理软件算机在工程领域中使用缺乏连贯性的弱点,大力提高计算机平台[J].系统仿真学报,2003,15(10):1360-1363.的使用效率。通过考虑实效性、可扩展性、精确度,拟定采用[2】

姚淑珍,唐发根.UML参考手册[M】.北京:机械工业出版社,

基于流程的方法,辅助专家经验,使用面向对象的策略和模块2001.

化思想进行SDG自动建模策略研究。

[3】李安峰,夏涛,张贝克,等.化工过程SDG建模方法[J】.系统仿真4结论

学报,2003,15(10):1364-1368.

[4】KletzTHazop.Identifying

and

assessingprocess

industryha—

综上所述,UML的特色和sDG(HAz0P)模型的自身特点zards[M】.ThirdEdition.Rugby,WarwickshireCV213HQ,UK:

决定了UML的很多理念对研究SDG(HAZOP)模型自动建立InstitutionofChemicalEngineers,1992.

策略有不少借鉴价值。

[5】Lapp

SA,PowersG

J.Computer-aidedsynthesisoffaulttrees

UML严谨的定义、面向对象的方法、图形化的表示、软件【J】.IEEETransReliability,1977,26(4):2-13.

内部的无缝连接、增量式开发思路、UML本身的扩展机制对[6】HiranmayeeVedam,VenkatVenkatasubramanian.Signed

digraph

于SDG自动建模软件平台的分析设计都是比较理想的选择。based

multiplefaultdiagnosis【J】.ComputersChem,1997,21:

使用UML方法分析设计该软件平台,可以使该平台从静态结

655.660.

万 

方数据・——2307-——

数据挖掘算法研究与综述

作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:

邹志文, 朱金伟, ZOU Zhi-wen, ZHU Jin-wei江苏大学,计算机学院,江苏,镇江,212013计算机工程与设计

COMPUTER ENGINEERING AND DESIGN2005,26(9)32次

参考文献(20条)

1. Schlimmer J C;Fisher D A case study of incremental concept induction 19862. Quinlan J R Induction of decision trees 1986(01)

3. Han J;Pei J;Yin Y Ming frequent patterns without candidate generation 2000

4. Agrawal R;Gehrke J;Gunopulos D Automatic subspace clustering of high dimensional data for datamining applications 1998

5. Agrawal R;Srikant R Fast algorithm for mining association rules in large databases 1994

6. Sheikholeslami G;Chatterjee S;Zhang A Wave cluster: a multiresolution clustering approach for verylarge spatial databases 1998

7. Wei Wang;Jiong Yang;Richard Muntz STING: A statistical information grid approach to spatial datamining 1997

8. Kaufman L;Rousseeuw P J Finding groups in data:an introduction to cluster analysis 19909. MacQueen J Some methods for classification and analysis of multivariate observations 196710. Gehrke J;Ramakrishnan R;Ganti V Rainforest a framework for fast decision tree construction oflarge datasets 1998

11. Han J;Kambr M Data mining:Concepts and techniques 2001

12. 李永敏;朱善君 基于粗糙理论的数据挖掘模型[期刊论文]-清华大学学报(自然科学版) 1999(01)13. Wang Li qiang;Tang Chang jie Dataminingon Web 1998(10)

14. WANG M;Iyer B;Vitter J S Scalable mining for classification rules in relational databases[外文会议] 1998

15. Liu B;Hsu W;Ma Y Integrating classification and association rule mining 1998

16. Shafer J C;Agrawal R;Mehta M SPRINT:A scalable parallel classifier for data mining 199617. Mehta M;Agrawal R;Rissanen J SLIQ: A fast scalable classifier for data mining 199618. Quinlan J R C4.5: Programs for machine learning 199319. Utgoff P E ID5: An incremental ID3 1988

20. Friedman N;Geiger D;Goldszmidt M Bayesian network classifier[外文期刊] 1997(01)

本文读者也读过(5条)

1. 郭海涛. 段礼祥. 闫春颖 数据挖掘方法综述[会议论文]-2009

2. 贺玲. 吴玲达. 蔡益朝. HE Ling. WU Ling-da. CAI Yi-chao 数据挖掘中的聚类算法综述[期刊论文]-计算机应用研究2007,24(1)

3. 王刚. 黄丽华. 张成洪. 夏洁. WANG Gang. HUANG Li-hua. ZHANG Cheng-hong. XIA Jie 数据挖掘分类算法研究综述[期刊论文]-科技导报2006,24(12)

4. 王立伟. Wang Liwei 数据挖掘研究现状综述[期刊论文]-图书与情报2008(5)5. 罗可. 林睦纲. 郗东妹 数据挖掘中分类算法综述[期刊论文]-计算机工程2005,31(1)

引证文献(33条)

1. 孙秀丽. 姜学永. 李明 关联规则研究及在中风诊治中的应用分析[期刊论文]-计算机技术与发展 2011(9)2. 任重 数据挖掘技术在保险购实行为分析中的应用[期刊论文]-科技信息 2011(22)3. 朱丰磊 Linux环境下IPv6分布式防火墙的探讨[期刊论文]-数字技术与应用 2010(6)

4. 周晶平 数据挖掘在银行分析型CRM系统应用中存在的问题与对策[期刊论文]-湖北大学学报(自然科学版)2010(1)

5. 刘俊. 刘希玉 关于数据挖掘中聚类分析的研究进展[期刊论文]-网络安全技术与应用 2010(8)6. 陈鹏 数据挖掘技术应用初探[期刊论文]-电脑知识与技术 2010(33)7. 张君枫 数据挖掘算法综述[期刊论文]-电脑学习 2010(4)

8. 冯晨. 张旭翔 数据挖掘技术及算法综述[期刊论文]-电脑知识与技术 2009(13)

9. 陈红坤. 黄娟 数据挖掘及其在电能质量分析中的应用[期刊论文]-电力系统及其自动化学报 2009(5)10. 张迎春 数据挖掘在现代教育中对考生等级考试成绩的分析应用[期刊论文]-南京工业职业技术学院学报2009(2)

11. 王冠. 王静 数据挖掘技术在高校招生工作中的应用[期刊论文]-福建电脑 2008(6)12. 范方 数据挖掘技术在CRM中的分析应用[期刊论文]-大众科技 2008(7)

13. 张革佚. 徐琪. 宋新平 基于商务智能的服装供应链广义快速响应系统[期刊论文]-纺织学报 2008(12)14. 董宁 数据挖掘技术在CRM中的应用[期刊论文]-计算机工程与设计 2007(6)15. 商锦博 探索数据挖掘在保险公司中的应用[期刊论文]-商场现代化 2007(19)

16. 高巨山. 郭健 数据挖掘技术在教育信息化中的应用研究[期刊论文]-中国教育信息化·高教职教 2007(9)17. 顾庆锋. 宋顺林 Apriori算法在SQL中的改进与应用[期刊论文]-计算机工程与设计 2007(13)18. 马瑞民. 李向云 Web日志挖掘中数据预处理技术的研究[期刊论文]-计算机工程与设计 2007(10)19. 申丽君. 孟凡荣 基于XML的Web文本挖掘模型的研究与设计[期刊论文]-计算机工程与设计 2007(10)20. 李双虎. 张风海 一个新的聚类有效性分析指标[期刊论文]-计算机工程与设计 2007(8)21. 陶再平 序列模式增量式更新的研究[期刊论文]-计算机工程与设计 2007(7)

22. 李幸丽. 杜培军. 孙敦新. 承达瑜 面向电子政务的数据挖掘系统分析与设计[期刊论文]-计算机工程与设计2007(3)

23. 许少华. 李小红. 潘俊辉 基于模糊VSM和RBF网络的文本分类方法[期刊论文]-计算机工程与设计 2007(1)24. 陈永府. 杨小献. 黄正东. 陈立平 基于规则的数据收集研究[期刊论文]-计算机工程与设计 2007(1)

25. 冯雪梅. 卢来洁. 马爱军. 刘洪英 应用数据挖掘关联技术研究温湿度对冲击谱试验的影响[期刊论文]-航天器环境工程 2007(2)

26. 陈峰 基于聚类的增量数据挖掘研究[学位论文]硕士 2007

27. 张红霞 缺失值填充:基于信息增益的方法[期刊论文]-计算机工程与设计 2006(24)

28. 王旅. 彭宏. 胡劲松 基于判定树归纳分类的土质分类定名方法[期刊论文]-计算机工程与设计 2006(11)29. 林亚丽 数据挖掘技术在纳税评估系统中的研究与应用[学位论文]硕士 200630. 施亚明 数据挖掘在信用卡客户细分与目标营销方面的应用研究[学位论文]硕士 2006

31. 卢金秋 数据挖掘中的人工神经网络算法及应用研究[学位论文]硕士 200532. 田野 数据挖掘技术在接触网检测数据处理中的应用[学位论文]硕士 2005

33. 刘俊. 刘希玉 关于数据挖掘中聚类分析的研究进展[期刊论文]-网络安全技术与应用 2010(8)

本文链接:http://d.g.wanfangdata.com.cn/Periodical_jsjgcysj200509014.aspx

第26卷第9期

V01.26

No.9

计算机工程与设计

ComputerEngineeringandDesign

2005年9月

Sept.2005

数据挖掘算法研究与综述

邹志文,

朱金伟

(江苏大学计算机学院,江苏镇江212013)

摘要:数据挖掘方法结合了机器学习、模式识别、统计学、数据库和人工智能等众多领域的知识,是解决从大量信息中获取有甩知识、提供决策支持的有效途径,具有广泛的应用前景。以关联、分类、聚类归类,对当前数据挖掘的多种方法进行了研究,并指出其现存的问题。这些方法都有局限性,多方法融合、有机组合互补将成为数据挖掘的发展趋势。

关键词:数据挖掘;分类算法;关联分析;分类分析;聚类分析中图法分类号:TP301.6

文献标识码:A

文章编号:1000.7024(2005)09.2304.04

Researchandsummaryofdataminingalgorithms

ZOUZhi.wen.

ZHUJin.wei

(CollegeofComputer,JiangsuUniversity,Zhenjiang212013,China)

Abstract:DataMiningintegrateswithknowledgeofnumerousfieldssuch

as

machinelearning,paaemrecognition,statistics,database

andartificialintelligence.Itisaneffectiveapproachtofetchusefulinformationfromlargedatabaseandofferdecisionsupport.Thereis

broadapplicationforegroundofdatamining.Manylatestmethodsrangebyassociation,classificationandclusteringindatamining

theirremainingproblemswerediscussed.As

WaSresearched,and

whole,allthesealgorithmshavetheirownlimitations,andorganically

combiningseveralmethodswillbethedevelopmenttrendfordatamining.

Keywords:datamining;classificationalgorithm;associationanalysis;classificationanalysis;clusteringanalysis

1引

规则一般表示式为:A。八A2^…A=-->B。八B:八…Bm,其中,丸

(k=1,2,…,m),Bj(j=I,2,…,n)是数据库中的数据项,且有Sup-port(A=>B)=P(AUB),Confidence(A=>B)=P(AlB)数据项之间的关联,即根据一个事务中某些数据项的出现可以导出另一些数据项在同一事务中的出现。在关联规则挖掘法的研究中,算法的效率是核心问题,如何提高算法的效率是所要解决的关键。

2.1

随着信息化的到来,各类数据急剧膨胀,面对海量的存储数据,如何从中发现有价值的信息或知识是一项非常艰巨的任务。数据挖掘就是为了满足这种要求而迅速发展起来的。数据挖掘是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程Ⅲ。数据挖掘以机器学习、模式识别、统计学、数据库和人工智能等众多学科为基础,是目前国际上数据库和信息决策系统最前沿的研究方向之一,己引起了学术界和工业界的广泛关注。与此同时,各种数据挖掘算法纷纷出现,本文就目前有一定影响力的算法按基于关联、分类、聚类分别进行分析、评述,并指出了这一领域可能的发展方向。

Apriori算法

在关联分析中经典算法是R.Agrawal等人提出的Apriofi

算法Ⅲ,这是一种很有影响力的挖掘关联规则频繁项集的算法,它探查逐级挖掘Apfiofi性质:频繁项集的所有非空子集都必须是频繁的。根据频繁k.项集,形成频繁(k+1).项集候选,并扫描数据库1次,完成第k次迭代(k>1),找出完整的频繁(k+1)一项集Lk+-。

Apfiofi算法的优点是简单易懂;但同时也存在以下两方

2关联分析

R.Agrawal等人首先提出了关联规则挖掘问题。关联规则是数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多个域问的依赖关系。关联规则挖掘对象一般是大型数据库(TransactionalDatabase),该收稿日期:2005.03—12。

基金项目:国家863高技术研究发展基金项目(2002AA412020)。

面的不足:①当事务数据库中的频繁1.项集的数目叫比较大

时,由频繁1.项集产生的候选2一项集C:就非常大,C:由吼。]个

2一项集组成;②为了由Ct产生Lk,需要重复扫描数据库中的事务并计算候选项集Ck中每个候选项集支持度,因而当事务数据库中的事务个数很大时,扫描数据库的开销将变得很大。

作者简介:邹志文(1968一),男,江西抚州人,硕士,讲师,研究方向为webgis和数据挖掘;

方向为数据挖掘。・——2304-——

朱金伟(1981一),男,浙江永康人,硕士,研究

万方数据 

2.2

AprioriTid算法

为了提高Apriori算法的有效性,.目前已经提出了许多

Apriori变形,旨在提高原算法的效率,在文献[2]中提出了Apri.oriTid算法。

从AprioriTid算法寻找频繁项集的思路中,可知道该算法的优点:即仅在第1次扫描时用事务数据库D计算候选频繁项集的支持度,其它各次扫描用其上一次扫描生成的候选事

务数据库D’来计算候选频繁项集的支持度。如此将减少对数

据库的扫描次数,在一定情况下能迅速削减候选频繁项集。

即使进行了优化,但是AprioriTid方法一些固有的缺陷还是无法克服:①可能产生大量的候选集。当长度为1的频集有10000个的时候,长度为2的候选集个数将会超过10M。还有就是如果要生成一个很长的规则的时候,要产生的中间元素也是巨大量的;②可能需要重复扫描数据库,通过模式匹配检查一个很大的候选集;③无法对稀有信息进行分析。

2.3

FP.growth算法

为了解决这些问题文献【3]中采用了一种叫FP.growth的

方法。它采取了分治策略:首先,构造频繁模式树FP.树,根据事务数据库及设定的最小支持度阀值,将包含频繁项集的数据库压缩到FP.树上;其次,在FP-树上进行频繁模式的挖掘,FP.树的挖掘进行如下,由长度为1的频繁模式(初始后缀模式)开始,构造它的条件模式基(FP.树中和后缀模式一起出现的前缀路径集),然后构造条件模式基的FP.树,即模式树的增长,并递归地在FP.树上进行挖掘。

这种方法对于挖掘长的和短的频繁模式,都是有效和可以伸缩的,并比Apriori方法快了1个数量级;但是当数据库很大时,构造基于内存的FP—tree不太现实。

3分类

分类分析是通过分析训练集中的数据,为每个类别做出

准确的描述或建立分析模型或挖掘出分类规则,以便以后厢

这个分类规则对其它数据库中的记录进行分类的方法。

3.1决策树法

决策树归纳学习算法以其易于提取显式规则、计算量相

对较小、可以显示重要的决策属性和较高的分类准确率等优

点而得到广泛的应用。决策树根据不同的特征,以树型结构表示分类或决策集合,产生规则和发现规律。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理。

3.1.1

ID3算法

Quinlan在文献[4】中提出了著名的ID3算法,借用信息论

中的互信息(信息增益)作为单一属性分辨能力的度量,试图减少树的平均深度,忽略了叶子数目的研究。ID3的1个优点是:它的建树时间和任务的困难度(如样本集样本个数,每个样本的属性个数,研究概念的复杂程度即决策树的节点数)呈线性递增关系,计算量相对较小。但存在的主要间题有:①互信息的计算依赖于属性取值的数目较多的特征,而属性取值较多的属性不一定最优:②ID3是非递增学习算法;③抗噪性差,训练例子中正例和反例较难控制。

Schimmer和Fisher在文献[5】中设计了ID4递增式算法,通过修改ID3算法,在每个可能的决策树结点创建一系列表,

万 

方数据每个表由未检测属性值及其示例组成,当处理新例时,每个属性值的正例和反例递增计量。

在ID4的基础上,Utgoff在文献[6】中提出了ID5算法,它抛弃了旧的检测属性下面的子树,从下面选择属性构造树。

3.1.2

C4.5算法

文献[7】提出了C4.5算法,对类ID3算法进行了改进,提高

了算法的效率。尽管如此,C4.5算法仍然有如下的缺点:首先,在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效;其次,C4.5只适合于能够驻留于内存的数据集使用,当训练集大得无法在内存容纳时程序无法运行。

3.1.3

SLIQ算法

文献[8】提出了SLIQ算法,使用gini指标(giniindex)代替

信息量(Information),对数据集包含n个类的数据集S,gini(S)定义为:gini(S)=1一Y.pj+PJ,PJ是S中第J类数据的频率,gini越小,InformtionGain越大。

由于算法采用了“预排序”和“广度优先”这两种技术使得该算法能够处理比CA.5所能处理的大得多的训练集,因此在一定程度上具有良好的随记录个数和属性个数增长的可扩展性。然而它仍然存在如下缺点:①由于需要将类别列表存放于内存,而类别列表的长度与训练集的长度是相同的,这就在一定程度上限制了可以处理的数据集的大小;②由于采用了预排序技术,而排序算法的复杂度本身并不是与记录个数成线性关系,因此使得SLIQ算法不可能达到随记录数目增长的线性可扩展性。

3.1.4

SPRINT算法

为了减少需要驻留于内存的数据量,文献[9】提出了

SPRINT算法,进一步改进了决策树算法实现时的数据结构,去掉在SLIQ中需要驻留于内存的类别列表,将它的类别列合并到每个属性列表中。

其优点是:在寻找每个结点的最优分裂标准时变得相对简单一些。但是其缺点是:对非分裂属性的属性列表进行分裂变得很困难。解决的办法是对分裂属性进行分裂时用哈希表记录下每个记录属于哪个孩子结点,若内存能够容纳下整个哈希表,其它属性列表的分裂只需参照该哈希表即可。

3.1.5

RainForest算法框架

在过去的研究提出的多种决策树算法中,到目前为止还

没有一种算法在任何数据集合下生成决策树的质量方面能超过所有其它的算法。文献【10]提出了RainForest算法框架,该框架关注于提高决策树算法的伸缩性,该框架可运用于大多数决策树算法(例如Spnnt和SLIQ),使算法获得的结果与将全部的数据放置于内存所得到的结果一致,但是在运行时可以使用较少的内存。生成的决策树的质量取决于具体的决策树算法,与本框架无关。因此,在内存~定的情况下,可以更好地满足算法的需求。

3.2

Bayes分类算法

Bayes分类算法是利用概率统计知识进行分类的算法,主

要利用Bayes定理来预测1个未知类别的样本属于各个类别的可能性,选择其中可能性最大的1个类别作为该样本的最终类别。由于贝叶斯定理的成立本身需要一个很强的独立性假设前提,而此假设在实际情况中经常是不成立的,因而其分类准确性就会下降。较有代表性的算法是NB算法“”,还有降

-——2305・——

低独立性假设的TAN(treeaugmented

Bayesnetwork)算法“”。3.3

cBA(Classification

Basedon

Association)算法

CBA算法“21是基于关联规则发现方法的分类算法。该算法分两个步骤构造分类器:第1步,发现所有的右部为类别的类别关联规,贝lJ(classificationassociationrules,简称CAR);第2步,从已发现的CAR中选择高优先度的规则来覆盖训练集。

CBA算法的优点是:其分类准确度较高,因为它发现的规则相对较全面。但是,当最小支持度被设为0时,产生的频繁集有时多得在内存无法容纳,从而会使程序无法继续运行。

3.4

MIND(MininginDatabase)算法

MIND算法“”是采用数据库中用户定义的函数(user-defin.

edfunction,简称UDF)来实现发现分类规则的算法。该算法的优点是:通过采用UDF实现决策树的构造过程使得分类算法易于与数据库系统集成。该算法的缺点是:算法采用UDF完成主要的计算任务,而UDF一般是由用户利用高级语言实现的,无法使用数据库系统提供的查询处理机制,无法利用查询优化方法,且UDF的编写和维护相当复杂。另外MIND中用SQL语句实现的那部分功能本身就是比较简单的操作,而采用SQL实现的方法却显得相当复杂。

3.5神经网络

神经网络是由大量的简单神经元,通过极其丰富和完善的连接而构成的自适应非线性动态系统,并具有分布存储、联想记忆、大规模并行处理、自组织、自学习、自适应等功能。在数据挖掘领域,主要采用前向神经网络“”提取分类规则。

其最大的缺点是“黑箱钆陛,人们难以理解网络的学习和决策过程。通常有两种解决方案:①建立一个基于规则的系统辅助;②直接从训练好的网络中提取规则。

3.6粗集理论

粗集理论“”的特点是不需要预先给定某些特征或属性的数量描述,如统计学中的概率分布、模糊集理论中的隶属度或

隶属函数等,而是直接从给定问题出发,通过不可分辨关系和

不可分辨类确定问题的近似域,从而找出问题中的内在规律。粗集理论同模糊集、神经网络、证据理论等其它理论均成为不确定性计算的一个重要分支。在数据挖掘领域,粗集方法广泛应用于不精确、不确定、不完全的信息的分类和知识获取。

粗集的数学基础是集合论,难以直接处理连续的属性。而现实决策表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点之一。目前比较有代表性的监督离散化方法有以下几种:(至)Holte提出了一种贪婪的单规则离散器(oneruledi鲥℃血神方法;②统计检验方法;③信息熵方法等。

以上几种方法各有特点,但都存在1个不足:每个属性的离散化过程是相互独立的,忽略了属性之间的关联,从而使得离散的结果中含有冗余或不合理的分割点。

3.7遗传算法

遗传算法是模拟生物进化过程,利用复制(选择)、交叉(重组)和变异(突变)3个基本算子优化求解的技术。遗传算法类似统计学,模型的形式必须预先确定,在算法实施的过程中,首先对求解的问题进行编码,产生初始群体,然后计算个体的适应度,再进行染色体的复制、交换、突变等操作,优胜劣汰,适者生存,直到最佳方案出现为止。

-——2306・——

万 

方数据在数据挖掘领域,遗传算法的作用表现在以下几个方面:①和神经网络、粗集等技术的结合。如用遗传算法和B

算法结合训练神经网络,然后从网络提取规则。实践证明这是一种有效的方法;②分类系统的设计。遗传算法用于分类器始于20世纪80年代初。90年代后,遗传算法用于分类系统的理论得到广泛的研究和应用。

遗传算法具有计算简单、优化效果好的特点,它在处理组合优化问题方面也有一定的优势。但还存在以下问题:算法较复杂,收敛于局部极小的过早收敛等难题未得到彻底解决。

4聚类分析

聚类分析与分类不同,聚类分析处理的数据对象的类是未知的。聚类分析就是将对象集合分组为由类似的对象组成的多个簇的过程。

4.1

Ipartitioning

method(划分方法)

给定1个N个对象或者元组的数据库,1个划分方法构建数据的K个划分,每1个划分表示1个聚簇,并且K<N。

经典算法有K.MEAN(K平均值)[161K-MEDOIDS(K中心点)o”,而且这些算法已经被加入到许多统计分析软件包或系统中,例如SAS、SPSS。

4.2

hierarchicalmethod(层次方法)

层次方法对给定数据对象集合进行层次的分解。根据分解的形成不同,层次方法可以分为凝聚的层次方法和分裂的层次方法。

层次方法存在着缺陷:一旦1个步骤完成,它就不能被撤消,这样它就不能更正错误的决定。有两种方法可改进层次聚类的结果;第1,使用CU爪.E和变色龙方法中的做法,在每个层次划分时,仔细分析对象之间的联接;第2,综合层次凝聚和迭代的重定位方法,首先用凝聚的自底向上的分析算法,然后进行迭代的重定位来改进结果,BIRTH中用的就是这种算法。

4.3

grid.based

method(基于网格的方法)

这种方法采用一个多分辨率的网格数据结构。将空间量化为有限数目的单元,这些单元形成了网格结构,所有聚类分析都在网格上进行。这种方法主要优点是:处理速度快,它的处理时间仅依赖于量化空间中每一维上的单元数目,却独立于数据的数目。常用的算法有STING"SkWAVECLUSTER【”1和CLIQUE洲。

4.4其它基于模型的聚类分析方法

主要有统计学和神经网络方面的方法。

5结论

随着数据量的日益积累以及数据库种类的多样化,数据挖掘的应用前景相当广阔。本文对各类算法进行了分析、比较和总结。总而言之,各种数据挖掘方法作用范围有限,都有局限性,因此采用单一方法难以得到决策所需的各种知识。但它们的有机组合具有互补性,多方法融合将成为数据挖掘算法的发展趋势。

参考文献:

[1】HartJ,KambrM.Datamining:Concepts

and

techniques[M].

BeijingHigherEducationPress,2001.1-3.

[12】Liu

B,Hsu

W,MaY

Integrating

classificationandassociation

[2】Agrawal

R,SrikantR.Fastalgorithmforminingassociationru-

rule

mining[A].Procofthe4thintconfonknowle-dge

discovery

lesinlargedatabases[A】.The

InternationalConferenceon

very

anddataMining[C].NY9USA:AAAIPress,1998.80-86.LargeDataBases【C】.1994.487-499.[13】WANGM,IyerB,Vitter

S.Scalableminingforclassification

【3】Han

J,PeiJ,Yin

Y.Mingfrequentpatternswithoutcandidaterulesinrelationaldatabases[A].EaglestoneB,DesaiBC,SHAOgeneration[A].InProc.2000ACM-SIGMODInt.Con£Manage—

Jianlma.Procofthe1998Intdatabaseengandapplsyrup[C].

ment

ofData(SIGMOD’oo)[c】.Dallas,TX,2000.1—12.

Cardiff,Wales,UK:IEEEComputerSociety,1998.58-67.

【4】

Quinlan

JR.Inductionofdecision

trees[J】.Machine

Learning,

【14】Wang

Li

qiang,TangChangjie.Dataminingonw曲[J】.Computer

1986,(1):81—106.Applications,1998,18(10):912.

【5】

SchlimmerJC,FisherD.A

case

studyof

incrementalconcept【15】李永敏,朱善君.基于粗糙理论的数据挖掘模型[J】.清华大学学

induction[A].InProceedingsofAAAI一86[C].1986.报(自然科学版),1999,39(1):110.113.

(6】Utgoff

PE.ID5:An

incrementalID3[A】.InProceedingsof

【16】MacQueenJ.Somemethodsforclassificationand

analysis

of

ICML-88[C].SanMateo,CA,1988.multivariateobservations[A】.Proc5thberkeleysymp.math

sta-

【7】

Quinlan

R.C4.5:Programsformachinelearning[M].SanMa-

tist[C].Prob,1967.01.teo,California:MorganKaufmann,1993.[17】Kaufman

L,RousseeuwPJ.Findinggroupsindata:anintroduc—

[8】

MehtaM,AgrawalRRissanenJ.SLIQ:Afastscalableclassifi-

tion

to

cluster

analysis[M].JohnWileyand

Sons,1990.

er

fordata

mining[A].Lecture

notesin

computersciProcofthe【18】WeiWang,JiongYang,RichardMuntz.STING:A

statisticalin—

5thimconf

on

extending

databaseTech[C].Avignon,France,formationgridapproachtospatialdatamining[A].Twenty-third

1996.18.33.

internationalconference

on

verylargedatabases[C],1997.

[9】ShaferJC,AgrawalR,MehtaM.SPRINT:Ascalableparallel[19】SheikholeslamiG,ChatterjeeS,ZhangA.Wave

cluster:amulti-

classifier

fordatamining[A】.Procofthe22ndIntconfonvery—

resolutionclusteringapproach

forverylargespatialdatabases

largedatabases[C].Mumbai(Bombay),India,1996.

[A】.Proc.Int.Conf.onvery

largedatabases[C].NewYork,NY9

[10】GehrkeJ,Ramakrishnan

R,Ganti

VRainforest

frameworkfor

1998.428.439.

fastdecisiontreeconstructionoflargedatasets[A】.InVLDB[C].

[20】AgrawalR,GehrkeJ,Gunopulos

D.Automaticsubspaceclus-

1998.

teringofhigh

dimensionaldatafordataminingapplications[A】.

【11】FriedmanN,Geiger

D,GoldszmidtM.Bayesiannetworkclassi-

Proc.ACMSIGMODint.coneonmanagementofdata[C].Seat.tier[J】.Machine

earning,1997,29(1):131—163.

tle,WA.1998.94.105.

(上接第2281页)

3.3

SDG自动建模策略

构、动态行为、实现构造、模型组织管理、可扩展性等方面有优由于实际系统都有比较完备的系统工艺流程图(Process

秀的表现。对于SDG(HAZOP)模型自动建立领域的空白来FlowDiagram简称PFD)。通过工艺流程图,业主、建筑设计者、讲,UML方法的引入无论是为SDG(HAzOP)模型的自动建模操作人员、全权评价人员和其他人员可以快速了解系统信息策略研究还是为SDG自动建模软件平台的后续开发都树立如设备位置容量、流量、进出口流体温度、泵的数据、系统压力了良好的开端。

等及系统价值、潜在问题等。

SDG自动建模策略的提出是为了后续可以建立自动建模参考文献:

软件平台,以及和已经有的SDG推理软件连接以改善目前计[1】

张贝克,夏涛,吴重光.集成化SDG建模、推理与信息处理软件算机在工程领域中使用缺乏连贯性的弱点,大力提高计算机平台[J].系统仿真学报,2003,15(10):1360-1363.的使用效率。通过考虑实效性、可扩展性、精确度,拟定采用[2】

姚淑珍,唐发根.UML参考手册[M】.北京:机械工业出版社,

基于流程的方法,辅助专家经验,使用面向对象的策略和模块2001.

化思想进行SDG自动建模策略研究。

[3】李安峰,夏涛,张贝克,等.化工过程SDG建模方法[J】.系统仿真4结论

学报,2003,15(10):1364-1368.

[4】KletzTHazop.Identifying

and

assessingprocess

industryha—

综上所述,UML的特色和sDG(HAz0P)模型的自身特点zards[M】.ThirdEdition.Rugby,WarwickshireCV213HQ,UK:

决定了UML的很多理念对研究SDG(HAZOP)模型自动建立InstitutionofChemicalEngineers,1992.

策略有不少借鉴价值。

[5】Lapp

SA,PowersG

J.Computer-aidedsynthesisoffaulttrees

UML严谨的定义、面向对象的方法、图形化的表示、软件【J】.IEEETransReliability,1977,26(4):2-13.

内部的无缝连接、增量式开发思路、UML本身的扩展机制对[6】HiranmayeeVedam,VenkatVenkatasubramanian.Signed

digraph

于SDG自动建模软件平台的分析设计都是比较理想的选择。based

multiplefaultdiagnosis【J】.ComputersChem,1997,21:

使用UML方法分析设计该软件平台,可以使该平台从静态结

655.660.

万 

方数据・——2307-——

数据挖掘算法研究与综述

作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:

邹志文, 朱金伟, ZOU Zhi-wen, ZHU Jin-wei江苏大学,计算机学院,江苏,镇江,212013计算机工程与设计

COMPUTER ENGINEERING AND DESIGN2005,26(9)32次

参考文献(20条)

1. Schlimmer J C;Fisher D A case study of incremental concept induction 19862. Quinlan J R Induction of decision trees 1986(01)

3. Han J;Pei J;Yin Y Ming frequent patterns without candidate generation 2000

4. Agrawal R;Gehrke J;Gunopulos D Automatic subspace clustering of high dimensional data for datamining applications 1998

5. Agrawal R;Srikant R Fast algorithm for mining association rules in large databases 1994

6. Sheikholeslami G;Chatterjee S;Zhang A Wave cluster: a multiresolution clustering approach for verylarge spatial databases 1998

7. Wei Wang;Jiong Yang;Richard Muntz STING: A statistical information grid approach to spatial datamining 1997

8. Kaufman L;Rousseeuw P J Finding groups in data:an introduction to cluster analysis 19909. MacQueen J Some methods for classification and analysis of multivariate observations 196710. Gehrke J;Ramakrishnan R;Ganti V Rainforest a framework for fast decision tree construction oflarge datasets 1998

11. Han J;Kambr M Data mining:Concepts and techniques 2001

12. 李永敏;朱善君 基于粗糙理论的数据挖掘模型[期刊论文]-清华大学学报(自然科学版) 1999(01)13. Wang Li qiang;Tang Chang jie Dataminingon Web 1998(10)

14. WANG M;Iyer B;Vitter J S Scalable mining for classification rules in relational databases[外文会议] 1998

15. Liu B;Hsu W;Ma Y Integrating classification and association rule mining 1998

16. Shafer J C;Agrawal R;Mehta M SPRINT:A scalable parallel classifier for data mining 199617. Mehta M;Agrawal R;Rissanen J SLIQ: A fast scalable classifier for data mining 199618. Quinlan J R C4.5: Programs for machine learning 199319. Utgoff P E ID5: An incremental ID3 1988

20. Friedman N;Geiger D;Goldszmidt M Bayesian network classifier[外文期刊] 1997(01)

本文读者也读过(5条)

1. 郭海涛. 段礼祥. 闫春颖 数据挖掘方法综述[会议论文]-2009

2. 贺玲. 吴玲达. 蔡益朝. HE Ling. WU Ling-da. CAI Yi-chao 数据挖掘中的聚类算法综述[期刊论文]-计算机应用研究2007,24(1)

3. 王刚. 黄丽华. 张成洪. 夏洁. WANG Gang. HUANG Li-hua. ZHANG Cheng-hong. XIA Jie 数据挖掘分类算法研究综述[期刊论文]-科技导报2006,24(12)

4. 王立伟. Wang Liwei 数据挖掘研究现状综述[期刊论文]-图书与情报2008(5)5. 罗可. 林睦纲. 郗东妹 数据挖掘中分类算法综述[期刊论文]-计算机工程2005,31(1)

引证文献(33条)

1. 孙秀丽. 姜学永. 李明 关联规则研究及在中风诊治中的应用分析[期刊论文]-计算机技术与发展 2011(9)2. 任重 数据挖掘技术在保险购实行为分析中的应用[期刊论文]-科技信息 2011(22)3. 朱丰磊 Linux环境下IPv6分布式防火墙的探讨[期刊论文]-数字技术与应用 2010(6)

4. 周晶平 数据挖掘在银行分析型CRM系统应用中存在的问题与对策[期刊论文]-湖北大学学报(自然科学版)2010(1)

5. 刘俊. 刘希玉 关于数据挖掘中聚类分析的研究进展[期刊论文]-网络安全技术与应用 2010(8)6. 陈鹏 数据挖掘技术应用初探[期刊论文]-电脑知识与技术 2010(33)7. 张君枫 数据挖掘算法综述[期刊论文]-电脑学习 2010(4)

8. 冯晨. 张旭翔 数据挖掘技术及算法综述[期刊论文]-电脑知识与技术 2009(13)

9. 陈红坤. 黄娟 数据挖掘及其在电能质量分析中的应用[期刊论文]-电力系统及其自动化学报 2009(5)10. 张迎春 数据挖掘在现代教育中对考生等级考试成绩的分析应用[期刊论文]-南京工业职业技术学院学报2009(2)

11. 王冠. 王静 数据挖掘技术在高校招生工作中的应用[期刊论文]-福建电脑 2008(6)12. 范方 数据挖掘技术在CRM中的分析应用[期刊论文]-大众科技 2008(7)

13. 张革佚. 徐琪. 宋新平 基于商务智能的服装供应链广义快速响应系统[期刊论文]-纺织学报 2008(12)14. 董宁 数据挖掘技术在CRM中的应用[期刊论文]-计算机工程与设计 2007(6)15. 商锦博 探索数据挖掘在保险公司中的应用[期刊论文]-商场现代化 2007(19)

16. 高巨山. 郭健 数据挖掘技术在教育信息化中的应用研究[期刊论文]-中国教育信息化·高教职教 2007(9)17. 顾庆锋. 宋顺林 Apriori算法在SQL中的改进与应用[期刊论文]-计算机工程与设计 2007(13)18. 马瑞民. 李向云 Web日志挖掘中数据预处理技术的研究[期刊论文]-计算机工程与设计 2007(10)19. 申丽君. 孟凡荣 基于XML的Web文本挖掘模型的研究与设计[期刊论文]-计算机工程与设计 2007(10)20. 李双虎. 张风海 一个新的聚类有效性分析指标[期刊论文]-计算机工程与设计 2007(8)21. 陶再平 序列模式增量式更新的研究[期刊论文]-计算机工程与设计 2007(7)

22. 李幸丽. 杜培军. 孙敦新. 承达瑜 面向电子政务的数据挖掘系统分析与设计[期刊论文]-计算机工程与设计2007(3)

23. 许少华. 李小红. 潘俊辉 基于模糊VSM和RBF网络的文本分类方法[期刊论文]-计算机工程与设计 2007(1)24. 陈永府. 杨小献. 黄正东. 陈立平 基于规则的数据收集研究[期刊论文]-计算机工程与设计 2007(1)

25. 冯雪梅. 卢来洁. 马爱军. 刘洪英 应用数据挖掘关联技术研究温湿度对冲击谱试验的影响[期刊论文]-航天器环境工程 2007(2)

26. 陈峰 基于聚类的增量数据挖掘研究[学位论文]硕士 2007

27. 张红霞 缺失值填充:基于信息增益的方法[期刊论文]-计算机工程与设计 2006(24)

28. 王旅. 彭宏. 胡劲松 基于判定树归纳分类的土质分类定名方法[期刊论文]-计算机工程与设计 2006(11)29. 林亚丽 数据挖掘技术在纳税评估系统中的研究与应用[学位论文]硕士 200630. 施亚明 数据挖掘在信用卡客户细分与目标营销方面的应用研究[学位论文]硕士 2006

31. 卢金秋 数据挖掘中的人工神经网络算法及应用研究[学位论文]硕士 200532. 田野 数据挖掘技术在接触网检测数据处理中的应用[学位论文]硕士 2005

33. 刘俊. 刘希玉 关于数据挖掘中聚类分析的研究进展[期刊论文]-网络安全技术与应用 2010(8)

本文链接:http://d.g.wanfangdata.com.cn/Periodical_jsjgcysj200509014.aspx


相关文章

  • 网络加密文献综述
  • 网络加密技术文献综述 摘要:网络加密作为互联网时代的必需品之一,与人们的生活越来越密切,本文从网络加密的概念出发,对网络加密技术的基本算法以及基于这些基本算法而不断演进的加密技术进行了综述,最后对网络加密技术的在电子商务和VPN中的应用做了 ...查看


  • 文献综述--IP网络中单速率多播拥塞控制算法研究
  • 文献综述 毕业设计题目: IP 网络中单速率多播拥塞控制 IP 网络中单速率多播拥塞控制算法研究 一. 引言 今天,因特网应用,如网络视频会议.网络音频/视频广播.AOD /VOD .数据分发.多媒体远程教育.在线信息恢复.软件或代理缓存更 ...查看


  • 基于关联分析的网络数据可视化技术研究综述
  • 第42卷第6A期 2015年6月 计算机科学 Computer Science V01.42No.6A June2015 '基于关联分析的网络数据可视化技术研究综述 孙秋年饶元 (西安交通大学软件学院 摘要 西安710054) 当今万维网. ...查看


  • 室内自主移动机器人定位方法研究综述
  • 第 卷第 期 年 月 机器人 × ∂ √ 文章编号 2 2 2 室内自主移动机器人定位方法研究综述 李群明 熊蓉 褚健 浙江大学工业控制技术国家重点实验室 浙江杭州 Ξ 摘 要 定位是确定机器人在其作业环境中所处位置的过程 应用传感器感知信 ...查看


  • 蛋白质相互作用网络的几种聚类方法综述
  • 国 防 科 技 大 学 学 报 第31卷第4期 JOURNALOFNATIONALUNIVERSITYOFDEFENSETECHNOLOGY 文章编号:1001-2486(2009)04-0081-06Vol.31No.42009 蛋白质相 ...查看


  • 遗传算法原理与发展方向综述
  • 信息科学 遗传算法原理与发展方向综述 赵宜鹏 孟磊 彭承靖 (云南民族大学数计学院,云南昆明650031) 摘 要:遗传算法是一种基于生物自然选择与遗传机理的随机搜索与优化方法,近年来, 由于遗传算法求解复杂优化问题的巨大潜力及其在工 业工 ...查看


  • 室内定位技术及应用综述_赵锐
  • 专题综述 2014年第27卷第3期 Electronic Sci. &Tech. /Mar.15,2014 室内定位技术及应用综述 赵 摘 要 1 锐,钟 22 榜,朱祖礼,马 22乐,姚金飞 (1. 军事交通学院基础部,天津300 ...查看


  • 万维网的链接结构分析及其应用综述
  • 1000-9825/2003/14(10)17682003 Journal of Software 软 件 学 报Vol.14, No.10万维网的链接结构分析及其应用综述 王晓宇, 周傲英+ (复旦大学 计算机科学与工程系,上海 2004 ...查看


  • 中国农业大学数学专业多标签分类问题的解法综述
  • 多标签分类问题的解法综述 1.前言 1.1 分类问题 分类问题是模式识别的核心研究内容,其目的是通过对己知标签数据集的学习设计一个分类器,然后用该分类器来预测新样本的标签.按照样本所属标签个数,分类问题可以分为单标签分类问题和多标签分类问题 ...查看


热门内容