数据挖掘在中国的现状和发展研究

管  理  工  程  学  报

Vol . 18, No . 3

Journal of Industrial Engineering Engineering Management

2004年第3期

数据挖掘在中国的现状和发展研究

李菁菁, 邵培基, 黄亦潇

(电子科技大学管理学院, 成都610054)

摘要:数据挖掘是人工智能和数据库研究的新兴领域, 近年来, 数据挖掘技术的理论与应用研究发展迅速, 并引起了国内外研究人员的重视。本文以科学引文索引数据库(SCI ) 、工程索引数据库(EI ) 以及清华全文数据库(CNKI ) 中有关“数据挖掘”研究文章的统计数据为研究基础, 对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展, 并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。

关键词:数据挖掘; 趋势; 统计

中图分类号:C812  文献标识码:A   文章编号:1004-6062(2004) 03-0010-06

之一[2]; 生物学研究中用数据挖掘技术对DNA 进行分析[3];

0 引言

近年来, 随着计算机对数据的生成、收集、存贮和处理能力的大大提高, 数据量与日俱增, 传统的数据分析工具对海量数据的处理力不从心, 数据挖掘技术应运而生。

中国科研工作者近几年来积极开展了对数据挖掘的研究, 并在理论研究和实际应用上取得了一定的成绩, 但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计, 对数据挖掘在中国发展的现状及发展趋势进行分析和研究, 通过分析有关论文的发表, 对数据挖掘在中国的理论研究和实际应用提出建议。

利用数据挖掘技术识别顾客的购买行为模式, 对客户进行了分析[4]; 对银行或商业上经常发生的诈骗行为进行预测[5], IB M 公司开发的AS (Advanced Scout ) 系统针对NBA 的数据, 帮助教练优化战术组合[6]等。

数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学以及管理信息系统等学科的成果。多学科的相互交融和相互促进, 使得数据挖掘这一新学科得以蓬勃发展。

2 数据挖掘在中国的研究趋势分析

1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议, 由于数据库中的数据被形象地比喻为矿床, 数据挖掘一词很快流传开来。1995年以来, 国外在数据挖掘和知识发现方面形成了热门研究方向, 其中发表论文比较集中的期刊如:《Data Mining and Knowledge Discovery 》(数据挖掘和知识发现) 、《Artificial Intelligence Review 》(人工智能评论) 等。

国内学者也对数据挖掘的理论和应用进行了许多研究。本文通过对发表论文的研究成果进行统计研究, 以分析数据挖掘的在中国的研究与应用, 这实质上也是一种数据挖掘思想的体现, 这个过程就类似于数据挖掘过程。

为了比较全面地反映中国在数据挖掘方面的研究成果及现状, 笔者分别对科学引文数据库(SCI ) 、工程索引数据库(EI ) 以及清华全文期刊数据库(CNKI ) 进行了检索, 检索内容为在中国期刊发表的相关文章以及被SCI 和EI 检索的中国有关数据挖掘方面的研究文章。这些检索的统计结果是本文研究分析的基础。

通过检索并对各年所发表的有关数据挖掘的文章进行分类归总, 可以得到表1的结果。

1 数据挖掘的应用与研究发展

数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程[1]。数据挖掘是一门新兴的边缘学科, 近年来引起了中国学术界和产业界的广泛关注。

数据挖掘出现于20世纪80年代后期, 90年代有了突飞猛进的发展。2001年, Gartner Group 的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首, 并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review ) 提出将在未来5年对人类产生重大影响的10大新兴技术, 其中第3项就是数据挖掘。

数据挖掘技术已被广泛的应用于各个领域, 其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的S KICAT 系统, 能够帮助天文学家发现遥远的类星体, 是人工智能技术在天文学和空间科学上的第一批成功应用

收稿日期:2002-11-04 修回日期:2003-02-16

作者简介:李菁菁(1975—) , 女, 四川安岳人, 电子科技大学管理学院博士生, 研究方向:信息管理、数据挖掘和决策支持等。

Vol . 18, No . 3

表1 有关“数据挖掘”的论文发表统计1994~1996

SCI EI CNKI

000

1997203

199801124

199921471

[1**********]

管 理 工 程 学 报

2004年第3期

面, 如对OLAP 、数据立方体等基本概念的介绍; 对SQL server

[1**********]

合计40118520

2000中提供的OLAP 的查询组件的使用等。3. 2 面向属性的归纳方法

1991年, Jiawei Han 等提出了面向属性的归纳方法

[10]

(Attribute -Oriented , AO ) , 这是一种有效的、完整的知识发现

算法, 算法的一个关键就是攀升属性所对应的概念层次树, 把原始数据集的数据泛化到用户感兴趣的概念层上, 减少数据集的大小, 从而降低知识发现过程的计算复杂度。

国内对面向属性的归纳方法的研究比较少, 研究内容主要集中在以下三方面:

1) 对面向属性的归纳方法进行改进。通过引入记录阈值的概念, 利用属性阈值和记录阈值同时进行控制, 从而产生更好的效果[11]。

2) 减少扫描次数以提高算法效率。文献[12]提出了基于规则的面向属性知识发现的无回溯算法, 把背景知识理解为特殊的逻辑程序, 并把它的子句展开为完全归结子句, 再按用户要求, 定义并确定各属性的恰当层次, 各属性的多个值归纳为恰当层次中的值, 只需一遍扫描, 无需回溯。

3) 对概念层次进行研究。提出了概念层次的自动生成方法[13]。3. 3 关联规则

关联规则的挖掘最早是由R . Agrawal 等人于1993年提出。在关联规则算法的研究中, 生成所有的频繁项目集是核心问题。表2中有关关联规则的文章数量较多, 技术相对比较成熟, 是数据挖掘领域的重点研究方向之一。根据分析, 目前国内对关联规则的研究主要集中在以下3方面:

1) 提高原有算法的效率

在解决最大频繁项目集的生成问题上, 为了提高对空间

  通过对检索结果的分析, 可以得到以下4点结论:

1) 国内期刊正式发表有关数据挖掘的文章是在1997年, 共发表了3篇文章, 同年SCI 共检索了2篇中国的数据挖掘的研究文章, 在SCI 数据库能够检索到的国际上发表最早的有关数据挖掘的文章是在1993年, 这表明中国关于数据挖掘方面的研究在时间上与国际上差距并不大。

2) 国内发表的有关数据挖掘论文的数目近年来逐年快速上升, SCI 和EI 所检索的文章数目也在逐年快速增加, 这说明中国数据挖掘的研究近几年来迅速加强。

3) 对数据挖掘的研究可以大致分为两方面:理论研究和应用研究。理论研究正在逐步深入并与解决实际问题相结合。

4) 数据挖掘是一门应用性很强的学科, 数据挖掘应用的领域非常广阔, 几乎涉及到各个行业, 包括天文学、生物学、经济管理、金融、保险、电力、石油化工、地理地质等领域。这些应用的需求就更进一步地推动了理论研究的发展。

3 数据挖掘技术的研究

对数据挖掘的理论研究主要在以下六个方面:OLAP 技术、面向属性的归纳法、关联规则、分类和预测、聚类和与数据仓库的集成技术。有关研究成果见表2。

表2 有关数据挖掘技术统计表

理论研究领域OLAP 技术面向属性的归纳方法

关联规则分类和预测

聚类

与数据仓库集成技术

SCI 007730

EI 013118113

CNKI [1**********]7

和时间的利用效率, 对数据库的扫描次数进行了缩减, 由最初的两次扫描减少为一次就可以生成最大频繁集, 提高了算法的效率[14]。

2) 结合其它理论对关联规则进行研究

引入粗糙集概念, 使关联规则发现的模式具有较高的解释能力和精确度[15]。为了解决数量关联规则提取过程中的连续属性离散化问题采用了聚类方法[16]; 通过引入神经网络的概念, 提出用相互激活与竞争网络来进行数据库中的关联规则的发现[17]等。可以看出通过引入其他领域的先进理论, 丰富了关联规则研究的内容, 提高了算法的有效性。

3) 不同形式关联规则的研究

关联规则最早是由购物篮分析开始的, 但是随着研究的扩展和深入, 关联规则的应用范围不断扩大, 因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本失联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法[18], 由单层的关联规则扩展为多层次关联规则的研究[19], 提出了基于多维标度关联规则算法[20], 其他类型的关联规则如借助正态模糊数模型, 软化数量属性的划分边界, 生成语言值关联规则[21], 引入正态云模型来替代对属性论域的划分, 提出

3. 1 OLAP 技术

联机分析处理(On -Line Analytical Process ing , OLAP ) 是关系数据库之父E . F . Codd 博士在1993年提出的

[9]

。OLAP 可

以在使用多维数据模型的数据仓库或数据集市上进行, 使用数据立方体结构, OLAP 操作可以有效地实现。OLAP 技术主要是应用隐含在数据里的领域背景知识对数据进行操作, 为用户在不同的抽象层上提供数据。OLAP 技术一般都是集成在数据仓库中实现的。

国内关于OLAP 技术的综述性文章较多, 缺少较深入的理论研究。其中一个主要原因是由于受到国内数据仓库技术的发展限制, 缺少具体的实现环境。国内的研究内容主要集中在对技术和概念的介绍以及简单系统的构造应用等方

李菁菁等:数据挖掘在中国的现状和发展研究

了挖掘正态云关联规则的方法[22], 基于关联规则的不足, 还提出了转移规则[23]及其算法。另外对于关联规则挖掘指导思想也出现了变化, 提出了概念指导的关联规则的挖掘算法[24]和基于概念格的关联规则的提取算法[25]。3. 4 分类和预测

分类和预测是两种数据分析形式, 可以用于提取描述重要数据类的模型或预测未来的数据趋势。主要的分类方法有:决策树归纳分类法、贝叶斯分类法、后向传播分类法等。

国内对于分类和预测方法的分析和研究近几年逐渐增多, 并逐渐深入。国内的分类方法研究主要集中在以下内容:

1) 研究贝叶斯网络在分类方法中的应用

利用贝叶斯网络可以找出数据之间潜在的关系[26], 并且可以将简单贝叶斯方法应用于增量分类中

2) 结合其他理论进行算法研究

通过遗传算法, 对单个分类器进行优化并对多个分类器进行组合优化[28]。通过不同的相似性度量方法, 复用完全相似或者条件相似的历史序列, 提出一种多策略的基于CBR 的趋势预测方法[29]。

分类及预测中, 神经网络技术的优点是其对噪声数据具有较高的承受能力, 对未经训练的数据具有分类识别的能力。但是它的主要缺点是可解释性差, 这影响了神经网络技术的使用。相对于神经网络技术, 决策树技术的优点比较易于理解和解释, 而它受到的典型批评是由于递归划分方式导致数据子集变小, 失去了进一步划分的意义。贝叶斯分类方法从理论上讲具有最小的出错率, 还可以用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。其缺点主要来自于贝叶斯分类的假定, 当假定成立时, 与其它分类算法相比是最精确的, 然而, 在实践中, 假定不一定总是成立。

从以上分析可以看出, 不同的数据挖掘技术各有其优缺点, 在实际的应用中, 需要根据具体的条件选择合适的算法。3. 5 聚类

聚类是一个活跃的研究领域, 聚类就是将数据对象分组成为多个类或簇, 在同一个簇中的对象之间具有较高的相似度, 而不同簇中的对象则差别较大, 聚类算法具体可以分为:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等。聚类分析可以用作独立的数据挖掘工具, 来获得对数据分布的了解, 也可以作为其它数据挖掘算法的预处理步骤。

国内对于聚类的研究与和分类预测的研究情况类似, 开展比较晚, 研究主要方向包括:

1) 对已经提出来的聚类算法进行分析和完善

在原有的DBSCAN 算法的基础上, 以核心对象邻域中所有对象的代表对象为种子对象来扩展类, 提出了FDBSCAN 算法, 该算法能够有效地对大规模数据库进行聚类, 速度上数倍于DBSCAN [30], 对原DBSCAN 算法进行改进, 提出了基于数据分区的DBSCAN 算法, 提高了聚类速度, 改善了聚类质[27]

量[31]。

2) 概念聚类的研究

概念聚类适用于领域知识不完整或领域知识缺乏时的数据挖掘任务。通过定义一种基于语义的距离判定函数, 提出了一种动态概念聚类的算法, 该算法能够自动确定聚类数目, 依据聚类内部属性值的频繁程度修正聚类中心, 通过概念归纳处理, 用概念合取表达式解释聚类输出[32]。

3) 孤立点分析

孤立点是指一些不符合数据的一般模型的数据对象。常用的方法有基于统计的方法、基于距离的方法和基于偏离的方法。文献[33]提出了一种基于超图模型的离群点定义, 同时给出了HOT (hypergraph -based outlier test ) 算法, 通过计算每个点的支持度、隶属度和规模偏差来检测离群点。该算法既能够处理数值属性, 又能够处理类别属性。

4) 复杂聚类方法的研究

目前聚类研究主要集中在对复杂聚类方法上, 如对高维数据的可视化聚类方法[34], 以及基于大规模交易数据库的二次聚类聚类算法———CATD 。该算法只需扫描一次数据库, 聚类过程在内存中进行, 因此能处理大规模的数据库[35]。

聚类的各种方法的主要区别在于实现算法的思想不同, 聚类的各种方法各有其优缺点, 算法的选择取决于数据的类型、聚类的目的和应用。一些聚类算法可能集成了多种聚类算法的思想, 此外, 某些应用可能有特定的聚类标准, 要求综合使用多种聚类技术。

3. 6 与数据仓库的集成技术研究

目前比较通用的对数据仓库的定义是W . H . Inmon 在1996年提出的, 他认为数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 支持管理部门的决策过程。

数据仓库为数据挖掘提供了更广阔的活动空间。数据仓库完成了数据的收集、集成、存储、管理等工作, 数据挖掘面对的是经初步加工的数据, 使得数据挖掘能更专注于知识的发现。数据仓库具有不同于数据库的新特点, 并对数据挖掘技术提出了更高的要求, 数据挖掘技术要充分发挥潜力, 就必须和数据仓库的发展结合起来。

国内在该领域的研究时间较短, 相关的研究集中在简单介绍和一般系统的结构设计上。

目前数据仓库的供应商很多, 比较著名的有IBM 、Oracle 、Sybase 、微软等。IB M 和Oracle 等公司的数据仓库技术中含有不同的策略和算法, 以IB M 和Oracle 为例, IB M 在其数据仓库系统中集成了Intelligent Miner 能够进行典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现, 它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。Oracle 集成了Oracle Darwin 系统, 这是基于数据仓库的数据挖掘工具, 具有简单易用的图形化界面, 能够提供决策树、神经网络等多种数据挖掘方法, 支持海量数据的并行处理, 分析结果可以和现有系统集成应用。这些表明了数据挖掘技术集成应用是十分必要的, 也是今后发展的大趋势。

, 这样可以增量

地修正分类器参数和增量地分类测试样本。

Vol . 18, No . 3

管 理 工 程 学 报

2004年第3期

序和序列数据挖掘的研究内容包括趋势分析、在时序分析中

4 数据挖掘研究分支方向

在现实世界中, 数据具有各种各样的复杂形式, 对于结构化数据的挖掘处理, 已经进行了很多研究, 技术相对比较成熟。近年来, 复杂数据的挖掘引起了研究人员的重视, 并成为数据挖掘中日益重要的研究内容, 数据挖掘研究因此衍生了一些研究分支方向。

国内在该领域研究的文章较少, 通过对数据库进行查询, 可以得到表3。

表3 数据挖掘研究分支研究统计表

数据挖掘研究分支空间数据挖掘多媒体数据挖掘时序数据和序列数据挖掘

文本数据挖掘Web 数据挖掘

SCI 10311

EI 21428

CNKI 62856

的相似度搜索、和与时间相关数据中序列模式和循环模式的挖掘。

通过SCI 检索能够查到的最早的关于时序数据和序列数据挖掘的文章是1997年发表的, 所收录的最早的中国相关的文章是在1999年发表的, 通过EI 检索能够查到的最早的关于时序数据和序列数据的挖掘的文章是1998年发表的, 所收录的最早的中国相关的文章是在1998年发表的。

国内对于时序数据的研究比较少, 使用的方法和技术主要有工神经网络技术, 利用它预测和处理混沌观测时间序列能达到较高的精度[39]。此外还有通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间, 将时序数据映射为多维空间的点, 在此基础上, 提出一种新的基于距离的离群数据挖掘算法[40]。

国内对于序贯模式的研究起步较早, 在单层序贯模式的基础上将序贯模式的发现从单层概念扩展到多层概念, 提出了发现广义序贯模式的自顶向下逐层递进的方法[41]。为了解决由于最低支持的改变而引起了广义序贯模式的维护问题, 提出了一种称为FAST 的增量式更新技术[42]。4. 4 文本数据挖掘

大量可获得的信息是存储在文本或文档数据库中, 包含丰富的文档内容, 如新闻文章、技术论文、书籍、数字图书馆、电子邮件信息等。文本挖掘超出了基于关键字和基于相似度的信息检索范畴, 它利用基于关键字的关联和文档分类的方法从半结构化文本数据中发现知识。

通过SCI 检索能够查到的最早的关于文本数据挖掘的文章是1997年发表的, 所收录的最早的中国相关的文章是在2000年发表的, 通过EI 检索能够查到的最早的关于文本数据挖掘的文章是1998年发表的, 所收录的最早的中国相关的文章是在2000年发表的。

国内在该领域的研究文章数量很少, 一般的研究思路是在结构化数据挖掘技术的基础上将半结构化和非结构化的数据转化为结构化数据再进行挖掘分析, 如树形分层数据库方法[43]等。4. 5 Web 数据挖掘

Web 数据挖掘涉及新闻、消费信息、金融管理、教育、政府等等服务, 包含了丰富的动态链接信息和访问及使用信息。Web 挖掘包括Web 链接结构、Web 内容和Web 访问模式的挖掘。关于Web 数据挖掘技术发展研究可以参见文献[44]。

通过SCI 检索能够查到的最早的关于Web 数据挖掘的文章是1997年发表的, 所收录的最早的中国相关的文章是在2001年发表的, 通过EI 检索能够查到的最早的关于Web 数据挖掘的文章是1998年发表的, 所收录的最早的中国相关的文章是在1999年发表的。

国内对于Web 数据挖掘的研究较少, 主要集中在方法的探讨上, 如针对超文本结构中的结构特征, 提出了用Naive Bayes 方法进行分类的方法[45]; 基于时态数据库, 以Web 数

4. 1 空间数据挖掘

空间数据挖掘是指从对空间数据库中非显式存在的知识、空间关系或其他有意义的模式等提取。空间数据挖掘包括空间数据描述、分类、关联、聚类、和空间趋势和孤立点分析。关于空间数据挖掘算法的较综合的介绍可以参见文献[36]。

通过SCI 检索能够查到的最早的关于空间数据挖掘的文章是1995年发表的, 所收录的最早的中国相关的文章是在2001年发表的, 通过EI 检索能够查到的最早的关于空间数据挖掘的文章是1997年发表的, 所收录的最早的中国相关的文章是在2000年发表的。

国内在该领域的研究中, 概念介绍性文章比较多, 这一方面的研究还有待加强。4. 2 多媒体数据挖掘

多媒体数据挖掘是指从多媒体数据库中发现有意义的模式, 多媒体数据库存储和管理大量多媒体对象, 包括音频数据、图像数据、视频数据、序列数据以及包含有文本、文本标记、链接的超文本数据。多媒体数据挖掘研究的问题, 包括基于内容的检索和相似度搜索、概化和多维分析、分类和预测分析, 以及多媒体数据中的关联挖掘。

通过SCI 检索能够查到的最早的关于多媒体数据挖掘的文章是1998年发表的, 通过EI 检索能够查到的最早的关于多媒体数据挖掘的文章是1997年发表的, 所收录的最早的中国相关的文章是在2001年发表的。

国内对于多媒体数据挖掘的研究比较少, 多媒体数据挖掘、文本挖掘和Web 挖掘既有区别又有联系, 多媒体文本数据挖掘过程有自己的模型及特征4. 3 时序数据和序列数据的挖掘

时序数据库是指由随时间变化的序列值或事件组成的数据库, 序列数据库是指由有序事件序列组成的数据库。时

[37]

, 文献

[38]

提出了数据挖

掘系统原型MDMP 的媒体特征库特征与建立特征库的方法。

李菁菁等:数据挖掘在中国的现状和发展研究

据拟周期采掘任务为背景, 提出了属性趋势、趋势惯量和峰谷链、抗干扰的惯性趋势算法和峰谷算法, 对拟周期采掘给出一种解决方法[46]; 利用服务器日志文件, 运用N 元(N -gram ) 预测模型对用户未来可能进行的Web 访问请求进行预测[47]等。

何在保护隐私权的情况下又能够进行充分的数据挖掘是一个重要的研究方向。

另外需要指出的是, 中国在技术研究中对技术本身研究较多, 而对技术经济问题研究较少。数据挖掘技术归根结底是一种手段或工具, 对于数据挖掘技术的研究是为了更好的促进社会经济的发展。如何对数据挖掘技术系统进行有效的管理和利用是一个值得关注的重要问题。

5 促进数据挖掘在中国发展的建议

通过上述分析研究, 可以看出国内学者己对数据挖掘进行了多方面的研究, 并取得了一定的研究成果。为进一步推动数据挖掘在中国的理论研究与实践应用, 本文提出以下建议:

1) 加强对复杂数据的挖掘技术的研究, 目前数据挖掘的所处理的数据类型已经由简单的结构化数据发展到复杂的半结构化数据及非结构化数据, 并且由单维、低维上升为多维、高维。数据挖掘技术发展的整体趋势由处理简单的挖掘问题逐步到解决复杂的挖掘问题。

2) 加强对数据挖掘应用系统和对算法测试的研究。目前国内关于数据挖掘理论研究较多, 但对数据挖掘应用系统和算法测试的研究方面较少, 在算法的性能改进方面, 可以采用国际上相关研究所采用的相同数据集对现有的算法和新改进的算法进行对比测试, 以检验新算法的合理性和有效性。除了选择人工测试数据集外最好能够采用真实测试数据集。

3) 加强对挖掘结果的有效性研究。由于计算机软硬件技术的快速发展, 今后的算法研究将更多的集中在挖掘结果的有效性上, 现在的一些算法所花费的时间已以秒计算了, 但是其挖掘结果的数量却远远超出了可以理解的范围。对于挖掘结果的有效性需要有科学的方法加以评估。此外提高算法的可伸缩性、对算法的动态维护和基于约束的挖掘算法等也都是主要的研究方向。

4) 多种数据挖掘方法的结合使用。数据挖掘的方法各有其优缺点, 很多模式, 特别是与分类有关的模式, 可以用不同的算法来实现, 以适应不同的需求环境。因此集成的数据挖掘系统应该能够提供多种途径来解决复杂问题。

5) 重视数据挖掘技术的实际应用。目前国内有关应用的成功案例较少。有关方面可以借鉴其他先进国家的经验, 引入成功系统进行本土化研究等。实际数据挖掘应用的开发有助于对数据挖掘的理解, 从而更好地改进数据挖掘的技术。

6) 随着数据仓库技术的进一步发展, 并行分布式数据挖掘算法的研究需要加强。

7) 加强人机交互能力的完善解释机制。需要把用户所要解决的问题方便地转化为数据挖掘技术人员能够理解并解决的问题, 并将挖掘结果以用户能理解的方式表达出来。对算法的研究也将趋向于简单化和易于理解。

8) 多语言挖掘, 对于处理多种语言的工具研究。9) 保护隐私权的研究。数据挖掘能从不同的角度及层次上看待数据, 这将有可能影响数据的私有性和安全性, 如6 结束语

数据挖掘技术是一个年轻而充满希望的研究领域, 商业利益的强大驱动力将会不停地促进它的发展, 每年都有新的数据挖掘方法和模型问世, 人们对它的研究正日益广泛和深入。

本文通过对科学引文数据库SCI 、工程索引数据库EI 以及清华全文期刊数据库CNKI 进行全面查询, 通过对有关数据挖掘的文章的统计, 分析和研究了国内数据挖掘技术的现状, 并对未来发展提了建议。

通过本文的研究可以看出, 中国数据挖掘技术的研究取得了一定的成果, 但是数据挖掘技术研究仍然面临着许多问题和挑战, 还存在许多问题等待我们去探索和研究。

2001. 3~5.

[2] Fayyad U . Data mining and kno w l edge discovery in databases

implications for scientific databas es [A ]. Scientific and Statis tical Database Manage ment , Proceedings , Ninth International Conference on [C ], IEEE , 1997. 2~11.

[3] Cheng QM , J as on TL . Wang , et al . DN A s equence clas sificati on via

an expectation maxi miz ation algorithm and neural net works :a case study . Systems , Man and Cybernetics , Part C :Applications and Reviews [J ]. IEEE Trans actions on , 2001, 31(4) :468~475.

[4] Adomavicius G , Tuz hilin A . Using data mining methods t o build

cus tomer profiles [J ]. Computer , 2001, 34(2) :74~82.

[5] Syeda M , Yan QZ , Pan Y . Parallel granular neural networks for fast

credit card fraud detection . Fuzz y Syste ms [A ]. Proceedings of the 2002IEEE International Conference [C ], 2002. 1:572~577.

[6] Bhandari , Inderpal , Col et , et al . Advanced Scount :data mining and

knowledge disc overy in NBA data [J ]. Data M ining and Knowledge Discovery , 1997, 1(1) :121~125.

[7] 余正环, 过泉生, 俞蓓华, 等. 自备电厂的火电厂值长监视与管

理平台系统[J ]. 宝钢技术, 1997, 4:28~32.

[8] 肖利, 金远平, 徐宏炳, 等. 一个新的挖掘广义关联规则算法

[J ]. 东南大学学报, 1997, 27(11) :76~81.

[9] Codd EF , Codd SB , Salley CT . Beyond decis ion s upport [N ].

Computer Worl d , 27, Jul y 1993.

[10] Cai Y , Cercone N , Han J . Attribute -oriented induction in relational

databas e [J ]. Knowledge Discovery in Databases , MA :AAA /MIT press , 1991. 213~228.

[11] 陈红梅, 王丽珍. 面向属性的量化归纳[J ]. 计算机研究与发

展, 2001, 38(2) :150~156.

考文献

[1] Jia wei Han . 数据挖掘概念与技术[M ]. 北京:机械工业出版社,

Vol . 18, No . 3

管 理 工 程 学 报

[J ]. 软件学报, 2000, 11(6) :735~744.

2004年第3期

[12] 周生炳, 张钹, 成栋. 基于规则面向属性的数据库归纳的无回

溯算法[J ]. 软件学报, 1999, 10(7) :673~678.

[13] 蒋嵘, 李德毅, 范建华. 数值型数据的泛概念树的自动生成方

法[J ]. 计算机学报, 2000, 23(5) :470~476.

[14] 毛国君, 刘椿年. 基于项目序列集操作的关联规则挖掘算法

[J ]. 计算机学报, 2002, 25(4) :417~422.

[15] 程岩, 黄梯云. 粗糙集中定量关联规则的发现及其规则约简的

方法研究[J ]. 管理工程学报, 2001, 15(3) :73~77.

[16] 苑森淼, 程晓青. 数量关联规则发现中的聚类方法研究[J ]. 计

算机学报, 2000, 23(8) :867~871.

[17] 倪志伟, 蔡庆生, 方瑾. 用神经网络来挖掘数据库中的关联规

则[J ]. 系统仿真学报, 2000, 12(6) :685~687.

[18] 陆建江. 数据库中布尔型及广义模糊型加权关联规则的挖掘

[J ]. 系统工程理论与实践, 2002, 2:28~32.

[19] 程继华, 施鹏飞. 多层次关联规则的有效挖掘算法[J ]. 软件学

报, 1998, 9(12) :937~941.

[20] 肖利, 金远平, 徐宏炳, 等. 基于多维标度的快速挖掘关联规

则[J ]. 软件学报, 1997, 10(7) :749~753.

[21] 陆建江, 宋自林, 钱祖平. 挖掘语言值关联规则[J ]. 软件学报,

2001, 12(4) :607~611.

[22] 陆建江, 钱祖平, 宋自林. 正态云关联规则在预测中的应用

[J ]. 计算机研究与发展, 2000, 37(11) :1317~1320.

[23] 肖利, 王能斌, 徐宏炳, 等. 挖掘转移规则:一种新的数据挖掘

技术[J ]. 计算机研究与发展, 1998, 35(10) :902~906.

[24] 程继华, 施鹏飞. 概念指导的关联规则的挖掘[J ]. 计算机研究

与发展, 1999, 36(9) :1092~1096.

[25] 谢志鹏, 刘宗田. 概念格与关联规则发现[J ]. 计算机研究与发

展, 2000, 37(12) :1415~1421.

[26] 慕春棣, 戴剑彬, 叶俊. 用于数据挖掘的贝叶斯网络[J ]. 软件

学报, 2000, 11(5) :660~666.

[27] 宫秀军, 刘少辉, 史忠植. 一种增量贝叶斯分类模型[J ]. 计算

机学报, 2002, 25(6) :645~650.

[28] 季文

, 周傲英, 张亮, 等. 一种基于遗传算法的优化分类器

的方法[J ]. 软件学报, 2002, 13(2) :245~249.

[29] 时施仁, 史忠植. 基于CBR 的中心渔场预报[J ]. 高技术通讯,

2001, 5:64~68.

[30] 周水庚, 周傲英, 金文, 等. FDBSCA N :一种快速DBSCAN 算法

[31] 周水庚, 周傲类, 曹晶. 基于数据分区的DBSCAN 算法[J ]. 计

算机研究与发展, 2000, 37(10) :1153~1159.

[32] 郭建生, 赵奕, 施鹏飞. 一种有效的用于数据挖掘的动态概念

聚类算法[J ]. 软件学报, 2001, 12(4) :582~591.

[33] 魏藜, 宫学庆, 钱卫宁, 等. 高维空间中的离群点发现[J ]. 软件

学报, 2002, 13(2) :280~290.

[34] 俞蓓, 王军, 叶施仁. 基于近邻方法的高维数据可视化聚类方

法[J ]. 计算机研究与发展, 2000, 37(6) :714~720.

[35] 陈宁, 陈安, 周龙骧. 大规模交易数据库的一种有效聚类算法

[J ]. 软件学报, 2001, 12(4) :475~484.

[36] Es ter M , Peter KH , Sander J . Al gorithms and applications for spatial

data mining [Z ]. Invited chapter for Geographic Data M ining and Knowledge Discovery , Res earch Monographs in GIS , Ta ylor and Francis , 2001. 1~32.

[37] 刘茂福, 曹加恒, 彭敏等. 多媒体文本数据的模式挖掘方法

[J ]. 武汉大学学报(理学版) , 2001, 47(3) :321~323.

[38] 曹加恒, 张凯, 舒风笛等. 多媒体数据挖掘的相关媒体特征库

方法[J ]. 武汉大学学报, 2000, 46(5) :571~574.

[39] 臧洌. 人工神经网络在混沌观测时序数据处理中的应用[J ].

数据采集与处理, 2001, 16(4) :486~489.

[40] 郑斌祥, 杜秀华, 席裕庚. 一种时序数据的离群数据挖掘新算

法[J ]. 控制与决策, 2002, 17(3) :324~327.

[41] 欧阳为民, 蔡庆生. 在数据库中自动发现广义序贯模式[J ]. 软

件学报, 1997, 8(11) :864~870.

[42] 欧阳为民, 蔡庆生. 发现广义序贯模式的增量式更新技术[J ].

软件学报, 1998, 9(10) :777~780.

[43] 陈玉泉, 朱锡钧, 陆汝占. 文本数据的数据挖掘算法[J ]. 上海

交通大学学报, 2000, 34(7) :936~938.

[44] Kosala R , Blockeel H . Web mining researc h :a survey [J ]. SIGKDD

Explorations , 2000, 2(1) :1~15.

[45] 范焱, 郑诚, 王清毅, 等. 用Naive Ba yes 方法协调分类Web 网页

[J ]. 软件学报, 2001, 12(9) :1386~1392.

[46] 唐常杰, 于中华, 游志胜, 等. 基于时态数据库的Web 数据周期

规律的采掘[J ]. 计算机学报, 2000, 23(1) :52~59.

[47] 苏中, 马少平, 杨强, 等. 基于Web -log Mining 的N 元预测模型

[J ]. 软件学报, 2002, 13(1) :136~141.

The Research about C urrent Situation and Development of Data Mining in China

LI Jing -jing , SHAO Pei -ji , HUANG Yi -xiao

(School of Management , Univers ity of Electronic Science and Technology of China , Chengdu 610054, China )

A bstract :Data mining technology is one of the most active and exciting research areas in Artificial Intelligence and databases . Recently , its develop ment of theoretical research and practical application is very fast , and attracts many researchers all over the world . Based on the statistic data and data mining from the SCI 、EI and Tsinghua CNKI database , this paper analyses and studies the following data mining issues :the current situation and trends , the hot issues and the main research directions . In the end of this paper , we prospect the research and develop ment about data mining in China and give some suggestions about data mining theoretical research and practical application . Key words :Data Mining ; trend ; statistic

责任编辑:许冠南

管  理  工  程  学  报

Vol . 18, No . 3

Journal of Industrial Engineering Engineering Management

2004年第3期

数据挖掘在中国的现状和发展研究

李菁菁, 邵培基, 黄亦潇

(电子科技大学管理学院, 成都610054)

摘要:数据挖掘是人工智能和数据库研究的新兴领域, 近年来, 数据挖掘技术的理论与应用研究发展迅速, 并引起了国内外研究人员的重视。本文以科学引文索引数据库(SCI ) 、工程索引数据库(EI ) 以及清华全文数据库(CNKI ) 中有关“数据挖掘”研究文章的统计数据为研究基础, 对数据挖掘在我国研究的总体趋势、研究热点、研究分支三个方面进行分析和研究。本文分析了数据挖掘在我国的发展, 并对进一步发展我国数据挖掘的理论研究和实际应用提出了建议。

关键词:数据挖掘; 趋势; 统计

中图分类号:C812  文献标识码:A   文章编号:1004-6062(2004) 03-0010-06

之一[2]; 生物学研究中用数据挖掘技术对DNA 进行分析[3];

0 引言

近年来, 随着计算机对数据的生成、收集、存贮和处理能力的大大提高, 数据量与日俱增, 传统的数据分析工具对海量数据的处理力不从心, 数据挖掘技术应运而生。

中国科研工作者近几年来积极开展了对数据挖掘的研究, 并在理论研究和实际应用上取得了一定的成绩, 但是有关数据挖掘的成功应用还比较少。本文通过对中国有关数据挖掘研究文章数量的统计, 对数据挖掘在中国发展的现状及发展趋势进行分析和研究, 通过分析有关论文的发表, 对数据挖掘在中国的理论研究和实际应用提出建议。

利用数据挖掘技术识别顾客的购买行为模式, 对客户进行了分析[4]; 对银行或商业上经常发生的诈骗行为进行预测[5], IB M 公司开发的AS (Advanced Scout ) 系统针对NBA 的数据, 帮助教练优化战术组合[6]等。

数据挖掘技术汇集了来自机器学习、模式识别、数据库、统计学以及管理信息系统等学科的成果。多学科的相互交融和相互促进, 使得数据挖掘这一新学科得以蓬勃发展。

2 数据挖掘在中国的研究趋势分析

1995年在加拿大召开了第一届知识发现和数据挖掘国际学术会议, 由于数据库中的数据被形象地比喻为矿床, 数据挖掘一词很快流传开来。1995年以来, 国外在数据挖掘和知识发现方面形成了热门研究方向, 其中发表论文比较集中的期刊如:《Data Mining and Knowledge Discovery 》(数据挖掘和知识发现) 、《Artificial Intelligence Review 》(人工智能评论) 等。

国内学者也对数据挖掘的理论和应用进行了许多研究。本文通过对发表论文的研究成果进行统计研究, 以分析数据挖掘的在中国的研究与应用, 这实质上也是一种数据挖掘思想的体现, 这个过程就类似于数据挖掘过程。

为了比较全面地反映中国在数据挖掘方面的研究成果及现状, 笔者分别对科学引文数据库(SCI ) 、工程索引数据库(EI ) 以及清华全文期刊数据库(CNKI ) 进行了检索, 检索内容为在中国期刊发表的相关文章以及被SCI 和EI 检索的中国有关数据挖掘方面的研究文章。这些检索的统计结果是本文研究分析的基础。

通过检索并对各年所发表的有关数据挖掘的文章进行分类归总, 可以得到表1的结果。

1 数据挖掘的应用与研究发展

数据挖掘是指从存放在数据库、数据仓库或其他信息库中的大量数据中挖掘有用知识的过程[1]。数据挖掘是一门新兴的边缘学科, 近年来引起了中国学术界和产业界的广泛关注。

数据挖掘出现于20世纪80年代后期, 90年代有了突飞猛进的发展。2001年, Gartner Group 的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首, 并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(Technology Review ) 提出将在未来5年对人类产生重大影响的10大新兴技术, 其中第3项就是数据挖掘。

数据挖掘技术已被广泛的应用于各个领域, 其中一些典型应用如加州理工学院喷气推进实验室与天文科学家合作开发的S KICAT 系统, 能够帮助天文学家发现遥远的类星体, 是人工智能技术在天文学和空间科学上的第一批成功应用

收稿日期:2002-11-04 修回日期:2003-02-16

作者简介:李菁菁(1975—) , 女, 四川安岳人, 电子科技大学管理学院博士生, 研究方向:信息管理、数据挖掘和决策支持等。

Vol . 18, No . 3

表1 有关“数据挖掘”的论文发表统计1994~1996

SCI EI CNKI

000

1997203

199801124

199921471

[1**********]

管 理 工 程 学 报

2004年第3期

面, 如对OLAP 、数据立方体等基本概念的介绍; 对SQL server

[1**********]

合计40118520

2000中提供的OLAP 的查询组件的使用等。3. 2 面向属性的归纳方法

1991年, Jiawei Han 等提出了面向属性的归纳方法

[10]

(Attribute -Oriented , AO ) , 这是一种有效的、完整的知识发现

算法, 算法的一个关键就是攀升属性所对应的概念层次树, 把原始数据集的数据泛化到用户感兴趣的概念层上, 减少数据集的大小, 从而降低知识发现过程的计算复杂度。

国内对面向属性的归纳方法的研究比较少, 研究内容主要集中在以下三方面:

1) 对面向属性的归纳方法进行改进。通过引入记录阈值的概念, 利用属性阈值和记录阈值同时进行控制, 从而产生更好的效果[11]。

2) 减少扫描次数以提高算法效率。文献[12]提出了基于规则的面向属性知识发现的无回溯算法, 把背景知识理解为特殊的逻辑程序, 并把它的子句展开为完全归结子句, 再按用户要求, 定义并确定各属性的恰当层次, 各属性的多个值归纳为恰当层次中的值, 只需一遍扫描, 无需回溯。

3) 对概念层次进行研究。提出了概念层次的自动生成方法[13]。3. 3 关联规则

关联规则的挖掘最早是由R . Agrawal 等人于1993年提出。在关联规则算法的研究中, 生成所有的频繁项目集是核心问题。表2中有关关联规则的文章数量较多, 技术相对比较成熟, 是数据挖掘领域的重点研究方向之一。根据分析, 目前国内对关联规则的研究主要集中在以下3方面:

1) 提高原有算法的效率

在解决最大频繁项目集的生成问题上, 为了提高对空间

  通过对检索结果的分析, 可以得到以下4点结论:

1) 国内期刊正式发表有关数据挖掘的文章是在1997年, 共发表了3篇文章, 同年SCI 共检索了2篇中国的数据挖掘的研究文章, 在SCI 数据库能够检索到的国际上发表最早的有关数据挖掘的文章是在1993年, 这表明中国关于数据挖掘方面的研究在时间上与国际上差距并不大。

2) 国内发表的有关数据挖掘论文的数目近年来逐年快速上升, SCI 和EI 所检索的文章数目也在逐年快速增加, 这说明中国数据挖掘的研究近几年来迅速加强。

3) 对数据挖掘的研究可以大致分为两方面:理论研究和应用研究。理论研究正在逐步深入并与解决实际问题相结合。

4) 数据挖掘是一门应用性很强的学科, 数据挖掘应用的领域非常广阔, 几乎涉及到各个行业, 包括天文学、生物学、经济管理、金融、保险、电力、石油化工、地理地质等领域。这些应用的需求就更进一步地推动了理论研究的发展。

3 数据挖掘技术的研究

对数据挖掘的理论研究主要在以下六个方面:OLAP 技术、面向属性的归纳法、关联规则、分类和预测、聚类和与数据仓库的集成技术。有关研究成果见表2。

表2 有关数据挖掘技术统计表

理论研究领域OLAP 技术面向属性的归纳方法

关联规则分类和预测

聚类

与数据仓库集成技术

SCI 007730

EI 013118113

CNKI [1**********]7

和时间的利用效率, 对数据库的扫描次数进行了缩减, 由最初的两次扫描减少为一次就可以生成最大频繁集, 提高了算法的效率[14]。

2) 结合其它理论对关联规则进行研究

引入粗糙集概念, 使关联规则发现的模式具有较高的解释能力和精确度[15]。为了解决数量关联规则提取过程中的连续属性离散化问题采用了聚类方法[16]; 通过引入神经网络的概念, 提出用相互激活与竞争网络来进行数据库中的关联规则的发现[17]等。可以看出通过引入其他领域的先进理论, 丰富了关联规则研究的内容, 提高了算法的有效性。

3) 不同形式关联规则的研究

关联规则最早是由购物篮分析开始的, 但是随着研究的扩展和深入, 关联规则的应用范围不断扩大, 因此出现了多种形式关联规则的研究。由最简单的单维、单层、布尔关联规则逐渐向复杂形式扩展。在基本失联规则的基础上提出了布尔型加权关联规则和广义模糊型加权关联规则算法[18], 由单层的关联规则扩展为多层次关联规则的研究[19], 提出了基于多维标度关联规则算法[20], 其他类型的关联规则如借助正态模糊数模型, 软化数量属性的划分边界, 生成语言值关联规则[21], 引入正态云模型来替代对属性论域的划分, 提出

3. 1 OLAP 技术

联机分析处理(On -Line Analytical Process ing , OLAP ) 是关系数据库之父E . F . Codd 博士在1993年提出的

[9]

。OLAP 可

以在使用多维数据模型的数据仓库或数据集市上进行, 使用数据立方体结构, OLAP 操作可以有效地实现。OLAP 技术主要是应用隐含在数据里的领域背景知识对数据进行操作, 为用户在不同的抽象层上提供数据。OLAP 技术一般都是集成在数据仓库中实现的。

国内关于OLAP 技术的综述性文章较多, 缺少较深入的理论研究。其中一个主要原因是由于受到国内数据仓库技术的发展限制, 缺少具体的实现环境。国内的研究内容主要集中在对技术和概念的介绍以及简单系统的构造应用等方

李菁菁等:数据挖掘在中国的现状和发展研究

了挖掘正态云关联规则的方法[22], 基于关联规则的不足, 还提出了转移规则[23]及其算法。另外对于关联规则挖掘指导思想也出现了变化, 提出了概念指导的关联规则的挖掘算法[24]和基于概念格的关联规则的提取算法[25]。3. 4 分类和预测

分类和预测是两种数据分析形式, 可以用于提取描述重要数据类的模型或预测未来的数据趋势。主要的分类方法有:决策树归纳分类法、贝叶斯分类法、后向传播分类法等。

国内对于分类和预测方法的分析和研究近几年逐渐增多, 并逐渐深入。国内的分类方法研究主要集中在以下内容:

1) 研究贝叶斯网络在分类方法中的应用

利用贝叶斯网络可以找出数据之间潜在的关系[26], 并且可以将简单贝叶斯方法应用于增量分类中

2) 结合其他理论进行算法研究

通过遗传算法, 对单个分类器进行优化并对多个分类器进行组合优化[28]。通过不同的相似性度量方法, 复用完全相似或者条件相似的历史序列, 提出一种多策略的基于CBR 的趋势预测方法[29]。

分类及预测中, 神经网络技术的优点是其对噪声数据具有较高的承受能力, 对未经训练的数据具有分类识别的能力。但是它的主要缺点是可解释性差, 这影响了神经网络技术的使用。相对于神经网络技术, 决策树技术的优点比较易于理解和解释, 而它受到的典型批评是由于递归划分方式导致数据子集变小, 失去了进一步划分的意义。贝叶斯分类方法从理论上讲具有最小的出错率, 还可以用来为不直接使用贝叶斯定理的其他分类算法提供理论判定。其缺点主要来自于贝叶斯分类的假定, 当假定成立时, 与其它分类算法相比是最精确的, 然而, 在实践中, 假定不一定总是成立。

从以上分析可以看出, 不同的数据挖掘技术各有其优缺点, 在实际的应用中, 需要根据具体的条件选择合适的算法。3. 5 聚类

聚类是一个活跃的研究领域, 聚类就是将数据对象分组成为多个类或簇, 在同一个簇中的对象之间具有较高的相似度, 而不同簇中的对象则差别较大, 聚类算法具体可以分为:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法等。聚类分析可以用作独立的数据挖掘工具, 来获得对数据分布的了解, 也可以作为其它数据挖掘算法的预处理步骤。

国内对于聚类的研究与和分类预测的研究情况类似, 开展比较晚, 研究主要方向包括:

1) 对已经提出来的聚类算法进行分析和完善

在原有的DBSCAN 算法的基础上, 以核心对象邻域中所有对象的代表对象为种子对象来扩展类, 提出了FDBSCAN 算法, 该算法能够有效地对大规模数据库进行聚类, 速度上数倍于DBSCAN [30], 对原DBSCAN 算法进行改进, 提出了基于数据分区的DBSCAN 算法, 提高了聚类速度, 改善了聚类质[27]

量[31]。

2) 概念聚类的研究

概念聚类适用于领域知识不完整或领域知识缺乏时的数据挖掘任务。通过定义一种基于语义的距离判定函数, 提出了一种动态概念聚类的算法, 该算法能够自动确定聚类数目, 依据聚类内部属性值的频繁程度修正聚类中心, 通过概念归纳处理, 用概念合取表达式解释聚类输出[32]。

3) 孤立点分析

孤立点是指一些不符合数据的一般模型的数据对象。常用的方法有基于统计的方法、基于距离的方法和基于偏离的方法。文献[33]提出了一种基于超图模型的离群点定义, 同时给出了HOT (hypergraph -based outlier test ) 算法, 通过计算每个点的支持度、隶属度和规模偏差来检测离群点。该算法既能够处理数值属性, 又能够处理类别属性。

4) 复杂聚类方法的研究

目前聚类研究主要集中在对复杂聚类方法上, 如对高维数据的可视化聚类方法[34], 以及基于大规模交易数据库的二次聚类聚类算法———CATD 。该算法只需扫描一次数据库, 聚类过程在内存中进行, 因此能处理大规模的数据库[35]。

聚类的各种方法的主要区别在于实现算法的思想不同, 聚类的各种方法各有其优缺点, 算法的选择取决于数据的类型、聚类的目的和应用。一些聚类算法可能集成了多种聚类算法的思想, 此外, 某些应用可能有特定的聚类标准, 要求综合使用多种聚类技术。

3. 6 与数据仓库的集成技术研究

目前比较通用的对数据仓库的定义是W . H . Inmon 在1996年提出的, 他认为数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合, 支持管理部门的决策过程。

数据仓库为数据挖掘提供了更广阔的活动空间。数据仓库完成了数据的收集、集成、存储、管理等工作, 数据挖掘面对的是经初步加工的数据, 使得数据挖掘能更专注于知识的发现。数据仓库具有不同于数据库的新特点, 并对数据挖掘技术提出了更高的要求, 数据挖掘技术要充分发挥潜力, 就必须和数据仓库的发展结合起来。

国内在该领域的研究时间较短, 相关的研究集中在简单介绍和一般系统的结构设计上。

目前数据仓库的供应商很多, 比较著名的有IBM 、Oracle 、Sybase 、微软等。IB M 和Oracle 等公司的数据仓库技术中含有不同的策略和算法, 以IB M 和Oracle 为例, IB M 在其数据仓库系统中集成了Intelligent Miner 能够进行典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现, 它可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据挖掘操作。Oracle 集成了Oracle Darwin 系统, 这是基于数据仓库的数据挖掘工具, 具有简单易用的图形化界面, 能够提供决策树、神经网络等多种数据挖掘方法, 支持海量数据的并行处理, 分析结果可以和现有系统集成应用。这些表明了数据挖掘技术集成应用是十分必要的, 也是今后发展的大趋势。

, 这样可以增量

地修正分类器参数和增量地分类测试样本。

Vol . 18, No . 3

管 理 工 程 学 报

2004年第3期

序和序列数据挖掘的研究内容包括趋势分析、在时序分析中

4 数据挖掘研究分支方向

在现实世界中, 数据具有各种各样的复杂形式, 对于结构化数据的挖掘处理, 已经进行了很多研究, 技术相对比较成熟。近年来, 复杂数据的挖掘引起了研究人员的重视, 并成为数据挖掘中日益重要的研究内容, 数据挖掘研究因此衍生了一些研究分支方向。

国内在该领域研究的文章较少, 通过对数据库进行查询, 可以得到表3。

表3 数据挖掘研究分支研究统计表

数据挖掘研究分支空间数据挖掘多媒体数据挖掘时序数据和序列数据挖掘

文本数据挖掘Web 数据挖掘

SCI 10311

EI 21428

CNKI 62856

的相似度搜索、和与时间相关数据中序列模式和循环模式的挖掘。

通过SCI 检索能够查到的最早的关于时序数据和序列数据挖掘的文章是1997年发表的, 所收录的最早的中国相关的文章是在1999年发表的, 通过EI 检索能够查到的最早的关于时序数据和序列数据的挖掘的文章是1998年发表的, 所收录的最早的中国相关的文章是在1998年发表的。

国内对于时序数据的研究比较少, 使用的方法和技术主要有工神经网络技术, 利用它预测和处理混沌观测时间序列能达到较高的精度[39]。此外还有通过对时序数据进行离散傅立叶变换将其从时域空间变换到频域空间, 将时序数据映射为多维空间的点, 在此基础上, 提出一种新的基于距离的离群数据挖掘算法[40]。

国内对于序贯模式的研究起步较早, 在单层序贯模式的基础上将序贯模式的发现从单层概念扩展到多层概念, 提出了发现广义序贯模式的自顶向下逐层递进的方法[41]。为了解决由于最低支持的改变而引起了广义序贯模式的维护问题, 提出了一种称为FAST 的增量式更新技术[42]。4. 4 文本数据挖掘

大量可获得的信息是存储在文本或文档数据库中, 包含丰富的文档内容, 如新闻文章、技术论文、书籍、数字图书馆、电子邮件信息等。文本挖掘超出了基于关键字和基于相似度的信息检索范畴, 它利用基于关键字的关联和文档分类的方法从半结构化文本数据中发现知识。

通过SCI 检索能够查到的最早的关于文本数据挖掘的文章是1997年发表的, 所收录的最早的中国相关的文章是在2000年发表的, 通过EI 检索能够查到的最早的关于文本数据挖掘的文章是1998年发表的, 所收录的最早的中国相关的文章是在2000年发表的。

国内在该领域的研究文章数量很少, 一般的研究思路是在结构化数据挖掘技术的基础上将半结构化和非结构化的数据转化为结构化数据再进行挖掘分析, 如树形分层数据库方法[43]等。4. 5 Web 数据挖掘

Web 数据挖掘涉及新闻、消费信息、金融管理、教育、政府等等服务, 包含了丰富的动态链接信息和访问及使用信息。Web 挖掘包括Web 链接结构、Web 内容和Web 访问模式的挖掘。关于Web 数据挖掘技术发展研究可以参见文献[44]。

通过SCI 检索能够查到的最早的关于Web 数据挖掘的文章是1997年发表的, 所收录的最早的中国相关的文章是在2001年发表的, 通过EI 检索能够查到的最早的关于Web 数据挖掘的文章是1998年发表的, 所收录的最早的中国相关的文章是在1999年发表的。

国内对于Web 数据挖掘的研究较少, 主要集中在方法的探讨上, 如针对超文本结构中的结构特征, 提出了用Naive Bayes 方法进行分类的方法[45]; 基于时态数据库, 以Web 数

4. 1 空间数据挖掘

空间数据挖掘是指从对空间数据库中非显式存在的知识、空间关系或其他有意义的模式等提取。空间数据挖掘包括空间数据描述、分类、关联、聚类、和空间趋势和孤立点分析。关于空间数据挖掘算法的较综合的介绍可以参见文献[36]。

通过SCI 检索能够查到的最早的关于空间数据挖掘的文章是1995年发表的, 所收录的最早的中国相关的文章是在2001年发表的, 通过EI 检索能够查到的最早的关于空间数据挖掘的文章是1997年发表的, 所收录的最早的中国相关的文章是在2000年发表的。

国内在该领域的研究中, 概念介绍性文章比较多, 这一方面的研究还有待加强。4. 2 多媒体数据挖掘

多媒体数据挖掘是指从多媒体数据库中发现有意义的模式, 多媒体数据库存储和管理大量多媒体对象, 包括音频数据、图像数据、视频数据、序列数据以及包含有文本、文本标记、链接的超文本数据。多媒体数据挖掘研究的问题, 包括基于内容的检索和相似度搜索、概化和多维分析、分类和预测分析, 以及多媒体数据中的关联挖掘。

通过SCI 检索能够查到的最早的关于多媒体数据挖掘的文章是1998年发表的, 通过EI 检索能够查到的最早的关于多媒体数据挖掘的文章是1997年发表的, 所收录的最早的中国相关的文章是在2001年发表的。

国内对于多媒体数据挖掘的研究比较少, 多媒体数据挖掘、文本挖掘和Web 挖掘既有区别又有联系, 多媒体文本数据挖掘过程有自己的模型及特征4. 3 时序数据和序列数据的挖掘

时序数据库是指由随时间变化的序列值或事件组成的数据库, 序列数据库是指由有序事件序列组成的数据库。时

[37]

, 文献

[38]

提出了数据挖

掘系统原型MDMP 的媒体特征库特征与建立特征库的方法。

李菁菁等:数据挖掘在中国的现状和发展研究

据拟周期采掘任务为背景, 提出了属性趋势、趋势惯量和峰谷链、抗干扰的惯性趋势算法和峰谷算法, 对拟周期采掘给出一种解决方法[46]; 利用服务器日志文件, 运用N 元(N -gram ) 预测模型对用户未来可能进行的Web 访问请求进行预测[47]等。

何在保护隐私权的情况下又能够进行充分的数据挖掘是一个重要的研究方向。

另外需要指出的是, 中国在技术研究中对技术本身研究较多, 而对技术经济问题研究较少。数据挖掘技术归根结底是一种手段或工具, 对于数据挖掘技术的研究是为了更好的促进社会经济的发展。如何对数据挖掘技术系统进行有效的管理和利用是一个值得关注的重要问题。

5 促进数据挖掘在中国发展的建议

通过上述分析研究, 可以看出国内学者己对数据挖掘进行了多方面的研究, 并取得了一定的研究成果。为进一步推动数据挖掘在中国的理论研究与实践应用, 本文提出以下建议:

1) 加强对复杂数据的挖掘技术的研究, 目前数据挖掘的所处理的数据类型已经由简单的结构化数据发展到复杂的半结构化数据及非结构化数据, 并且由单维、低维上升为多维、高维。数据挖掘技术发展的整体趋势由处理简单的挖掘问题逐步到解决复杂的挖掘问题。

2) 加强对数据挖掘应用系统和对算法测试的研究。目前国内关于数据挖掘理论研究较多, 但对数据挖掘应用系统和算法测试的研究方面较少, 在算法的性能改进方面, 可以采用国际上相关研究所采用的相同数据集对现有的算法和新改进的算法进行对比测试, 以检验新算法的合理性和有效性。除了选择人工测试数据集外最好能够采用真实测试数据集。

3) 加强对挖掘结果的有效性研究。由于计算机软硬件技术的快速发展, 今后的算法研究将更多的集中在挖掘结果的有效性上, 现在的一些算法所花费的时间已以秒计算了, 但是其挖掘结果的数量却远远超出了可以理解的范围。对于挖掘结果的有效性需要有科学的方法加以评估。此外提高算法的可伸缩性、对算法的动态维护和基于约束的挖掘算法等也都是主要的研究方向。

4) 多种数据挖掘方法的结合使用。数据挖掘的方法各有其优缺点, 很多模式, 特别是与分类有关的模式, 可以用不同的算法来实现, 以适应不同的需求环境。因此集成的数据挖掘系统应该能够提供多种途径来解决复杂问题。

5) 重视数据挖掘技术的实际应用。目前国内有关应用的成功案例较少。有关方面可以借鉴其他先进国家的经验, 引入成功系统进行本土化研究等。实际数据挖掘应用的开发有助于对数据挖掘的理解, 从而更好地改进数据挖掘的技术。

6) 随着数据仓库技术的进一步发展, 并行分布式数据挖掘算法的研究需要加强。

7) 加强人机交互能力的完善解释机制。需要把用户所要解决的问题方便地转化为数据挖掘技术人员能够理解并解决的问题, 并将挖掘结果以用户能理解的方式表达出来。对算法的研究也将趋向于简单化和易于理解。

8) 多语言挖掘, 对于处理多种语言的工具研究。9) 保护隐私权的研究。数据挖掘能从不同的角度及层次上看待数据, 这将有可能影响数据的私有性和安全性, 如6 结束语

数据挖掘技术是一个年轻而充满希望的研究领域, 商业利益的强大驱动力将会不停地促进它的发展, 每年都有新的数据挖掘方法和模型问世, 人们对它的研究正日益广泛和深入。

本文通过对科学引文数据库SCI 、工程索引数据库EI 以及清华全文期刊数据库CNKI 进行全面查询, 通过对有关数据挖掘的文章的统计, 分析和研究了国内数据挖掘技术的现状, 并对未来发展提了建议。

通过本文的研究可以看出, 中国数据挖掘技术的研究取得了一定的成果, 但是数据挖掘技术研究仍然面临着许多问题和挑战, 还存在许多问题等待我们去探索和研究。

2001. 3~5.

[2] Fayyad U . Data mining and kno w l edge discovery in databases

implications for scientific databas es [A ]. Scientific and Statis tical Database Manage ment , Proceedings , Ninth International Conference on [C ], IEEE , 1997. 2~11.

[3] Cheng QM , J as on TL . Wang , et al . DN A s equence clas sificati on via

an expectation maxi miz ation algorithm and neural net works :a case study . Systems , Man and Cybernetics , Part C :Applications and Reviews [J ]. IEEE Trans actions on , 2001, 31(4) :468~475.

[4] Adomavicius G , Tuz hilin A . Using data mining methods t o build

cus tomer profiles [J ]. Computer , 2001, 34(2) :74~82.

[5] Syeda M , Yan QZ , Pan Y . Parallel granular neural networks for fast

credit card fraud detection . Fuzz y Syste ms [A ]. Proceedings of the 2002IEEE International Conference [C ], 2002. 1:572~577.

[6] Bhandari , Inderpal , Col et , et al . Advanced Scount :data mining and

knowledge disc overy in NBA data [J ]. Data M ining and Knowledge Discovery , 1997, 1(1) :121~125.

[7] 余正环, 过泉生, 俞蓓华, 等. 自备电厂的火电厂值长监视与管

理平台系统[J ]. 宝钢技术, 1997, 4:28~32.

[8] 肖利, 金远平, 徐宏炳, 等. 一个新的挖掘广义关联规则算法

[J ]. 东南大学学报, 1997, 27(11) :76~81.

[9] Codd EF , Codd SB , Salley CT . Beyond decis ion s upport [N ].

Computer Worl d , 27, Jul y 1993.

[10] Cai Y , Cercone N , Han J . Attribute -oriented induction in relational

databas e [J ]. Knowledge Discovery in Databases , MA :AAA /MIT press , 1991. 213~228.

[11] 陈红梅, 王丽珍. 面向属性的量化归纳[J ]. 计算机研究与发

展, 2001, 38(2) :150~156.

考文献

[1] Jia wei Han . 数据挖掘概念与技术[M ]. 北京:机械工业出版社,

Vol . 18, No . 3

管 理 工 程 学 报

[J ]. 软件学报, 2000, 11(6) :735~744.

2004年第3期

[12] 周生炳, 张钹, 成栋. 基于规则面向属性的数据库归纳的无回

溯算法[J ]. 软件学报, 1999, 10(7) :673~678.

[13] 蒋嵘, 李德毅, 范建华. 数值型数据的泛概念树的自动生成方

法[J ]. 计算机学报, 2000, 23(5) :470~476.

[14] 毛国君, 刘椿年. 基于项目序列集操作的关联规则挖掘算法

[J ]. 计算机学报, 2002, 25(4) :417~422.

[15] 程岩, 黄梯云. 粗糙集中定量关联规则的发现及其规则约简的

方法研究[J ]. 管理工程学报, 2001, 15(3) :73~77.

[16] 苑森淼, 程晓青. 数量关联规则发现中的聚类方法研究[J ]. 计

算机学报, 2000, 23(8) :867~871.

[17] 倪志伟, 蔡庆生, 方瑾. 用神经网络来挖掘数据库中的关联规

则[J ]. 系统仿真学报, 2000, 12(6) :685~687.

[18] 陆建江. 数据库中布尔型及广义模糊型加权关联规则的挖掘

[J ]. 系统工程理论与实践, 2002, 2:28~32.

[19] 程继华, 施鹏飞. 多层次关联规则的有效挖掘算法[J ]. 软件学

报, 1998, 9(12) :937~941.

[20] 肖利, 金远平, 徐宏炳, 等. 基于多维标度的快速挖掘关联规

则[J ]. 软件学报, 1997, 10(7) :749~753.

[21] 陆建江, 宋自林, 钱祖平. 挖掘语言值关联规则[J ]. 软件学报,

2001, 12(4) :607~611.

[22] 陆建江, 钱祖平, 宋自林. 正态云关联规则在预测中的应用

[J ]. 计算机研究与发展, 2000, 37(11) :1317~1320.

[23] 肖利, 王能斌, 徐宏炳, 等. 挖掘转移规则:一种新的数据挖掘

技术[J ]. 计算机研究与发展, 1998, 35(10) :902~906.

[24] 程继华, 施鹏飞. 概念指导的关联规则的挖掘[J ]. 计算机研究

与发展, 1999, 36(9) :1092~1096.

[25] 谢志鹏, 刘宗田. 概念格与关联规则发现[J ]. 计算机研究与发

展, 2000, 37(12) :1415~1421.

[26] 慕春棣, 戴剑彬, 叶俊. 用于数据挖掘的贝叶斯网络[J ]. 软件

学报, 2000, 11(5) :660~666.

[27] 宫秀军, 刘少辉, 史忠植. 一种增量贝叶斯分类模型[J ]. 计算

机学报, 2002, 25(6) :645~650.

[28] 季文

, 周傲英, 张亮, 等. 一种基于遗传算法的优化分类器

的方法[J ]. 软件学报, 2002, 13(2) :245~249.

[29] 时施仁, 史忠植. 基于CBR 的中心渔场预报[J ]. 高技术通讯,

2001, 5:64~68.

[30] 周水庚, 周傲英, 金文, 等. FDBSCA N :一种快速DBSCAN 算法

[31] 周水庚, 周傲类, 曹晶. 基于数据分区的DBSCAN 算法[J ]. 计

算机研究与发展, 2000, 37(10) :1153~1159.

[32] 郭建生, 赵奕, 施鹏飞. 一种有效的用于数据挖掘的动态概念

聚类算法[J ]. 软件学报, 2001, 12(4) :582~591.

[33] 魏藜, 宫学庆, 钱卫宁, 等. 高维空间中的离群点发现[J ]. 软件

学报, 2002, 13(2) :280~290.

[34] 俞蓓, 王军, 叶施仁. 基于近邻方法的高维数据可视化聚类方

法[J ]. 计算机研究与发展, 2000, 37(6) :714~720.

[35] 陈宁, 陈安, 周龙骧. 大规模交易数据库的一种有效聚类算法

[J ]. 软件学报, 2001, 12(4) :475~484.

[36] Es ter M , Peter KH , Sander J . Al gorithms and applications for spatial

data mining [Z ]. Invited chapter for Geographic Data M ining and Knowledge Discovery , Res earch Monographs in GIS , Ta ylor and Francis , 2001. 1~32.

[37] 刘茂福, 曹加恒, 彭敏等. 多媒体文本数据的模式挖掘方法

[J ]. 武汉大学学报(理学版) , 2001, 47(3) :321~323.

[38] 曹加恒, 张凯, 舒风笛等. 多媒体数据挖掘的相关媒体特征库

方法[J ]. 武汉大学学报, 2000, 46(5) :571~574.

[39] 臧洌. 人工神经网络在混沌观测时序数据处理中的应用[J ].

数据采集与处理, 2001, 16(4) :486~489.

[40] 郑斌祥, 杜秀华, 席裕庚. 一种时序数据的离群数据挖掘新算

法[J ]. 控制与决策, 2002, 17(3) :324~327.

[41] 欧阳为民, 蔡庆生. 在数据库中自动发现广义序贯模式[J ]. 软

件学报, 1997, 8(11) :864~870.

[42] 欧阳为民, 蔡庆生. 发现广义序贯模式的增量式更新技术[J ].

软件学报, 1998, 9(10) :777~780.

[43] 陈玉泉, 朱锡钧, 陆汝占. 文本数据的数据挖掘算法[J ]. 上海

交通大学学报, 2000, 34(7) :936~938.

[44] Kosala R , Blockeel H . Web mining researc h :a survey [J ]. SIGKDD

Explorations , 2000, 2(1) :1~15.

[45] 范焱, 郑诚, 王清毅, 等. 用Naive Ba yes 方法协调分类Web 网页

[J ]. 软件学报, 2001, 12(9) :1386~1392.

[46] 唐常杰, 于中华, 游志胜, 等. 基于时态数据库的Web 数据周期

规律的采掘[J ]. 计算机学报, 2000, 23(1) :52~59.

[47] 苏中, 马少平, 杨强, 等. 基于Web -log Mining 的N 元预测模型

[J ]. 软件学报, 2002, 13(1) :136~141.

The Research about C urrent Situation and Development of Data Mining in China

LI Jing -jing , SHAO Pei -ji , HUANG Yi -xiao

(School of Management , Univers ity of Electronic Science and Technology of China , Chengdu 610054, China )

A bstract :Data mining technology is one of the most active and exciting research areas in Artificial Intelligence and databases . Recently , its develop ment of theoretical research and practical application is very fast , and attracts many researchers all over the world . Based on the statistic data and data mining from the SCI 、EI and Tsinghua CNKI database , this paper analyses and studies the following data mining issues :the current situation and trends , the hot issues and the main research directions . In the end of this paper , we prospect the research and develop ment about data mining in China and give some suggestions about data mining theoretical research and practical application . Key words :Data Mining ; trend ; statistic

责任编辑:许冠南


相关文章

  • 2017-2022年贵州省大数据产业深度调研报告
  • 2017-2021年贵州省大数据产业发 展预测及投资咨询报告 ▄ 核心内容提要 [出版日期]2017年4月 [报告编号] [交付方式]Email 电子版/特快专递 [价 格]纸介版:7000元 电子版:7200元 纸介+电子:7500元 ▄ ...查看


  • 2015-2020年中国软盘驱动器行业现状与投资风险报告
  • 2015-2020年中国软盘驱动器行 业现状与投资风险报告 什么是行业研究报告 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合经济信息等,为企业自身发展或行业投资者等相关客户提供重要的参考依据. 企业通常通过自身的营销网 ...查看


  • 2017-2022年中国木制玩具市场监测及投资前景评估报告
  • 木制玩具 什么是行业研究报告 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合经济信息等,为企业自身发展或行业投资者等相关客户提供重要的参考依据. 企业通常通过自身的营销网络了解到所在行业的微观市场,但微观市场中的假象经常 ...查看


  • 2014-2020年中国眼镜行业深度研究与产业竞争现状报告
  • 2014-2020年中国眼镜行业深度研究 与产业竞争现状报告 什么是行业研究报告 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合经济信息等,为企业自身发展或行业投资者等相关客户提供重要的参考依据. 企业通常通过自身的营销 ...查看


  • 2014年食品安全检测仪器行业全景调研报告
  • 2014-2020年中国食品安全检测仪器行业深度调研与投资潜力研究报告     [出版日期]2014-8 [交付方式]Email电子版/特快专递 [价 格]纸介版:7000元 电子版:7200元 纸介+电子:7500元 [文章来源] ...查看


  • 任冠华-医疗卫生信息化标准现状与发
  • 中国标准化研究院 二○一○年五月 LOGO 主要内容 一 二 三 四 背景与重要意义 国内外研究现状 发展机遇与前景 国家标准介绍 LOGO 一.背景与重要意义 v1.背景 医疗卫生信息化 特点 1.涉及13亿人民群众 2.跨行业/部门:包 ...查看


  • 2016-2022年中国钢铁产业发展现状及发展前景报告
  • 2016-2022年中国钢铁产业发展现状 及发展前景报告 凯德产业经济研究中心 www.cnkaide.com 行业研究报告的定义 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合经济信息等,为企业自身发展或行业投资者等相 ...查看


  • 2017-2022年中国导电塑料电位器行业监测及投资战略咨询报告
  • 导电塑料 电位器 什么是行业研究报告 行业研究是通过深入研究某一行业发展动态.规模结构.竞争格局以及综合经济信息等,为企业自身发展或行业投资者等相关客户提供重要的参考依据. 企业通常通过自身的营销网络了解到所在行业的微观市场,但微观市场中的 ...查看


  • 中国大数据金融行业市场研究报告
  • 中国市场调研在线 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了解该行业整体发展态势及经济运行状况,旨在为企业或投资者提供方向性 ...查看


  • 2016年煤炭行业现状及发展趋势分析(目录)
  • 2016年中国煤炭行业现状研究分析与市场 前景预测报告 报告编号:1936291 行业市场研究属于企业战略研究范畴,作为当前应用最为广泛的咨询服务,其研究成果以报告形式呈现,通常包含以下内容: 一份专业的行业研究报告,注重指导企业或投资者了 ...查看


热门内容