基于云计算的数据挖掘的信息检索

2012—2013学年度第 二 学期

信息检索与利用专题检索报告

课题: 基于云计算的数据挖掘

学号

手机

2013年 6月23日

一、课题分析

云计算(cloud computing)是基于的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是的资源。云是网络、的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示和底层基础设施的抽象。狭义指基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT 和、相关,也可是其他服务。它意味着计算能力也可作为一种商品通过进行流通。

数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

本文研究的是基于云计算的数据挖掘。随着Internet技术的迅猛发展,人类社会产生的数据呈指数形式飞速增长,如何在海量的数据集合中发现有用信息的难度随之加大。由于云计算平台能够进行动态资源调度和分配、具有高度虚拟化和高可用性等特点,正好满足高效数据挖掘的需求,因此,将云计算引进海量的数据挖掘具有重要的现实意义。

本课题涉及的范围有计算机软件技术等。

关键词:云计算 数据挖掘 数据挖掘平台

Keywords: cloud computing data mining data mining platform

选择的数据库:

1. 中文数据库:中国知网(CNKI ),万方数据资源系统,维普中文期刊数据库,超星数字图书馆电子图书(读秀学术搜索)

2. 外文数据库:ISI web of knowledge,Elsevier SDOL电子期刊

二、检索步骤及结果

I 、检索过程

1.中国知网(CNKI )

进入广东工业大学图书馆——中文数据库——中国知网——高级检索。

(1)检索式:关键词=云计算 并且 关键词=数据挖掘 并且 专题子栏目代码=A+B+C+E+I+J (模糊匹配)

时间:从1979到2013;排序:主题排序;

(2)检索式:发表时间 between (2012-06-01,) 并且 ( 关键词=云计算 并且 关键词=数据挖掘 ) 并且 专

题子栏目代码=A+B+C+E+I+J (模糊匹配) ;排序:主题排序;

第一次的检索的结果太多了,调整检索点,把发表时间改成2012年6月1号之后,搜索结果数适中。所以选取第(2)个检索式。

2.万方数据资源系统

进入广东工业大学图书馆——中文数据库——万方数据资源系——跨库检索。

(1)检索式:匹配方式:模糊

结果有1,292条。其中:

期刊论文(696) 学位论文(502) 会议论文(94)

:() * :() * Date:2012-2013(2)检索式:匹配方式:模糊

结果有58条。其中:

(54) (4) 会议论文(0)

第一次的检索的结果太多,调整检索词点,用题名或关键词检索,并把时间改为2012年,结果数适合。所以选取第(2)个检索式。

3.维普中文期刊数据库

进入广东工业大学图书馆——中文数据库——维普中文期刊数据库——高级检索。

(1)检索式:(题名或关键词=云计算)*(题名或关键词=数据挖掘)*全部期刊*年=1989-2013

匹配方式:模糊

结果有70条。

(2)检索式:(题名或关键词=云计算)*(题名或关键词=数据挖掘)*全部期刊*年=2012-2013

匹配方式:模糊

结果有48条。

第一次的检索的结果为70条,虽然结果数适中,但为了提高查准率,即更能放映近期的研究成果,把时间限制为2012年后。因此,选用第二个检索式。

4.超星数字图书馆电子图书(读秀学术搜索)

进入广东工业大学图书馆——中文数据库——超星数字图书馆电子图书——读秀学术搜索——图书——高级搜索。

(1)检索式:(书名 云计算 数据挖掘) and (分类=全部分类)

结果有0条。

(2)将图书改为期刊

检索式:(关键字=云计算) (关键字=数据挖掘) 限定年度范围:2012至2013

结果有57条。分析:第一次的检索的结果为0条,说明在图书方面没有这方面的书,调整检索式,在期刊方面有检索结果,所以选取第(2)个检索式。

5.ISI web of knowledge

进入广东工业大学图书馆——外文数据库——ISI web of knowledge——所有数据库

(1)检索式:主题=(cloud computing) AND 主题=(data mining)

时间跨度=2011-2013。

结果有73条。

(2)检索式:主题=(cloud computing) AND 主题=(data mining)

精炼依据: 研究领域=( SCIENCE TECHNOLOGY ) AND 研究方向=( COMPUTER SCIENCE )

时间跨度=2011-2013。

结果有53条。第一次的检索的结果为73条,虽然结果适中,但为了提高查准率,用研究领域和研究方向来限制精炼依据,所以选取第(2)个检索式。

6.Elsevier SDOL电子期刊

进入广东工业大学图书馆——外文数据库——Elsevier SDOL电子期刊——Advanced search

(1)检索式:pub-date > 2010 and TITLE-ABSTR-KEY(cloud computing) and TITLE-ABSTR-KEY(datamining)

结果有10条。

II 、选择并记录检索结果

1.中国知网

[1]

文摘格式:

Title-题名: 基于云计算的煤矿安全监测预警系统研究

Author-作者: 李昊旻; 卢建军; 卫晨;

Organ-单位: 西安邮电大学通信与信息工程学院;

Source-文献来源: 工矿自动化

Summary-摘要: 针对传统煤矿安全监测系统存在无法提前预测井下事故等问题, 提出一种基于云计算的煤矿安全监测预警系统, 介绍了云计算、SaaS 、数据挖掘等相关技术, 并详细阐述了系统总体架构及云数据中心的设计。该系统可以有效地预报井下瓦斯事故、机电事故、火灾事故、水害事故等, 降低发生安全事故的风险。引文格式:

[1]王小妮, 高学东, 倪晓明. 基于云计算的分布式数据挖掘平台架构[J].北京信息科技大学学报(自然科学版),2011,05:19-24.

摘要:针对互联网上数量众多的网站带宽资源长期浪费或突发资源短缺、响应时间长、服务器宕机、网站受到黑客攻击等问题, 提出了基于" 云" 的分布式web 安全系统及基于云计算的分布式数据挖掘平台架构, 并在此基础上提出了一种新型的分布式数据挖掘模式, 利用云计算技术, 可以方便地通过网络获取强大的计算能力和存储能力, 将消耗大量资源的复杂计算通过网络路由优化和资源约束自适应策略分布到多节点上进行, 然后通过组合不同数据站点上的局部数据模型, 最终得到全局数据模型。

[2]

文摘格式:

Title-题名: 基于云计算技术的数据挖掘

Author-作者: 应毅; 任凯; 刘正涛;

Organ-单位: 三江学院计算机科学与工程学院; 南京大学金陵学院; 中兴通讯股份有限公司南京研发中心; 南京航空航天大学信息科学与技术学院;

Source-文献来源: 微电子学与计算机

Summary-摘要: 基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈, 针对该问题, 提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理. 在对经典Apriori 算法MapReduce 化后, 建立了一个基于Hadoop 开源框架的并行数据挖掘平台, 并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性. 实验表明, 在集群中使用云计算技术处理大数据集, 可以明显提高数据挖掘的效率.

引文格式:

[1]应毅, 任凯, 刘正涛. 基于云计算技术的数据挖掘[J].微电子学与计算机,2013,02:161-164.

摘要:基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈, 针对该问题, 提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理. 在对经典Apriori 算法MapReduce 化后, 建立了一个基于Hadoop 开源框架的并行数据挖掘平台, 并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性. 实验表明, 在集群中使用云计算技术处理大数据集, 可以明显提高数据挖掘的效率.

该文全文首页如下

图所示:

2.万方数据资源系统

[3]

{Reference Type}: Thesis

{Title}: 基于Hadoop 的Apriori 算法改进与移植的研究

{Author}: 朱安柱

{Publisher}: 华中科技大学

{Section}: 情报学

{Type of Work}: 硕士

{Year}: 2012

{Date}: 2012-05-01

{Keywords}: Hadoop

{Keywords}: Apriori算法

{Keywords}: MapReduce

{Keywords}: 关联规则

{Keywords}: 云计算

{Abstract}:

   随着计算机技术和互联网的飞速发展,Web2.0的成熟与广泛应用, 数据呈现爆炸式增长, 传统的数据挖掘算法在处理海量数据时效率低下, 云计算的出现为其改进带来了新的方式。云计算通过集群威力, 实现了对

Hadoop 作为一款比较成熟的开源云计算框架, 以其高效、海量数据的可靠存储和高速计算。可扩展、低成本等

优点在数据挖掘的相关领域得到了广泛应用。基于此, 本文...

{URL}: http://libwf.gdut.edu.cn/D/Thesis_D232733.aspx

{Database Provider}: 北京万方数据股份有限公司

{Language}: chi

[4]

{Reference Type}: Thesis

{Title}: 面向故障诊断的并行关联规则算法研究与实现

{Author}: 李栋

{Publisher}: 西安电子科技大学

{Section}: 计算机应用技术

{Type of Work}: 硕士

{Year}: 2012

{Date}: 2012-01-01

{Keywords}: 故障诊断

{Keywords}: 数据挖掘

{Keywords}: 关联规则

{Keywords}: 云计算

{Keywords}: MapReduce

{Abstract}:

  随着信息技术的飞速发展,设备日趋集成化与复杂化。对于如何能及时发现和预测故障,保证设备在工作期间高效、可靠的运行,以及如何从历史故障数据中形成对故障处理有效的信息,都具有重要的研究意义。传统的故障诊断方法存在诊断模型难以建立、依赖于主观经验、难以获得规则等缺陷,针对故障的多样性、复杂性、隐蔽性和相互之间的联系性常常无能为力。特别是在面临大规模数据集时,并不能高效的进行分析处...

{URL}: http://libwf.gdut.edu.cn/D/Thesis_D216744.aspx

{Database Provider}: 北京万方数据股份有限公司

{Language}: chi

会议论文:

[5]

{Reference Type}: Conference Proceedings

{Title}: 基于云计算的空间关联信息管理与服务技术研究

{Tertiary Title}: 2011年SuperMap GIS技术大会论文集

{Author}: 黄骞

{Author}: 王尔琪

{Author Address}: 北京超图软件股份有限公司, 北京 100015 超图地理信息技术研究所, 北京 100015{Author Address}: 北京超图软件股份有限公司, 北京 100015 超图地理信息技术研究所, 北京 100015{Secondary Title}: 2011年SuperMap GIS技术大会

{Place Published}: 北京

{Subsidiary Author}: 北京超图软件股份有限公司

{Year}: 2011

{Keywords}: 空间关联; 云计算; 分布式文件系统; 数据挖掘; 高性能

{Abstract}: 随着移动互联网时代的到来,面向以LBS 为代表的空间信息服务需求,空间关联云计算不仅在数据上突破了传统地图的局限,利用空间关联技术管理包含行业、视频、音频等多源数据,而且在功能上通过使用海量存储、深度挖掘分析、高并发访问、虚拟化等互联网技术,为空间信息服务的深度广度发展提供了基础。空间关联云计算平台面向政府、组织与公众的需求,采用开放平台业务模式,自底向上构建空间关联数据海量存储、分布式空间信息挖掘...

{URL}: http://libwf.gdut.edu.cn/D/Conference_7499897.aspx

{Date}: 2011

{Database Provider}: 北京万方数据股份有限公司

{Language}: chi

[6]

【名称】基于“云”计算平台的并行数据挖掘系统PDMiner

【完成人】何清, 曾立, 庄福振, 赵卫中, 谭庆, 马旭东, 马慧芳, 李金成, 刘秋阁

【完成单位】中国科学院计算技术研究所

【公布年份】2010

【登记年份】20101230

【项目年度编号】1200151402

【摘要】基于“云”计算平台的并行数据挖掘系统具有以下特点:(1)提供一系列并行挖掘算法和ETL 操作组件,开发的并行ETL 算法达到了线性加速比;可实现TB 级海量数据的预处理及之后的并行挖掘分析处理,且挖掘算法随节点数线性增加,加速比随之增加;(2)可稳定运行在256个节点组成的Linux 集群环境下,具有高可扩展性;(3)多个工作流任务可在云计算环境下的任意节点同时启动,互不干扰;(4)利用心跳包技术,可自动处理失败节点,具有高容错能力;已做出工作价值:(1)开发出中国通信行业最早的基于云计算平台的并行数据挖掘系统;(2)开发出的系统已经用于实际数据的挖掘,性能指标达到了预期要求;(3)达到了商

(4)该系统具有通用性,可以用于金融、用软件的精度,数据处理规模远远超出商用软件。税务、证券、各行业

企业客户关系管理,具有广泛、重大产业应用前景,会产生重大的经济效益和社会效益。

3.维普中文期刊数据库

[7]

【题名】无线电管理“四个体系”建设的技术路线分析

【作者】何廷润 孙美玉

【机构】国家无线电频谱管理研究所

【刊名】中国无线电.2013(2).-6-8

【文摘】在遵循战略目标的基础上.分析了无线电管理“四个体系”建设技术路线的选择标准,指出云计算和数据挖掘技术是无线电管理“四个体系”建设的核心技术,并研究了基于Hadoop 分布式云计算平台和数据挖掘平台的体系架构。

[8]

【题名】基于云计算平台的聚类算法研究进展

【作者】张锦杏 缪裕青 邱良佩 文益民

【机构】桂林电子科技大学计算机科学与工程学院, 广西桂林541004

【刊名】桂林电子科技大学学报.2013(1).-23-28

【文摘】基于云计算平台的数据挖掘主要目的是为了更好地处理海量数据,挖掘有用的信息。云计算为海量数据挖掘提供了强大的数据收集、存储和计算能力,简述了云计算技术及其研究现状,详细介绍了基于云计算平台的聚类算法,总结在云计算平台研究聚类所遇到的新问题,对基于云计算平台的聚类发展趋势进行展望。

4.ISI web of knowledge

[9]

标题: (翻译:可扩展的并行计算在云使用Twister4Azure 迭代MapReduce )

作者: Gunarathne, Thilina; Zhang, Bingjing; Wu, Tak-Lon; 等.

来源出版物: FUTURE GENERATION COMPUTER SYSTEMS-THE INTERNATIONAL JOURNAL OF GRIDCOMPUTING AND ESCIENCE 卷: 29 期: 4 页: 1035-1048 DOI: 10.1016/j.future.2012.05.027 出版年: JUN 2013

Abstract :Recent advances in data-intensive computing for science discovery are fueling a dramaticgrowth in the use of data-intensive iterative computations. The utility computing model introduced bycloud computing, combined with the rich set of cloud infrastructure and storage services, offers a veryattractive environment in which scientists can perform data analytics. The challenges to large-scaledistributed computations on cloud environments demand innovative computational frameworks that arespecifically tailored for cloud characteristics to easily and effectively harness the power of clouds. Twister4Azure is a distributed decentralized iterative MapReduce runtime for Windows Azure Cloud.Twister4Azure extends the familiar, easy-to-use MapReduce programming model with iterative extensions, enabling a fault-tolerance execution of a wide array of data mining and data analysis applications on the Azure cloud. Twister4Azure utilizes the scalable, distributed and highly availableAzure cloud services as the underlying building blocks, and employs a decentralized control architecturethat avoids single point failures. Twister4Azure optimizes the iterative computations using a multi-levelcaching of data, a cache aware decentralized task scheduling, hybrid tree-based data broadcasting andhybrid intermediate data communication. This paper presents the Twister4Azure iterative MapReduceruntime and a study of four real world data-intensive scientific applications implemented using Twister4Azure two iterative applications, Multi-Dimensional Scaling and KMeans Clustering; and twopleasingly parallel applications, BLAST+ sequence searching and SmithWaterman sequence alignment.

Performance measurements show comparable or a factor of 2 to 4 better results than the traditionalMapReduce runtimes deployed on up to 256 instances and for jobs with tens of thousands of tasks. Wealso study and present solutions to several factors that affect the performance of iterative MapReduceapplications on Windows Azure Cloud, (c) 2012 Elsevier B.V. All rights reserved,

(第一句的翻译:在数据密集型计算的最新进展对科学发现正在推动一个戏剧性的增长数据密集型计算的使用迭代。)

6.Elsevier SDOL电子期刊

[10]

标题:Us er P r ofil e T r acki n g by W e b Usag e Mi n i n g i n Cloud Compu t i n g

翻译用户配置文件跟踪网络使用挖掘在云计算)

III 、相关的学者

1. 余楚礼

期刊论文:《一种基于Hadoop 的并行关联规则算法》

《电动汽车锂离子电池的生热特性》

《基于Fluent 的电动汽车电机控制器冷却板改进》

三、文献综述

随着计算机技术和互联网的飞速发展,W e b 2. 0的成熟与广泛应用,数据呈现爆炸式增长,传统的数据挖掘算法在处理海量数据时效率低下,云计算的出现为其改进带来了新的方式。云计算通过集群威力,实现了对海量数据的可靠存储和高速计算。在这一领域,也涌现出许多新的方法。

以下是部分新的方法介绍:

基于Hadoop 的Ap r io r i 算法改进与移植。[文献3]对Hadoop 的HDFS 和MapR e duc e的核心架构、技术以及相关1、

的机制进行了分析和研究,同时对数据挖掘的发展历程、步骤和分类分别论述。通过与典型的数据挖掘系统架构进行整合,对基于Hadoop 的数据挖掘系统架构进行了理论设计,然后详细描述Ap r io r i 算法,利用MapR e duc e 编程模式,提出基于数据库划分的并行化改进的思想,并对其进行了详细阐述和设

2、基于云计算的空间关联洞察。[文献5]空间关联数据海量存储,采用分布式文件系统与分布式数据库等分布式存储技术,实现对基础地图数据、遥感影像、环境监测等行业专题数据、视频音频等监测数

据的高可用空间关联存储。分布式空间信息挖掘,基于通用并行计算框架(如MapR e duc e、Hama ) 和工作流框架(如Oozi e ) ,搭建空间ETL 、空间索引,高并发服务接口,包含多级一体化服务体系及集群服务能力,提供对数据访问、查询分析、编辑共享等功能的高并发访问能力,对外提供W e b 服务、管理门户、AP I与社区等服务接口。

3、基于层次聚类算法。[文献8]使用MapR e duc e实现了一种有效的层次聚类算法,处理超大规模W e b 日志,以对网络用户进行分组。在预处理阶段,用基于词汇共现的特征选择方法进行降维和噪声消除。根据关键字出现的次数和关键字共现的频率计算关键字的“吸引度”,只选择“吸引度”最高的N 个关键字来代表用户感兴趣的话题。在聚类阶段,使用分批更新的方法将多个迭代操作合并在一起执行,减少节点的计算时间和节点间的通信开销。实验结果表明,使用这2种技术,算法的总运行时间减少了近1/5,算法的的准确度也得到了提升。

综上所述,现在的数据挖掘更多地是利用云计算的平台,去更好,更快的发现海量数据中的信息等问题。此外,云计算给软件带来的变革主要表现在Saas (软件即服务)。软件的单机安装将逐渐被云计算平台部署所代替,用户只需通过网络浏览器便可享受快速高质的云服务,中小企业既可以在公共云计算平台上使用云服务软件,也可以在硬件开支不大的情况下部署自己的云计算平台,从而实现高性能、低成本的计算。随着云计算的发展,很多公共需求的服务将会日益满足大众需求,普惠各个行业。数据挖掘远比信息搜索要复杂。过去对海量数据的处理主要是通过高性能机或者更大规模的计算设备来实现,现在通过基于云计算的数据挖掘能更好地达到目的。采用云计算模式有许多好处,成本低廉、容错性强、计算速度快、程序开发便捷、节点的增加更容易。可以说云计算是数据挖掘中普遍适用较为理想的计算模式,也是我们从海量数据中找到有用、可理解的知识的技术手段。

参考文献:

[3]朱安柱. 基于Hadoop 的Apriori 算法改进与移植的研究[D].华中科技大学,2012.

[5]黄骞, 王尔琪. 基于云计算的空间关联信息管理与服务技术研究[C].//2011年SuperMap GIS技术大会论文集.2011:68-72.

[8]张锦杏,缪裕青,邱良佩,文益民. 基于云计算平台的聚类算法研究进展[J]. 桂林电子科技大学学

报, 2013, 01:23-28.

四、检索体会

文献检索是一项实践性很强的活动,它要求我们善于思考,并通过经常性的实践,逐步掌握文献检索的规律,从而迅速、准确地获得所需文献。以下是我的几点体会。

其一,1.确定检索题目2.确定数据库进行检索, 选择检索工具3.确定检索途径和检索方法4. 选择检索字段、输入检索词、选择逻辑组配关系。最重要的是文献检索的途径和方法。这往往要经过多次尝试与练习才能找到比较理想的检索方式。较重要的检索词放在关键字字段,次重要的一般放在主题词字段。

我本人在检索过程中应用较多的是关键字途径检索。在检索时,我们不仅可以了解这篇文章的作者,文章来源,参考文献等相关信息,还可以了解其相关专利信息,下载其pdf 或其他格式进行阅读,非常全面具体!

对检索结果进行分析时,查全率和查准率,如果一味提高查全率而忽视查准率则可能会造成查全率很高而查准率很低,可能差的很多文献都没有用;反之,如果只提高查准率而忽视查全率,则可能会造成查准率很高而查全率很低,只检索到很少的文献,造成文献漏检。因此,要根据我们的需求适当地调整查全率及查准率。

其二,通过这对文献检索的学习,我学到了很多对今后生活很有用处的知识。我学到了CNK I、维普、万方等数据库的应用,学会使用这些数据库对我以后在查找文献方面提供了很大的便利,尤其是CNK I 应用起来极其方便,用校园网直接能上,还能免费下载全文。

最后,文献检索是一门实用性很强的课程,在没学习这门课以前,我遇到需查阅的问题,只知道查阅百度,而且一般都只看中文网站,学习后,我们能够较充分地综合利用学校的资源,获得更权威,更可靠的知识!

总之,经过这一个学期的学习,我对文献检索这个课程有了更加深刻的了解,也对如何选好关键词这个重点、难点有了一定的掌握。在这个信息爆炸的时代,我们必须尽可能多地掌握更多的信息,尽可能地充实自己,完善自己,所以掌握数据库的应用在我们今后的生活中会很有好处的。文献检索是门结合知识性和应用性为一体的学科,对我们的自学能力是一种提高,对将来的学习很有帮助

2012—2013学年度第 二 学期

信息检索与利用专题检索报告

课题: 基于云计算的数据挖掘

学号

手机

2013年 6月23日

一、课题分析

云计算(cloud computing)是基于的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是的资源。云是网络、的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示和底层基础设施的抽象。狭义指基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT 和、相关,也可是其他服务。它意味着计算能力也可作为一种商品通过进行流通。

数据挖掘(Data mining),又译为资料探勘、数据采矿。它是数据库知识发现中的一个步骤。数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

本文研究的是基于云计算的数据挖掘。随着Internet技术的迅猛发展,人类社会产生的数据呈指数形式飞速增长,如何在海量的数据集合中发现有用信息的难度随之加大。由于云计算平台能够进行动态资源调度和分配、具有高度虚拟化和高可用性等特点,正好满足高效数据挖掘的需求,因此,将云计算引进海量的数据挖掘具有重要的现实意义。

本课题涉及的范围有计算机软件技术等。

关键词:云计算 数据挖掘 数据挖掘平台

Keywords: cloud computing data mining data mining platform

选择的数据库:

1. 中文数据库:中国知网(CNKI ),万方数据资源系统,维普中文期刊数据库,超星数字图书馆电子图书(读秀学术搜索)

2. 外文数据库:ISI web of knowledge,Elsevier SDOL电子期刊

二、检索步骤及结果

I 、检索过程

1.中国知网(CNKI )

进入广东工业大学图书馆——中文数据库——中国知网——高级检索。

(1)检索式:关键词=云计算 并且 关键词=数据挖掘 并且 专题子栏目代码=A+B+C+E+I+J (模糊匹配)

时间:从1979到2013;排序:主题排序;

(2)检索式:发表时间 between (2012-06-01,) 并且 ( 关键词=云计算 并且 关键词=数据挖掘 ) 并且 专

题子栏目代码=A+B+C+E+I+J (模糊匹配) ;排序:主题排序;

第一次的检索的结果太多了,调整检索点,把发表时间改成2012年6月1号之后,搜索结果数适中。所以选取第(2)个检索式。

2.万方数据资源系统

进入广东工业大学图书馆——中文数据库——万方数据资源系——跨库检索。

(1)检索式:匹配方式:模糊

结果有1,292条。其中:

期刊论文(696) 学位论文(502) 会议论文(94)

:() * :() * Date:2012-2013(2)检索式:匹配方式:模糊

结果有58条。其中:

(54) (4) 会议论文(0)

第一次的检索的结果太多,调整检索词点,用题名或关键词检索,并把时间改为2012年,结果数适合。所以选取第(2)个检索式。

3.维普中文期刊数据库

进入广东工业大学图书馆——中文数据库——维普中文期刊数据库——高级检索。

(1)检索式:(题名或关键词=云计算)*(题名或关键词=数据挖掘)*全部期刊*年=1989-2013

匹配方式:模糊

结果有70条。

(2)检索式:(题名或关键词=云计算)*(题名或关键词=数据挖掘)*全部期刊*年=2012-2013

匹配方式:模糊

结果有48条。

第一次的检索的结果为70条,虽然结果数适中,但为了提高查准率,即更能放映近期的研究成果,把时间限制为2012年后。因此,选用第二个检索式。

4.超星数字图书馆电子图书(读秀学术搜索)

进入广东工业大学图书馆——中文数据库——超星数字图书馆电子图书——读秀学术搜索——图书——高级搜索。

(1)检索式:(书名 云计算 数据挖掘) and (分类=全部分类)

结果有0条。

(2)将图书改为期刊

检索式:(关键字=云计算) (关键字=数据挖掘) 限定年度范围:2012至2013

结果有57条。分析:第一次的检索的结果为0条,说明在图书方面没有这方面的书,调整检索式,在期刊方面有检索结果,所以选取第(2)个检索式。

5.ISI web of knowledge

进入广东工业大学图书馆——外文数据库——ISI web of knowledge——所有数据库

(1)检索式:主题=(cloud computing) AND 主题=(data mining)

时间跨度=2011-2013。

结果有73条。

(2)检索式:主题=(cloud computing) AND 主题=(data mining)

精炼依据: 研究领域=( SCIENCE TECHNOLOGY ) AND 研究方向=( COMPUTER SCIENCE )

时间跨度=2011-2013。

结果有53条。第一次的检索的结果为73条,虽然结果适中,但为了提高查准率,用研究领域和研究方向来限制精炼依据,所以选取第(2)个检索式。

6.Elsevier SDOL电子期刊

进入广东工业大学图书馆——外文数据库——Elsevier SDOL电子期刊——Advanced search

(1)检索式:pub-date > 2010 and TITLE-ABSTR-KEY(cloud computing) and TITLE-ABSTR-KEY(datamining)

结果有10条。

II 、选择并记录检索结果

1.中国知网

[1]

文摘格式:

Title-题名: 基于云计算的煤矿安全监测预警系统研究

Author-作者: 李昊旻; 卢建军; 卫晨;

Organ-单位: 西安邮电大学通信与信息工程学院;

Source-文献来源: 工矿自动化

Summary-摘要: 针对传统煤矿安全监测系统存在无法提前预测井下事故等问题, 提出一种基于云计算的煤矿安全监测预警系统, 介绍了云计算、SaaS 、数据挖掘等相关技术, 并详细阐述了系统总体架构及云数据中心的设计。该系统可以有效地预报井下瓦斯事故、机电事故、火灾事故、水害事故等, 降低发生安全事故的风险。引文格式:

[1]王小妮, 高学东, 倪晓明. 基于云计算的分布式数据挖掘平台架构[J].北京信息科技大学学报(自然科学版),2011,05:19-24.

摘要:针对互联网上数量众多的网站带宽资源长期浪费或突发资源短缺、响应时间长、服务器宕机、网站受到黑客攻击等问题, 提出了基于" 云" 的分布式web 安全系统及基于云计算的分布式数据挖掘平台架构, 并在此基础上提出了一种新型的分布式数据挖掘模式, 利用云计算技术, 可以方便地通过网络获取强大的计算能力和存储能力, 将消耗大量资源的复杂计算通过网络路由优化和资源约束自适应策略分布到多节点上进行, 然后通过组合不同数据站点上的局部数据模型, 最终得到全局数据模型。

[2]

文摘格式:

Title-题名: 基于云计算技术的数据挖掘

Author-作者: 应毅; 任凯; 刘正涛;

Organ-单位: 三江学院计算机科学与工程学院; 南京大学金陵学院; 中兴通讯股份有限公司南京研发中心; 南京航空航天大学信息科学与技术学院;

Source-文献来源: 微电子学与计算机

Summary-摘要: 基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈, 针对该问题, 提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理. 在对经典Apriori 算法MapReduce 化后, 建立了一个基于Hadoop 开源框架的并行数据挖掘平台, 并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性. 实验表明, 在集群中使用云计算技术处理大数据集, 可以明显提高数据挖掘的效率.

引文格式:

[1]应毅, 任凯, 刘正涛. 基于云计算技术的数据挖掘[J].微电子学与计算机,2013,02:161-164.

摘要:基于单一节点的数据挖掘系统在处理海量数据集时存在计算瓶颈, 针对该问题, 提出了一种基于云计算技术的数据挖掘方法:将大数据集和挖掘任务分解到多台计算机上并行处理. 在对经典Apriori 算法MapReduce 化后, 建立了一个基于Hadoop 开源框架的并行数据挖掘平台, 并通过对餐饮系统中点菜单的数据挖掘工作验证了该系统的有效性. 实验表明, 在集群中使用云计算技术处理大数据集, 可以明显提高数据挖掘的效率.

该文全文首页如下

图所示:

2.万方数据资源系统

[3]

{Reference Type}: Thesis

{Title}: 基于Hadoop 的Apriori 算法改进与移植的研究

{Author}: 朱安柱

{Publisher}: 华中科技大学

{Section}: 情报学

{Type of Work}: 硕士

{Year}: 2012

{Date}: 2012-05-01

{Keywords}: Hadoop

{Keywords}: Apriori算法

{Keywords}: MapReduce

{Keywords}: 关联规则

{Keywords}: 云计算

{Abstract}:

   随着计算机技术和互联网的飞速发展,Web2.0的成熟与广泛应用, 数据呈现爆炸式增长, 传统的数据挖掘算法在处理海量数据时效率低下, 云计算的出现为其改进带来了新的方式。云计算通过集群威力, 实现了对

Hadoop 作为一款比较成熟的开源云计算框架, 以其高效、海量数据的可靠存储和高速计算。可扩展、低成本等

优点在数据挖掘的相关领域得到了广泛应用。基于此, 本文...

{URL}: http://libwf.gdut.edu.cn/D/Thesis_D232733.aspx

{Database Provider}: 北京万方数据股份有限公司

{Language}: chi

[4]

{Reference Type}: Thesis

{Title}: 面向故障诊断的并行关联规则算法研究与实现

{Author}: 李栋

{Publisher}: 西安电子科技大学

{Section}: 计算机应用技术

{Type of Work}: 硕士

{Year}: 2012

{Date}: 2012-01-01

{Keywords}: 故障诊断

{Keywords}: 数据挖掘

{Keywords}: 关联规则

{Keywords}: 云计算

{Keywords}: MapReduce

{Abstract}:

  随着信息技术的飞速发展,设备日趋集成化与复杂化。对于如何能及时发现和预测故障,保证设备在工作期间高效、可靠的运行,以及如何从历史故障数据中形成对故障处理有效的信息,都具有重要的研究意义。传统的故障诊断方法存在诊断模型难以建立、依赖于主观经验、难以获得规则等缺陷,针对故障的多样性、复杂性、隐蔽性和相互之间的联系性常常无能为力。特别是在面临大规模数据集时,并不能高效的进行分析处...

{URL}: http://libwf.gdut.edu.cn/D/Thesis_D216744.aspx

{Database Provider}: 北京万方数据股份有限公司

{Language}: chi

会议论文:

[5]

{Reference Type}: Conference Proceedings

{Title}: 基于云计算的空间关联信息管理与服务技术研究

{Tertiary Title}: 2011年SuperMap GIS技术大会论文集

{Author}: 黄骞

{Author}: 王尔琪

{Author Address}: 北京超图软件股份有限公司, 北京 100015 超图地理信息技术研究所, 北京 100015{Author Address}: 北京超图软件股份有限公司, 北京 100015 超图地理信息技术研究所, 北京 100015{Secondary Title}: 2011年SuperMap GIS技术大会

{Place Published}: 北京

{Subsidiary Author}: 北京超图软件股份有限公司

{Year}: 2011

{Keywords}: 空间关联; 云计算; 分布式文件系统; 数据挖掘; 高性能

{Abstract}: 随着移动互联网时代的到来,面向以LBS 为代表的空间信息服务需求,空间关联云计算不仅在数据上突破了传统地图的局限,利用空间关联技术管理包含行业、视频、音频等多源数据,而且在功能上通过使用海量存储、深度挖掘分析、高并发访问、虚拟化等互联网技术,为空间信息服务的深度广度发展提供了基础。空间关联云计算平台面向政府、组织与公众的需求,采用开放平台业务模式,自底向上构建空间关联数据海量存储、分布式空间信息挖掘...

{URL}: http://libwf.gdut.edu.cn/D/Conference_7499897.aspx

{Date}: 2011

{Database Provider}: 北京万方数据股份有限公司

{Language}: chi

[6]

【名称】基于“云”计算平台的并行数据挖掘系统PDMiner

【完成人】何清, 曾立, 庄福振, 赵卫中, 谭庆, 马旭东, 马慧芳, 李金成, 刘秋阁

【完成单位】中国科学院计算技术研究所

【公布年份】2010

【登记年份】20101230

【项目年度编号】1200151402

【摘要】基于“云”计算平台的并行数据挖掘系统具有以下特点:(1)提供一系列并行挖掘算法和ETL 操作组件,开发的并行ETL 算法达到了线性加速比;可实现TB 级海量数据的预处理及之后的并行挖掘分析处理,且挖掘算法随节点数线性增加,加速比随之增加;(2)可稳定运行在256个节点组成的Linux 集群环境下,具有高可扩展性;(3)多个工作流任务可在云计算环境下的任意节点同时启动,互不干扰;(4)利用心跳包技术,可自动处理失败节点,具有高容错能力;已做出工作价值:(1)开发出中国通信行业最早的基于云计算平台的并行数据挖掘系统;(2)开发出的系统已经用于实际数据的挖掘,性能指标达到了预期要求;(3)达到了商

(4)该系统具有通用性,可以用于金融、用软件的精度,数据处理规模远远超出商用软件。税务、证券、各行业

企业客户关系管理,具有广泛、重大产业应用前景,会产生重大的经济效益和社会效益。

3.维普中文期刊数据库

[7]

【题名】无线电管理“四个体系”建设的技术路线分析

【作者】何廷润 孙美玉

【机构】国家无线电频谱管理研究所

【刊名】中国无线电.2013(2).-6-8

【文摘】在遵循战略目标的基础上.分析了无线电管理“四个体系”建设技术路线的选择标准,指出云计算和数据挖掘技术是无线电管理“四个体系”建设的核心技术,并研究了基于Hadoop 分布式云计算平台和数据挖掘平台的体系架构。

[8]

【题名】基于云计算平台的聚类算法研究进展

【作者】张锦杏 缪裕青 邱良佩 文益民

【机构】桂林电子科技大学计算机科学与工程学院, 广西桂林541004

【刊名】桂林电子科技大学学报.2013(1).-23-28

【文摘】基于云计算平台的数据挖掘主要目的是为了更好地处理海量数据,挖掘有用的信息。云计算为海量数据挖掘提供了强大的数据收集、存储和计算能力,简述了云计算技术及其研究现状,详细介绍了基于云计算平台的聚类算法,总结在云计算平台研究聚类所遇到的新问题,对基于云计算平台的聚类发展趋势进行展望。

4.ISI web of knowledge

[9]

标题: (翻译:可扩展的并行计算在云使用Twister4Azure 迭代MapReduce )

作者: Gunarathne, Thilina; Zhang, Bingjing; Wu, Tak-Lon; 等.

来源出版物: FUTURE GENERATION COMPUTER SYSTEMS-THE INTERNATIONAL JOURNAL OF GRIDCOMPUTING AND ESCIENCE 卷: 29 期: 4 页: 1035-1048 DOI: 10.1016/j.future.2012.05.027 出版年: JUN 2013

Abstract :Recent advances in data-intensive computing for science discovery are fueling a dramaticgrowth in the use of data-intensive iterative computations. The utility computing model introduced bycloud computing, combined with the rich set of cloud infrastructure and storage services, offers a veryattractive environment in which scientists can perform data analytics. The challenges to large-scaledistributed computations on cloud environments demand innovative computational frameworks that arespecifically tailored for cloud characteristics to easily and effectively harness the power of clouds. Twister4Azure is a distributed decentralized iterative MapReduce runtime for Windows Azure Cloud.Twister4Azure extends the familiar, easy-to-use MapReduce programming model with iterative extensions, enabling a fault-tolerance execution of a wide array of data mining and data analysis applications on the Azure cloud. Twister4Azure utilizes the scalable, distributed and highly availableAzure cloud services as the underlying building blocks, and employs a decentralized control architecturethat avoids single point failures. Twister4Azure optimizes the iterative computations using a multi-levelcaching of data, a cache aware decentralized task scheduling, hybrid tree-based data broadcasting andhybrid intermediate data communication. This paper presents the Twister4Azure iterative MapReduceruntime and a study of four real world data-intensive scientific applications implemented using Twister4Azure two iterative applications, Multi-Dimensional Scaling and KMeans Clustering; and twopleasingly parallel applications, BLAST+ sequence searching and SmithWaterman sequence alignment.

Performance measurements show comparable or a factor of 2 to 4 better results than the traditionalMapReduce runtimes deployed on up to 256 instances and for jobs with tens of thousands of tasks. Wealso study and present solutions to several factors that affect the performance of iterative MapReduceapplications on Windows Azure Cloud, (c) 2012 Elsevier B.V. All rights reserved,

(第一句的翻译:在数据密集型计算的最新进展对科学发现正在推动一个戏剧性的增长数据密集型计算的使用迭代。)

6.Elsevier SDOL电子期刊

[10]

标题:Us er P r ofil e T r acki n g by W e b Usag e Mi n i n g i n Cloud Compu t i n g

翻译用户配置文件跟踪网络使用挖掘在云计算)

III 、相关的学者

1. 余楚礼

期刊论文:《一种基于Hadoop 的并行关联规则算法》

《电动汽车锂离子电池的生热特性》

《基于Fluent 的电动汽车电机控制器冷却板改进》

三、文献综述

随着计算机技术和互联网的飞速发展,W e b 2. 0的成熟与广泛应用,数据呈现爆炸式增长,传统的数据挖掘算法在处理海量数据时效率低下,云计算的出现为其改进带来了新的方式。云计算通过集群威力,实现了对海量数据的可靠存储和高速计算。在这一领域,也涌现出许多新的方法。

以下是部分新的方法介绍:

基于Hadoop 的Ap r io r i 算法改进与移植。[文献3]对Hadoop 的HDFS 和MapR e duc e的核心架构、技术以及相关1、

的机制进行了分析和研究,同时对数据挖掘的发展历程、步骤和分类分别论述。通过与典型的数据挖掘系统架构进行整合,对基于Hadoop 的数据挖掘系统架构进行了理论设计,然后详细描述Ap r io r i 算法,利用MapR e duc e 编程模式,提出基于数据库划分的并行化改进的思想,并对其进行了详细阐述和设

2、基于云计算的空间关联洞察。[文献5]空间关联数据海量存储,采用分布式文件系统与分布式数据库等分布式存储技术,实现对基础地图数据、遥感影像、环境监测等行业专题数据、视频音频等监测数

据的高可用空间关联存储。分布式空间信息挖掘,基于通用并行计算框架(如MapR e duc e、Hama ) 和工作流框架(如Oozi e ) ,搭建空间ETL 、空间索引,高并发服务接口,包含多级一体化服务体系及集群服务能力,提供对数据访问、查询分析、编辑共享等功能的高并发访问能力,对外提供W e b 服务、管理门户、AP I与社区等服务接口。

3、基于层次聚类算法。[文献8]使用MapR e duc e实现了一种有效的层次聚类算法,处理超大规模W e b 日志,以对网络用户进行分组。在预处理阶段,用基于词汇共现的特征选择方法进行降维和噪声消除。根据关键字出现的次数和关键字共现的频率计算关键字的“吸引度”,只选择“吸引度”最高的N 个关键字来代表用户感兴趣的话题。在聚类阶段,使用分批更新的方法将多个迭代操作合并在一起执行,减少节点的计算时间和节点间的通信开销。实验结果表明,使用这2种技术,算法的总运行时间减少了近1/5,算法的的准确度也得到了提升。

综上所述,现在的数据挖掘更多地是利用云计算的平台,去更好,更快的发现海量数据中的信息等问题。此外,云计算给软件带来的变革主要表现在Saas (软件即服务)。软件的单机安装将逐渐被云计算平台部署所代替,用户只需通过网络浏览器便可享受快速高质的云服务,中小企业既可以在公共云计算平台上使用云服务软件,也可以在硬件开支不大的情况下部署自己的云计算平台,从而实现高性能、低成本的计算。随着云计算的发展,很多公共需求的服务将会日益满足大众需求,普惠各个行业。数据挖掘远比信息搜索要复杂。过去对海量数据的处理主要是通过高性能机或者更大规模的计算设备来实现,现在通过基于云计算的数据挖掘能更好地达到目的。采用云计算模式有许多好处,成本低廉、容错性强、计算速度快、程序开发便捷、节点的增加更容易。可以说云计算是数据挖掘中普遍适用较为理想的计算模式,也是我们从海量数据中找到有用、可理解的知识的技术手段。

参考文献:

[3]朱安柱. 基于Hadoop 的Apriori 算法改进与移植的研究[D].华中科技大学,2012.

[5]黄骞, 王尔琪. 基于云计算的空间关联信息管理与服务技术研究[C].//2011年SuperMap GIS技术大会论文集.2011:68-72.

[8]张锦杏,缪裕青,邱良佩,文益民. 基于云计算平台的聚类算法研究进展[J]. 桂林电子科技大学学

报, 2013, 01:23-28.

四、检索体会

文献检索是一项实践性很强的活动,它要求我们善于思考,并通过经常性的实践,逐步掌握文献检索的规律,从而迅速、准确地获得所需文献。以下是我的几点体会。

其一,1.确定检索题目2.确定数据库进行检索, 选择检索工具3.确定检索途径和检索方法4. 选择检索字段、输入检索词、选择逻辑组配关系。最重要的是文献检索的途径和方法。这往往要经过多次尝试与练习才能找到比较理想的检索方式。较重要的检索词放在关键字字段,次重要的一般放在主题词字段。

我本人在检索过程中应用较多的是关键字途径检索。在检索时,我们不仅可以了解这篇文章的作者,文章来源,参考文献等相关信息,还可以了解其相关专利信息,下载其pdf 或其他格式进行阅读,非常全面具体!

对检索结果进行分析时,查全率和查准率,如果一味提高查全率而忽视查准率则可能会造成查全率很高而查准率很低,可能差的很多文献都没有用;反之,如果只提高查准率而忽视查全率,则可能会造成查准率很高而查全率很低,只检索到很少的文献,造成文献漏检。因此,要根据我们的需求适当地调整查全率及查准率。

其二,通过这对文献检索的学习,我学到了很多对今后生活很有用处的知识。我学到了CNK I、维普、万方等数据库的应用,学会使用这些数据库对我以后在查找文献方面提供了很大的便利,尤其是CNK I 应用起来极其方便,用校园网直接能上,还能免费下载全文。

最后,文献检索是一门实用性很强的课程,在没学习这门课以前,我遇到需查阅的问题,只知道查阅百度,而且一般都只看中文网站,学习后,我们能够较充分地综合利用学校的资源,获得更权威,更可靠的知识!

总之,经过这一个学期的学习,我对文献检索这个课程有了更加深刻的了解,也对如何选好关键词这个重点、难点有了一定的掌握。在这个信息爆炸的时代,我们必须尽可能多地掌握更多的信息,尽可能地充实自己,完善自己,所以掌握数据库的应用在我们今后的生活中会很有好处的。文献检索是门结合知识性和应用性为一体的学科,对我们的自学能力是一种提高,对将来的学习很有帮助


相关文章

  • 文献检索论文报告
  • <文献检索与利用> 课程报告 姓名: 张小超学号: 院系:电子信息工程学院班班 级: 自动化2班 课题名称(中英文): 中文: 英文: 选题简介 课题名称(中文和英文) 课题:云计算在搜索引擎中的应用 Task: Cloud c ...查看


  • 信息检索的核心支撑技术 中文全文检索网
  • 信息检索的核心支撑技术 http://FullSearch.Com 中文全文检索网 2004-9-15 9:52:54 关键词:信息检索 (Information Retrieval),通常指文本信息检索,包括信息的存储.组织.表现.查询. ...查看


  • [文献检索]高级路由检索检索报告及范例
  • <文献检索>课程 检索报告 题目高级路由与交换技术文献检索 姓名王永强 专业计算机科学与技术一班 学号201215054 一.检索课题:中文:高级路由与交换技术 中文关键词:高级路由,交换技术 英文:Advanced routi ...查看


  • 多媒体技术的研究与发展1
  • 多媒体技术研究的主要内容 随着多媒体应用越来越广,为了使多媒体技术更加人性化,多媒体技术一直被看做信息技术研究的热门课题.目前,多媒体技术研究的关键问题包括多媒体数据压缩解压算法与标准.多媒体数据的组织与管理.多媒体数据存储技术.多媒体数据 ...查看


  • 研究报告范文
  • 三维CAD模型检索技术研究现状与发展趋势 [摘要]对目前三维CAD模型检索技术的研究现状和发展趋势进行了的综述.首先从文本检索.内容检索和语义检索三个方面对三维CAD模型检索技术国内外研究现状进行了全面论述:分析总结了现有三维CAD模型检索 ...查看


  • 信息检索结课论文1
  • 信息检索结课论文 题 目: 学 院: 专 业: 学生姓名: 学 号: 授课教师: 基于网络的信息检索应用研究 计算机科学与工程学院 基于网络的信息检索应用研究 王扬波 (武汉大学 计算机学院 电子与通信工程) 摘 要:网络信息检索一般指因特 ...查看


  • 信息检索中的查询扩展技术综述
  • 摘 要:查询扩展技术是提高信息检索查准率和查全率的有效手段.文章介绍了几种重要的查询扩展技术的工作原理,并对他们的算法效率进行了分析和比较. 关键词:信息检索:查询扩展:相关反馈 中图分类号:TP391.3 信息检索中由于一般用户在检索时输 ...查看


  • 中国期刊网实习
  • 机检实习二 CNKI中国知网中国期刊全文数据库 姓名:王志强 学号 :2011509136 练习数据库:CNKI中国知网中国期刊全文数据库 练习题目 查找"烤箱温度控制系统设计与仿真"方面的相关文献 练习过程和检索策略 ...查看


  • 信息检索综合报告
  • 目录 第一部分 课题分析 ................................................. 2 第二部分 检索策略与结果 .......................................... ...查看


热门内容