聚类分析.数据挖掘.关联规则这几个概念的关系

聚类分析和关联规则属于数据挖掘这个大概念中的两类挖掘问题,

聚类分析是无监督的发现数据间的聚簇效应。

关联规则是从统计上发现数据间的潜在联系。

细分就是

聚类分析与关联规则是数据挖掘中的核心技术;

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。

从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。

从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(AssociationRules)。

关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组

(LargeItemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。

关联规则挖掘的第二阶段是要产生关联规则(AssociationRules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(MinimumConfidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。

按照不同情况,关联规则可以进行分类如下:

1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字

段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书”,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。

2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。

3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。 在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。

聚类分析和关联规则属于数据挖掘这个大概念中的两类挖掘问题,

聚类分析是无监督的发现数据间的聚簇效应。

关联规则是从统计上发现数据间的潜在联系。

细分就是

聚类分析与关联规则是数据挖掘中的核心技术;

从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。

从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。

聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。

从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。

关联规则挖掘过程主要包含两个阶段:第一阶段必须先从资料集合中找出所有的高频项目组(FrequentItemsets),第二阶段再由这些高频项目组中产生关联规则(AssociationRules)。

关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组

(LargeItemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。

关联规则挖掘的第二阶段是要产生关联规则(AssociationRules)。从高频项目组产生关联规则,是利用前一步骤的高频k-项目组来产生规则,在最小信赖度(MinimumConfidence)的条件门槛下,若一规则所求得的信赖度满足最小信赖度,称此规则为关联规则。

按照不同情况,关联规则可以进行分类如下:

1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。 布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字

段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理,当然数值型关联规则中也可以包含种类变量。例如:性别=“女”=>职业=“秘书”,是布尔型关联规则;性别=“女”=>avg(收入)=2300,涉及的收入是数值类型,所以是一个数值型关联规则。

2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。 在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。例如:IBM台式机=>Sony打印机,是一个细节数据上的单层关联规则;台式机=>Sony打印机,是一个较高层次和细节层次之间的多层关联规则。

3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。 在单维的关联规则中,我们只涉及到数据的一个维,如用户购买的物品;而在多维的关联规则中,要处理的数据将会涉及多个维。换成另一句话,单维关联规则是处理单个属性中的一些关系;多维关联规则是处理各个属性之间的某些关系。例如:啤酒=>尿布,这条规则只涉及到用户的购买的物品;性别=“女”=>职业=“秘书”,这条规则就涉及到两个字段的信息,是两个维上的一条关联规则。


相关文章

  • 数据挖掘在中国的现状和发展研究
  • 管 理 工 程 学 报 Vol . 18, No . 3 Journal of Industrial Engineering Engineering Management 2004年第3期 数据挖掘在中国的现状和发展研究 李菁菁, 邵培基, ...查看


  • 基于结构化属性集的规则学习
  • 第30卷第8期 2010年8月 计算机应用 JournalofComputerApplications V01.30No.8 Aug.2010 文章编号:1001-9081(2010)08-2010-03 基于结构化属性集的规则学习 时百胜 ...查看


  • 在职研究生学位论文之数据挖掘技术在电子商务中的应用
  • 在职研究生学位论文之数据挖掘技术在电子商务中的应用 [摘要]本文论述数据挖掘技术在电子商务中的应用,提出选择数据挖掘技术的两个重要依据,以便开发出有效.实用的数据挖掘系统. [关键词]数据挖掘 电子商务 1.引言 目前,如何对网络上大量的信 ...查看


  • 基于关联分析的网络数据可视化技术研究综述
  • 第42卷第6A期 2015年6月 计算机科学 Computer Science V01.42No.6A June2015 '基于关联分析的网络数据可视化技术研究综述 孙秋年饶元 (西安交通大学软件学院 摘要 西安710054) 当今万维网. ...查看


  • 大数据案例:啤酒尿布的关联算法怎么来的?
  • 故事背景: 在一家超市中,通过大数据分析发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不相及的商品的销售数据曲线竟然初期的相似,于是就将尿布与啤酒摆在一起.没想到这一举措居然使尿布和啤酒的销量大幅增加了.这可不是一个笑话,而是一直被商家所 ...查看


  • 协同进化算法在关联规则挖掘中的研究
  • 摘要:文中结合遗传算法和粒子群优化算法各自的优势,采用协同进化的思想,同时应用两种算法来遍历两个种群,并引入它们的信息交互机制.最后,实验和应用证明,在可接受的时间复杂度的前提下,协同进化算法不但能继承传统遗传算法的优越性,有效地减少扫描数 ...查看


  • 中药药性与毒性之间的关联分析_杨霖
  • 医学信息2011年2月第24卷第2期Medical Information. Feb 2011. Vol. 24. No.2 医学信息学 ·临床医学信息学· 中药药性与毒性之间的关联分析 杨霖,祁明媛,俞仲毅 (上海中医药大学,上海2012 ...查看


  • 内部评级系统的数据管理
  • 内部评级系统的数据管理 中国建设银行风险管理部 武 剑 巴塞尔新资本协议于2004年6月正式公布,并将从2006年在全球范围开始实施.新协议强调内部评级法(IRB )在风险管理和资本监管中的重要作用,倡导国际活跃银行基于内部数据和管理标准, ...查看


  • 数据库系统原理04735课后习题参考答案
  • 数据库系统原理04735课后习题答 第一章. 数据库系统基本概念 1.1. 名词解释 DB --DB 是长期存储在计算机内.有组织的.统一管理的相关数据的集合.DB 能为各种用户共享,具有较小冗余度.数据间联系紧密而又有较高的数据独立性等特 ...查看


热门内容