数据挖掘感想

数据挖掘感想

通过学习一个学期的数据挖掘课对数据挖掘有了一定的理解,也掌握了,理解了一些数据挖掘中用到的重要的算法。在这个数据膨胀的大数据时代我们需要筛选,查询数据,处理数据。我们看到的听到的都是数据,在这互联网时代数据更多,信息很多。但是有些网站比如百度,谷歌,雅虎等为我们的学习生活带来了很多便利。我们为了更正确更有效的利用和处理数据必须要利用数据挖掘技术,因为有了这技术我们以后的数字化生活变得更方便,不会因为数据多,信息多而感到反感。所以我真正的体会到了数据挖掘的优越性。同时我学习一些算法过后也感觉到了其复杂性,因为数据挖掘算法众多,掌握起来比较困难。

我们主要学习了贝叶斯分类算法,决策树分类算法等算法,这些是比较简单并且利用比较广泛的算法。也学习了数据的概念,数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。我们首先收集大量的数据然后对此进行数据描述分类数据,然后优化净化数据,并对此进行分类整理,保存查询,搜索数据等。

贝叶斯算法:贝叶斯分类基于贝叶斯定理,贝叶斯定理是由18世纪概率论和决策论的早起研究者Thomas Bayes发明的,故用其名字命名为贝叶斯定理。分类算法的比较研究发现,一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也已表现出高准确

率和高速度。 目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN 、BAN 和GBN 。

朴素贝叶斯分类是一种十分简单的分类算法,思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类。

贝叶斯定理(Bayes' theorem )是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。

通常,事件A 在事件B (发生)的条件下的概率,与事件B 在事件A 的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。

贝叶斯公式提供了从先验概率P(A)、P(B)和P(B|A)计算后验概率P(A|B)的方法:P(A|B)=P(B|A)*P(A)/P(B) ,P(A|B)随着P(A)和P(B|A)的增长而增长,随着P(B)的增长而减少,即如果B 独立于A 时被观察到的可能性越大,那么B 对A 的支持度越小。

举例:一个天气估计问题

• 两个假设H: h1={晴天}、h2={非晴天}

• 可观察到的数据:温度高+和温度低-

• 先验知识p(h)

• 北京晴天的概率0.99:

P(h1)=0.99

• 非晴天0.01: P(h2)=0.01

• 观察到的概率P(D|h):

• P(温度高 | 晴天) = 0.85 P(温度低 | 非晴天) = 0.93

• 问题:现在观察到温度低,判断是否非晴天?

极大似然计算

● P(非晴天 | 温度低)

∝ P(温度低|非晴天)

= 0.93

● P(晴天 | 温度低)

∝ P(温度低|晴天)

= 0.15

● 答案:非晴天

决策树:

决策树:训练集:数据的集合,用于生成树(模型)

测试集:用于测试树(模型)的性能

决策树作用:主要就是训练数据除去脏数据

● 通过训练集

● 算法指导下

● 生成决策树

● 新数据进行划分

● 否则是“三拍”决策

数据大量产生,技术的成熟提供基础

数据大量产生这一点就不用说了,看看我们每个人一天的生活里会有多大的比例泡在网上,再加上未来各种可穿戴设备,物联网的普及,数据量之大难以想象。我主要想谈谈技术,也许技术这个词不够专业,自己在编程,数据存储方面也不是特别了解,这里就说说算法这一部分。记得原先在《数据结构和算法》一开篇就提到关于等差数列求和的计算机求和计算,我们从小就知道等差数列的求和可利用算法公式,该算法利用了首尾两个数据和是一样的数据结构特征从而更简洁。告诉计算机进行求和命令可以是两种方法 1. 一项项的加,2.

直接利用算法,利用第一个方式可能在数据量少的时候计算速度与第二种相比不会有太大的差异,但如果数据量很大,后者的优越性将很明显。后来在接触到Apriori 算法时候里用看到算法会用到一些剪枝手段减少计算机运算量的时候忍不住拍案叫绝。

另外,各式各样的统计软件的背后都有着大量的contributors 将自己的算法程序包分享到网上,供后来人更便捷的调用使用。互联网的这种集体智慧的共享创造方式让后来人站在前人的肩膀上,走的更远。但是在调用这些算法的过程中还是要对算法本身有一些原理上的理解,算法和数据结构是钥匙和锁,我们在实际操作的过程中还需要根据具体的情况灵活和适当的使用,会在后面的分享里细说。

信息也是产品

许多公司所拥有的客户信息不仅仅对自己有价值,同时对他人也同样具有价值。如今很多的淘宝店铺之间也有了很多的消费者数据的共享。互联网也改变了品牌和品牌之间的关系,一个拥有很多青少年儿童数据的公司完全可以将自己的数据分享给做儿童食品的公司,或者更进一步,分享彼此所拥有的平台。

2. 数据挖掘 for “actionable”insightsdiscovery

数据挖掘有很多不同的名称,例如KDD(knowledge

discovery in database),或者BI(businessintelligence),预测建模(predictive model)等,但针对我们业务感受,我更愿意把数

据挖掘定义为发现能够让品牌商产生真正落地行为的洞察或发现。以下举两个在项目中的小例子:

在电商的数据挖掘中,我们通过对消费者的表达研究了解消费者购买产品的关注重点是什么,影响产品满意度的重要因素是什么,其次我们会对消费者的线上购买行为数据进行研究,去看消费者购买除了买自己品牌的商品同时还会购买哪些竞品品牌。结合这表达和行为的洞察,再深入探究竞品的商品展示,宣传,品牌形象,等等各方面和本品之间的差异点。这样品牌商在电商运营中更能有方向性的去改进产品和消费者之间的沟通方式。

所以,数据挖掘是在一项探测大量数据以发现有意义的模式和规则的业务流程,我们关注的重点在于发现的知识是否有意义,是否actionable 。正如沈浩老师说的:“这是一个令人兴奋的时代,也是一个大数据的时代,社交媒体让我们越来越多地从数据中观察到人类社会的复杂行为模式。以数据为基础的技术决定着人类的未来,但并非是数据本身改变了我们的世界,起决定作用的是我们对可用知识的增加。

数据挖掘感想

通过学习一个学期的数据挖掘课对数据挖掘有了一定的理解,也掌握了,理解了一些数据挖掘中用到的重要的算法。在这个数据膨胀的大数据时代我们需要筛选,查询数据,处理数据。我们看到的听到的都是数据,在这互联网时代数据更多,信息很多。但是有些网站比如百度,谷歌,雅虎等为我们的学习生活带来了很多便利。我们为了更正确更有效的利用和处理数据必须要利用数据挖掘技术,因为有了这技术我们以后的数字化生活变得更方便,不会因为数据多,信息多而感到反感。所以我真正的体会到了数据挖掘的优越性。同时我学习一些算法过后也感觉到了其复杂性,因为数据挖掘算法众多,掌握起来比较困难。

我们主要学习了贝叶斯分类算法,决策树分类算法等算法,这些是比较简单并且利用比较广泛的算法。也学习了数据的概念,数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。我们首先收集大量的数据然后对此进行数据描述分类数据,然后优化净化数据,并对此进行分类整理,保存查询,搜索数据等。

贝叶斯算法:贝叶斯分类基于贝叶斯定理,贝叶斯定理是由18世纪概率论和决策论的早起研究者Thomas Bayes发明的,故用其名字命名为贝叶斯定理。分类算法的比较研究发现,一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库,贝叶斯分类法也已表现出高准确

率和高速度。 目前研究较多的贝叶斯分类器主要有四种,分别是:Naive Bayes、TAN 、BAN 和GBN 。

朴素贝叶斯分类是一种十分简单的分类算法,思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类。

贝叶斯定理(Bayes' theorem )是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理能够告知我们如何利用新证据修改已有的看法。

通常,事件A 在事件B (发生)的条件下的概率,与事件B 在事件A 的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。

贝叶斯公式提供了从先验概率P(A)、P(B)和P(B|A)计算后验概率P(A|B)的方法:P(A|B)=P(B|A)*P(A)/P(B) ,P(A|B)随着P(A)和P(B|A)的增长而增长,随着P(B)的增长而减少,即如果B 独立于A 时被观察到的可能性越大,那么B 对A 的支持度越小。

举例:一个天气估计问题

• 两个假设H: h1={晴天}、h2={非晴天}

• 可观察到的数据:温度高+和温度低-

• 先验知识p(h)

• 北京晴天的概率0.99:

P(h1)=0.99

• 非晴天0.01: P(h2)=0.01

• 观察到的概率P(D|h):

• P(温度高 | 晴天) = 0.85 P(温度低 | 非晴天) = 0.93

• 问题:现在观察到温度低,判断是否非晴天?

极大似然计算

● P(非晴天 | 温度低)

∝ P(温度低|非晴天)

= 0.93

● P(晴天 | 温度低)

∝ P(温度低|晴天)

= 0.15

● 答案:非晴天

决策树:

决策树:训练集:数据的集合,用于生成树(模型)

测试集:用于测试树(模型)的性能

决策树作用:主要就是训练数据除去脏数据

● 通过训练集

● 算法指导下

● 生成决策树

● 新数据进行划分

● 否则是“三拍”决策

数据大量产生,技术的成熟提供基础

数据大量产生这一点就不用说了,看看我们每个人一天的生活里会有多大的比例泡在网上,再加上未来各种可穿戴设备,物联网的普及,数据量之大难以想象。我主要想谈谈技术,也许技术这个词不够专业,自己在编程,数据存储方面也不是特别了解,这里就说说算法这一部分。记得原先在《数据结构和算法》一开篇就提到关于等差数列求和的计算机求和计算,我们从小就知道等差数列的求和可利用算法公式,该算法利用了首尾两个数据和是一样的数据结构特征从而更简洁。告诉计算机进行求和命令可以是两种方法 1. 一项项的加,2.

直接利用算法,利用第一个方式可能在数据量少的时候计算速度与第二种相比不会有太大的差异,但如果数据量很大,后者的优越性将很明显。后来在接触到Apriori 算法时候里用看到算法会用到一些剪枝手段减少计算机运算量的时候忍不住拍案叫绝。

另外,各式各样的统计软件的背后都有着大量的contributors 将自己的算法程序包分享到网上,供后来人更便捷的调用使用。互联网的这种集体智慧的共享创造方式让后来人站在前人的肩膀上,走的更远。但是在调用这些算法的过程中还是要对算法本身有一些原理上的理解,算法和数据结构是钥匙和锁,我们在实际操作的过程中还需要根据具体的情况灵活和适当的使用,会在后面的分享里细说。

信息也是产品

许多公司所拥有的客户信息不仅仅对自己有价值,同时对他人也同样具有价值。如今很多的淘宝店铺之间也有了很多的消费者数据的共享。互联网也改变了品牌和品牌之间的关系,一个拥有很多青少年儿童数据的公司完全可以将自己的数据分享给做儿童食品的公司,或者更进一步,分享彼此所拥有的平台。

2. 数据挖掘 for “actionable”insightsdiscovery

数据挖掘有很多不同的名称,例如KDD(knowledge

discovery in database),或者BI(businessintelligence),预测建模(predictive model)等,但针对我们业务感受,我更愿意把数

据挖掘定义为发现能够让品牌商产生真正落地行为的洞察或发现。以下举两个在项目中的小例子:

在电商的数据挖掘中,我们通过对消费者的表达研究了解消费者购买产品的关注重点是什么,影响产品满意度的重要因素是什么,其次我们会对消费者的线上购买行为数据进行研究,去看消费者购买除了买自己品牌的商品同时还会购买哪些竞品品牌。结合这表达和行为的洞察,再深入探究竞品的商品展示,宣传,品牌形象,等等各方面和本品之间的差异点。这样品牌商在电商运营中更能有方向性的去改进产品和消费者之间的沟通方式。

所以,数据挖掘是在一项探测大量数据以发现有意义的模式和规则的业务流程,我们关注的重点在于发现的知识是否有意义,是否actionable 。正如沈浩老师说的:“这是一个令人兴奋的时代,也是一个大数据的时代,社交媒体让我们越来越多地从数据中观察到人类社会的复杂行为模式。以数据为基础的技术决定着人类的未来,但并非是数据本身改变了我们的世界,起决定作用的是我们对可用知识的增加。


相关文章

  • 信息检索课程感想
  • 信息检索课程感想 经过短短的几周学习,从以前只会用百度查找自己需要的材料,到现在可以用多种检索工具更加全面系统的查找自己所需要的材料,让我感受到这么课程具有十分的实用性. 在现代社会中,信息与人们生活息息相关,人们的衣食住行离不开信息,人们 ...查看


  • [Rework]摘录及感想
  • 读了<Rework>这本书好多遍,每次读都有不同的感想.但从来没有把这些感想记录下来,今天把<Rework>书中的一些章节做一些摘录,并把我的一些感想总结出来.供大家参考.这是一本平生以来让我中毒很深的书,也是一本让 ...查看


  • 气象观测员心得感想
  • 气象观测员心得感想 抬头看云.雨中漫步在别人看来是很浪漫的事,可是对于气象观测员来说却早已成为习惯.云在他们的眼中只有形状和种类,雨对于他们来说也只是一种天气现象,全然没有了浪漫的色彩,那一组组枯燥的数字书写着他们寂寞的青春,然而,他们依然 ...查看


  • 学术讲座学习感想
  • xx 大 学 学术讲座学习感想 学院:计算机与信息技术学院 专业:计算机科学与技术专业 姓名:sdfso 学号:[1**********] 时间:2013/6/20 学术讲座学习感想 一个学期学术讲座的学习中,老师们多方面多角度对我们计算机 ...查看


  • [花果山田野游记]亲切而尴尬的灵长类学 --有关灵长类学的感想 | 第10期
  • 按照现在较为准确的说法,灵长类学,主要以与人类近缘的非人灵长类(猿猴)为模型,借助动物行为学.生态学.心理学.生理学.遗传学等学科的研究方法,深入探讨人类起源.灵长类进化和病理等人类学关键问题,是一个跨越生物学与人类学的桥梁学科. 不可否认 ...查看


  • 2016年315观后感想
  • 1991年3月15日,中央电视台经济部的编导们在激情和探索欲的鼓动下推出现场直播"3·15国际消费者权益日消费者之友专题晚会".首届"3·15晚会"虽然曝光力度还不够大,形式也并不完善,但在中国经济蓄 ...查看


  • 概率论与数理统计学习的感想
  • 概率论与数理统计学习的感想 概率问题是研究随机现象统计规律性的学科, 是近代数学的一个重要组成部分,生活中概率与统计知识应用非常普遍,科学家对实验统计的数据的分析,企业对产品质量检查,产品的市场分析,人口普查,有奖债券,国家彩票等等都用到了 ...查看


  • 学习[科研诚信和学术规范]的认识与感想
  • 学习<科研诚信与学术规范>的认识与感想 在学习<科研诚信与学术规范>这门课的过程中,让我对科研诚信有了更深刻的解读和认识,对学术规范也有了更详尽的了解. 诚信,在我们的生活中,是一个公民的基本道德规范,是一个人立身社 ...查看


  • 听了华老师的课感想
  • 听了华老师的课,我受到了很多的启示:没有平时的积累,没有课前的精心预设,是不会有课堂上的精彩频现的.华老师的这节课是在学生已经学习了平均数的基础上再精心设计的一堂课,让我受益匪浅. 一.尊重别人,彰显风采. 1.尊重听课老师.华老师是我听过 ...查看


热门内容