数据挖掘感想

数据挖掘感想

通过学习一个学期的数据挖掘课对数据挖掘有了一定的理解，也掌握了，理解了一些数据挖掘中用到的重要的算法。在这个数据膨胀的大数据时代我们需要筛选，查询数据，处理数据。我们看到的听到的都是数据，在这互联网时代数据更多，信息很多。但是有些网站比如百度，谷歌，雅虎等为我们的学习生活带来了很多便利。我们为了更正确更有效的利用和处理数据必须要利用数据挖掘技术，因为有了这技术我们以后的数字化生活变得更方便，不会因为数据多，信息多而感到反感。所以我真正的体会到了数据挖掘的优越性。同时我学习一些算法过后也感觉到了其复杂性，因为数据挖掘算法众多，掌握起来比较困难。

我们主要学习了贝叶斯分类算法，决策树分类算法等算法，这些是比较简单并且利用比较广泛的算法。也学习了数据的概念，数据理解包括收集原始数据、数据描述、数据探索分析和数据质量描述。我们首先收集大量的数据然后对此进行数据描述分类数据，然后优化净化数据，并对此进行分类整理，保存查询，搜索数据等。

贝叶斯算法：贝叶斯分类基于贝叶斯定理，贝叶斯定理是由18世纪概率论和决策论的早起研究者Thomas Bayes发明的，故用其名字命名为贝叶斯定理。分类算法的比较研究发现，一种称为朴素贝叶斯分类法的简单贝叶斯分类法可以与决策树和经过挑选的神经网络分类器相媲美。用于大型数据库，贝叶斯分类法也已表现出高准确

率和高速度。目前研究较多的贝叶斯分类器主要有四种，分别是：Naive Bayes、TAN 、BAN 和GBN 。

朴素贝叶斯分类是一种十分简单的分类算法，思想基础是这样的：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类。

贝叶斯定理（Bayes' theorem ）是概率论中的一个结果，它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中，贝叶斯定理能够告知我们如何利用新证据修改已有的看法。

通常，事件A 在事件B （发生）的条件下的概率，与事件B 在事件A 的条件下的概率是不一样的；然而，这两者是有确定的关系，贝叶斯定理就是这种关系的陈述。

举例：一个天气估计问题

• 两个假设H: h1={晴天}、h2={非晴天}

• 可观察到的数据：温度高+和温度低-

• 先验知识p(h)

• 北京晴天的概率0.99：

P(h1)=0.99

• 非晴天0.01： P(h2)=0.01

• 观察到的概率P(D|h)：

•

• P(温度高 | 晴天) = 0.85 P(温度低 | 非晴天) = 0.93

• 问题：现在观察到温度低，判断是否非晴天？

极大似然计算

● P(非晴天 | 温度低)

∝ P(温度低|非晴天)

= 0.93

● P(晴天 | 温度低)

∝ P(温度低|晴天)

= 0.15

● 答案：非晴天

决策树：

决策树：训练集：数据的集合，用于生成树（模型）

测试集：用于测试树（模型）的性能

决策树作用：主要就是训练数据除去脏数据

● 通过训练集

● 算法指导下

● 生成决策树

● 新数据进行划分

● 否则是“三拍”决策

数据大量产生，技术的成熟提供基础

数据大量产生这一点就不用说了，看看我们每个人一天的生活里会有多大的比例泡在网上，再加上未来各种可穿戴设备，物联网的普及，数据量之大难以想象。我主要想谈谈技术，也许技术这个词不够专业，自己在编程，数据存储方面也不是特别了解，这里就说说算法这一部分。记得原先在《数据结构和算法》一开篇就提到关于等差数列求和的计算机求和计算，我们从小就知道等差数列的求和可利用算法公式，该算法利用了首尾两个数据和是一样的数据结构特征从而更简洁。告诉计算机进行求和命令可以是两种方法 1. 一项项的加，2.

直接利用算法，利用第一个方式可能在数据量少的时候计算速度与第二种相比不会有太大的差异，但如果数据量很大，后者的优越性将很明显。后来在接触到Apriori 算法时候里用看到算法会用到一些剪枝手段减少计算机运算量的时候忍不住拍案叫绝。

另外，各式各样的统计软件的背后都有着大量的contributors 将自己的算法程序包分享到网上，供后来人更便捷的调用使用。互联网的这种集体智慧的共享创造方式让后来人站在前人的肩膀上，走的更远。但是在调用这些算法的过程中还是要对算法本身有一些原理上的理解，算法和数据结构是钥匙和锁，我们在实际操作的过程中还需要根据具体的情况灵活和适当的使用，会在后面的分享里细说。

信息也是产品

许多公司所拥有的客户信息不仅仅对自己有价值，同时对他人也同样具有价值。如今很多的淘宝店铺之间也有了很多的消费者数据的共享。互联网也改变了品牌和品牌之间的关系，一个拥有很多青少年儿童数据的公司完全可以将自己的数据分享给做儿童食品的公司，或者更进一步，分享彼此所拥有的平台。

2. 数据挖掘 for “actionable”insightsdiscovery

数据挖掘有很多不同的名称，例如KDD(knowledge

discovery in database)，或者BI(businessintelligence)，预测建模(predictive model)等，但针对我们业务感受，我更愿意把数

据挖掘定义为发现能够让品牌商产生真正落地行为的洞察或发现。以下举两个在项目中的小例子：

在电商的数据挖掘中，我们通过对消费者的表达研究了解消费者购买产品的关注重点是什么，影响产品满意度的重要因素是什么，其次我们会对消费者的线上购买行为数据进行研究，去看消费者购买除了买自己品牌的商品同时还会购买哪些竞品品牌。结合这表达和行为的洞察，再深入探究竞品的商品展示，宣传，品牌形象，等等各方面和本品之间的差异点。这样品牌商在电商运营中更能有方向性的去改进产品和消费者之间的沟通方式。

所以，数据挖掘是在一项探测大量数据以发现有意义的模式和规则的业务流程，我们关注的重点在于发现的知识是否有意义，是否actionable 。正如沈浩老师说的：“这是一个令人兴奋的时代，也是一个大数据的时代，社交媒体让我们越来越多地从数据中观察到人类社会的复杂行为模式。以数据为基础的技术决定着人类的未来，但并非是数据本身改变了我们的世界，起决定作用的是我们对可用知识的增加。

数据挖掘感想

率和高速度。目前研究较多的贝叶斯分类器主要有四种，分别是：Naive Bayes、TAN 、BAN 和GBN 。

举例：一个天气估计问题

• 两个假设H: h1={晴天}、h2={非晴天}

• 可观察到的数据：温度高+和温度低-

• 先验知识p(h)

• 北京晴天的概率0.99：

P(h1)=0.99

• 非晴天0.01： P(h2)=0.01

• 观察到的概率P(D|h)：

•

• P(温度高 | 晴天) = 0.85 P(温度低 | 非晴天) = 0.93

• 问题：现在观察到温度低，判断是否非晴天？

极大似然计算

● P(非晴天 | 温度低)

∝ P(温度低|非晴天)

= 0.93

● P(晴天 | 温度低)

∝ P(温度低|晴天)

= 0.15

● 答案：非晴天

决策树：

决策树：训练集：数据的集合，用于生成树（模型）

测试集：用于测试树（模型）的性能

决策树作用：主要就是训练数据除去脏数据

● 通过训练集

● 算法指导下

● 生成决策树

● 新数据进行划分

● 否则是“三拍”决策

数据大量产生，技术的成熟提供基础

信息也是产品

2. 数据挖掘 for “actionable”insightsdiscovery

数据挖掘有很多不同的名称，例如KDD(knowledge

discovery in database)，或者BI(businessintelligence)，预测建模(predictive model)等，但针对我们业务感受，我更愿意把数

据挖掘定义为发现能够让品牌商产生真正落地行为的洞察或发现。以下举两个在项目中的小例子：

相关文章