数据挖掘第三版第三章课后习题答案

2.1再给三个用于数据散布的常用特征度量(即未在本章讨论的),并讨论如何在大型数据库中有效的计算它们

答:异众比率:又称离异比率或变差比。是非众数组的频数占总频数的比率

应用:用于衡量众数的代表性。主要用于测度定类数据的离散程度,定序数据及数值型数据也可以计算。还可以对不同总体或样本的离散程度进行比较 计算:

标准分数:标准分数(standard score)也叫z 分数(z-score ), 是一个分数与平均数的差再除以标准差的过程。用公式表示为: z=(x-μ)/σ。其中x 为某一具体分数, μ为平均数,σ为标准差。 Z 值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z 则为负数,反之则为正数。 计算:

Z=(x-μ)/σ

其中 μ = E( X) 为平均值、σ² = Var( X) X的概率分布之方差 若随机变量无法确定时,则为算术平均数

离散系数:离散系数,又称“变异系数”,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。 计算: CV=σ/μ

极差(全距)系数:Vr=R/X’ ; 平均差系数:Va ,d=A.D/X’; 方差系数:V 方差=方差/X’ ;

标准差系数:V 标准差=标准差/X’; 其中,X ’表示X 的平均数。

平均差:平均差是总体所有单位的平均值与其算术平均数的离差绝对值的算术平均数。 平均差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。 平均差是反应各标志值与算术平均数之间的平均差异。平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。

计算:平均差=(∑|x-x'|)÷n, 其中∑为总计的符号,x 为变量,x' 为算术平均数,n 为变量值的个数。

2.2假设所分析的的数据包括属性age ,它在数据元组中的值(以递增序)为13,15,16,16,19,20,21,22,22,25,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70. a. 平均值29.963 中位数是25

b. 众数是25及35 数据的模态是二模

c. 最大数和最小数的均值 =(70+13)/2=41.5

d. 第一个四分位数在(N+1)/4=(27+1)/4=7 处:Q 1=20。 而第三个四分位数在3×(N+1)/4=21 处:Q 3=35

e. 最小值、第一个四分位数、中位数、第三个四分位数、和最大值是:13、20、25、35、70。

f. 箱线图为

g. 分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样, 他可以展示所有数的分位数信息, 而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数, 用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域, 且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之, 对落在该线以下的点则低。 2.4

C.Q-Q 图为

散点图为

2.5. 简要概述如何计算被如下属性描述的相异性 a. 标称属性

两个对象i 和j 之间的相异性可以根据不匹配率来计算:

其中,m 是匹配的数目(即i 和j 取值相同状态的属性数),而p 是刻画对象的属性总数。我们可以通过赋予m 较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加m 的影响。

b. 非对称的二元属性

给定两个非对称的二元属性,两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义。因此,这样的二元属性经常被认为是“一元的”(只有一种状态)。基于这种属性的相异性被称为非对称的二元相异性,其中负匹配数t 被认为是不重要的,因此在计算时被忽略

c. 数值属性

最流行的距离度量是欧几里得距离(即,直线或“乌鸦飞行”距离)。令i=(xi1,xi2,„,xip )和j=(xj1,xj2, „,xjp )是两个被p 个数值属性描述的对象。对象i 和j

之间的欧几里得距离定义为:

另一个著名的度量方法是曼哈顿(或城市块)距离,之所以如此命名,是因为它是城市两点之间的街区距离(如,向南2个街区,横过3个街区,共计5个街区)。其定义如下: d. 词频属性

在一份给定的文件里,词频(term frequency ,TF )指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语 ti 来说,它的重要性可表示为:

以上式子中 ni,j 是该词在文件dj 中的出现次数,而分母则是在文件dj 中所有字词的出现次数之和。 2.6

a. 欧几里得距离为45^0.5 b. 哈曼吨距离为11

c. 闵可夫斯基距离为233^1/3 d. 上确定界距离为6 2.8

基于欧几里得距离距离, 排名顺序是x1,x4;x3,x5,x2。基于余弦相似度的点排位是x1,x3,x4,x2,x5。

2.1再给三个用于数据散布的常用特征度量(即未在本章讨论的),并讨论如何在大型数据库中有效的计算它们

答:异众比率:又称离异比率或变差比。是非众数组的频数占总频数的比率

应用:用于衡量众数的代表性。主要用于测度定类数据的离散程度,定序数据及数值型数据也可以计算。还可以对不同总体或样本的离散程度进行比较 计算:

标准分数:标准分数(standard score)也叫z 分数(z-score ), 是一个分数与平均数的差再除以标准差的过程。用公式表示为: z=(x-μ)/σ。其中x 为某一具体分数, μ为平均数,σ为标准差。 Z 值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z 则为负数,反之则为正数。 计算:

Z=(x-μ)/σ

其中 μ = E( X) 为平均值、σ² = Var( X) X的概率分布之方差 若随机变量无法确定时,则为算术平均数

离散系数:离散系数,又称“变异系数”,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。 计算: CV=σ/μ

极差(全距)系数:Vr=R/X’ ; 平均差系数:Va ,d=A.D/X’; 方差系数:V 方差=方差/X’ ;

标准差系数:V 标准差=标准差/X’; 其中,X ’表示X 的平均数。

平均差:平均差是总体所有单位的平均值与其算术平均数的离差绝对值的算术平均数。 平均差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。 平均差是反应各标志值与算术平均数之间的平均差异。平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。

计算:平均差=(∑|x-x'|)÷n, 其中∑为总计的符号,x 为变量,x' 为算术平均数,n 为变量值的个数。

2.2假设所分析的的数据包括属性age ,它在数据元组中的值(以递增序)为13,15,16,16,19,20,21,22,22,25,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70. a. 平均值29.963 中位数是25

b. 众数是25及35 数据的模态是二模

c. 最大数和最小数的均值 =(70+13)/2=41.5

d. 第一个四分位数在(N+1)/4=(27+1)/4=7 处:Q 1=20。 而第三个四分位数在3×(N+1)/4=21 处:Q 3=35

e. 最小值、第一个四分位数、中位数、第三个四分位数、和最大值是:13、20、25、35、70。

f. 箱线图为

g. 分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样, 他可以展示所有数的分位数信息, 而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数, 用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域, 且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之, 对落在该线以下的点则低。 2.4

C.Q-Q 图为

散点图为

2.5. 简要概述如何计算被如下属性描述的相异性 a. 标称属性

两个对象i 和j 之间的相异性可以根据不匹配率来计算:

其中,m 是匹配的数目(即i 和j 取值相同状态的属性数),而p 是刻画对象的属性总数。我们可以通过赋予m 较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加m 的影响。

b. 非对称的二元属性

给定两个非对称的二元属性,两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义。因此,这样的二元属性经常被认为是“一元的”(只有一种状态)。基于这种属性的相异性被称为非对称的二元相异性,其中负匹配数t 被认为是不重要的,因此在计算时被忽略

c. 数值属性

最流行的距离度量是欧几里得距离(即,直线或“乌鸦飞行”距离)。令i=(xi1,xi2,„,xip )和j=(xj1,xj2, „,xjp )是两个被p 个数值属性描述的对象。对象i 和j

之间的欧几里得距离定义为:

另一个著名的度量方法是曼哈顿(或城市块)距离,之所以如此命名,是因为它是城市两点之间的街区距离(如,向南2个街区,横过3个街区,共计5个街区)。其定义如下: d. 词频属性

在一份给定的文件里,词频(term frequency ,TF )指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语 ti 来说,它的重要性可表示为:

以上式子中 ni,j 是该词在文件dj 中的出现次数,而分母则是在文件dj 中所有字词的出现次数之和。 2.6

a. 欧几里得距离为45^0.5 b. 哈曼吨距离为11

c. 闵可夫斯基距离为233^1/3 d. 上确定界距离为6 2.8

基于欧几里得距离距离, 排名顺序是x1,x4;x3,x5,x2。基于余弦相似度的点排位是x1,x3,x4,x2,x5。


相关文章

  • 大学几乎所有学科的课本答案[2]
  • 大学几乎所有学科的课本答案! 来源: 任明嘉的日志 经济金融 [PDF格式]<会计学原理>同步练习题答案 [Word格式]<成本会计>习题及答案(自学推荐,23页) [Word格式]<成本会计>配套习题集 ...查看


  • 在大学里寻找课后答案的必去之处
  • 3500份课后答案,很值得收藏,这里只介绍了一部分. 还有很多,可以去课后答案网(http://www.khdaw.com/bbs)查找. ##################[公共基础课-答案]#################### 新 ...查看


  • 大学计算机基础课后习题详细答案
  • 第一章课后习题参考答案 一.填空题 1. 处理.处理 2. 黑盒.程序 3. 输入设备.运算器.存储器.控制器.输出设备 4. 运算器.控制器.中央处理器 5. 存储器.数据 6. 计算机硬件.软件 7. 电子管.晶体管.集成电路.超大规模 ...查看


  • 数据挖掘第三版第六章课后习题答案
  • 3.1数据质量可以从多方面评估,包括准确性.完整性和一致性问题.对于以上每个问题,讨论数据质量的评估如何依赖数据的应用目的,给出例子.提出数据质量的其他两个尺度. 答:精确性:描述数据是否与其对应的客观实体的特征相一致. 完整性:描述数据是 ...查看


  • 大学课后题答案
  • 不用买参考书了!大学课本答案大全!--爱死你了!( 为什么大四才发现啊) 2008-12-18 16:50 | (分类:) 注册可用 公共课程 http://www.10xiao.com/forum-6-1.html 新视野大学英语读写教程 ...查看


  • 大学课本答案大全
  • 不用买参考书了!大学课本答案大全! 公共课程 http://www.10xiao.com/forum-6-1.html 新视野大学英语读写教程第四册答案 http://www.10xiao.com/thread-7-1-1.html 新视野 ...查看


  • 13课后习题答案
  • 第二章习题答案 一.选择题 1.A 2.A 3.A 4.C 5.D 6.A 7.D 8.B 二.判断题 1.对 2.错 3.错 4.对 三.填空题 1.数据结构 数据操作 完整性约束 关系模型 层次模型 网状模型 2.数据结构 数据操作 3 ...查看


  • 土力学 第三章 课后习题答案
  • 第三章 3-2. 某施工现场需要填土,其坑的体积为2000m 3,土方来源是从附近土丘开挖,经勘察,土粒比重为2.70,含水量为15%,孔隙比为0.60.要求填土的含水量为17%,干重度为17.6kN/m3. 取土场土的重度.干重度和饱和度 ...查看


  • 数学建模习题及答案课后习题
  • 第一部分 课后习题 1. 学校共1000名学生,235人住在A 宿舍,333人住在B 宿舍,432人住在C 宿舍.学生 们要组织一个10人的委员会,试用下列办法分配各宿舍的委员数: (1)按比例分配取整数的名额后,剩下的名额按惯例分给小数部 ...查看


热门内容