2.1再给三个用于数据散布的常用特征度量(即未在本章讨论的),并讨论如何在大型数据库中有效的计算它们
答:异众比率:又称离异比率或变差比。是非众数组的频数占总频数的比率
应用:用于衡量众数的代表性。主要用于测度定类数据的离散程度,定序数据及数值型数据也可以计算。还可以对不同总体或样本的离散程度进行比较 计算:
标准分数:标准分数(standard score)也叫z 分数(z-score ), 是一个分数与平均数的差再除以标准差的过程。用公式表示为: z=(x-μ)/σ。其中x 为某一具体分数, μ为平均数,σ为标准差。 Z 值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z 则为负数,反之则为正数。 计算:
Z=(x-μ)/σ
其中 μ = E( X) 为平均值、σ² = Var( X) X的概率分布之方差 若随机变量无法确定时,则为算术平均数
离散系数:离散系数,又称“变异系数”,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。 计算: CV=σ/μ
极差(全距)系数:Vr=R/X’ ; 平均差系数:Va ,d=A.D/X’; 方差系数:V 方差=方差/X’ ;
标准差系数:V 标准差=标准差/X’; 其中,X ’表示X 的平均数。
平均差:平均差是总体所有单位的平均值与其算术平均数的离差绝对值的算术平均数。 平均差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。 平均差是反应各标志值与算术平均数之间的平均差异。平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。
计算:平均差=(∑|x-x'|)÷n, 其中∑为总计的符号,x 为变量,x' 为算术平均数,n 为变量值的个数。
2.2假设所分析的的数据包括属性age ,它在数据元组中的值(以递增序)为13,15,16,16,19,20,21,22,22,25,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70. a. 平均值29.963 中位数是25
b. 众数是25及35 数据的模态是二模
c. 最大数和最小数的均值 =(70+13)/2=41.5
d. 第一个四分位数在(N+1)/4=(27+1)/4=7 处:Q 1=20。 而第三个四分位数在3×(N+1)/4=21 处:Q 3=35
e. 最小值、第一个四分位数、中位数、第三个四分位数、和最大值是:13、20、25、35、70。
f. 箱线图为
g. 分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样, 他可以展示所有数的分位数信息, 而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数, 用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域, 且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之, 对落在该线以下的点则低。 2.4
C.Q-Q 图为
散点图为
2.5. 简要概述如何计算被如下属性描述的相异性 a. 标称属性
两个对象i 和j 之间的相异性可以根据不匹配率来计算:
其中,m 是匹配的数目(即i 和j 取值相同状态的属性数),而p 是刻画对象的属性总数。我们可以通过赋予m 较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加m 的影响。
b. 非对称的二元属性
给定两个非对称的二元属性,两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义。因此,这样的二元属性经常被认为是“一元的”(只有一种状态)。基于这种属性的相异性被称为非对称的二元相异性,其中负匹配数t 被认为是不重要的,因此在计算时被忽略
c. 数值属性
最流行的距离度量是欧几里得距离(即,直线或“乌鸦飞行”距离)。令i=(xi1,xi2,„,xip )和j=(xj1,xj2, „,xjp )是两个被p 个数值属性描述的对象。对象i 和j
之间的欧几里得距离定义为:
另一个著名的度量方法是曼哈顿(或城市块)距离,之所以如此命名,是因为它是城市两点之间的街区距离(如,向南2个街区,横过3个街区,共计5个街区)。其定义如下: d. 词频属性
在一份给定的文件里,词频(term frequency ,TF )指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语 ti 来说,它的重要性可表示为:
以上式子中 ni,j 是该词在文件dj 中的出现次数,而分母则是在文件dj 中所有字词的出现次数之和。 2.6
a. 欧几里得距离为45^0.5 b. 哈曼吨距离为11
c. 闵可夫斯基距离为233^1/3 d. 上确定界距离为6 2.8
基于欧几里得距离距离, 排名顺序是x1,x4;x3,x5,x2。基于余弦相似度的点排位是x1,x3,x4,x2,x5。
2.1再给三个用于数据散布的常用特征度量(即未在本章讨论的),并讨论如何在大型数据库中有效的计算它们
答:异众比率:又称离异比率或变差比。是非众数组的频数占总频数的比率
应用:用于衡量众数的代表性。主要用于测度定类数据的离散程度,定序数据及数值型数据也可以计算。还可以对不同总体或样本的离散程度进行比较 计算:
标准分数:标准分数(standard score)也叫z 分数(z-score ), 是一个分数与平均数的差再除以标准差的过程。用公式表示为: z=(x-μ)/σ。其中x 为某一具体分数, μ为平均数,σ为标准差。 Z 值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。在原始分数低于平均值时Z 则为负数,反之则为正数。 计算:
Z=(x-μ)/σ
其中 μ = E( X) 为平均值、σ² = Var( X) X的概率分布之方差 若随机变量无法确定时,则为算术平均数
离散系数:离散系数,又称“变异系数”,是概率分布离散程度的一个归一化量度,其定义为标准差与平均值之比。 计算: CV=σ/μ
极差(全距)系数:Vr=R/X’ ; 平均差系数:Va ,d=A.D/X’; 方差系数:V 方差=方差/X’ ;
标准差系数:V 标准差=标准差/X’; 其中,X ’表示X 的平均数。
平均差:平均差是总体所有单位的平均值与其算术平均数的离差绝对值的算术平均数。 平均差是一种平均离差。离差是总体各单位的标志值与算术平均数之差。因离差和为零,离差的平均数不能将离差和除以离差的个数求得,而必须讲离差取绝对数来消除正负号。 平均差是反应各标志值与算术平均数之间的平均差异。平均差异大,表明各标志值与算术平均数的差异程度越大,该算术平均数的代表性就越小;平均差越小,表明各标志值与算术平均数的差异程度越小,该算术平均数的代表性就越大。
计算:平均差=(∑|x-x'|)÷n, 其中∑为总计的符号,x 为变量,x' 为算术平均数,n 为变量值的个数。
2.2假设所分析的的数据包括属性age ,它在数据元组中的值(以递增序)为13,15,16,16,19,20,21,22,22,25,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70. a. 平均值29.963 中位数是25
b. 众数是25及35 数据的模态是二模
c. 最大数和最小数的均值 =(70+13)/2=41.5
d. 第一个四分位数在(N+1)/4=(27+1)/4=7 处:Q 1=20。 而第三个四分位数在3×(N+1)/4=21 处:Q 3=35
e. 最小值、第一个四分位数、中位数、第三个四分位数、和最大值是:13、20、25、35、70。
f. 箱线图为
g. 分位数图是一种用来展示数据值低于或等于在一个单变量分布中独立的变量的粗略百分比。这样, 他可以展示所有数的分位数信息, 而为独立变量测得的值(纵轴)相对于它们的分位数(横轴)被描绘出来。但分位数—分位数图用纵轴表示一种单变量分布的分位数, 用横轴表示另一单变量分布的分位数。两个坐标轴显示它们的测量值相应分布的值域, 且点按照两种分布分位数值展示。一条线(y=x)可画到图中+以增加图像的信息。落在该线以上的点表示在y 轴上显示的值的分布比x 轴的相应的等同分位数对应的值的分布高。反之, 对落在该线以下的点则低。 2.4
C.Q-Q 图为
散点图为
2.5. 简要概述如何计算被如下属性描述的相异性 a. 标称属性
两个对象i 和j 之间的相异性可以根据不匹配率来计算:
其中,m 是匹配的数目(即i 和j 取值相同状态的属性数),而p 是刻画对象的属性总数。我们可以通过赋予m 较大的权重,或者赋给有较多状态的属性的匹配更大的权重来增加m 的影响。
b. 非对称的二元属性
给定两个非对称的二元属性,两个都取值1的情况(正匹配)被认为比两个都取值0的情况(负匹配)更有意义。因此,这样的二元属性经常被认为是“一元的”(只有一种状态)。基于这种属性的相异性被称为非对称的二元相异性,其中负匹配数t 被认为是不重要的,因此在计算时被忽略
c. 数值属性
最流行的距离度量是欧几里得距离(即,直线或“乌鸦飞行”距离)。令i=(xi1,xi2,„,xip )和j=(xj1,xj2, „,xjp )是两个被p 个数值属性描述的对象。对象i 和j
之间的欧几里得距离定义为:
另一个著名的度量方法是曼哈顿(或城市块)距离,之所以如此命名,是因为它是城市两点之间的街区距离(如,向南2个街区,横过3个街区,共计5个街区)。其定义如下: d. 词频属性
在一份给定的文件里,词频(term frequency ,TF )指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否。)对于在某一特定文件里的词语 ti 来说,它的重要性可表示为:
以上式子中 ni,j 是该词在文件dj 中的出现次数,而分母则是在文件dj 中所有字词的出现次数之和。 2.6
a. 欧几里得距离为45^0.5 b. 哈曼吨距离为11
c. 闵可夫斯基距离为233^1/3 d. 上确定界距离为6 2.8
基于欧几里得距离距离, 排名顺序是x1,x4;x3,x5,x2。基于余弦相似度的点排位是x1,x3,x4,x2,x5。