心理统计学葵花宝典 + 心得
参考文献:《现代心理与教育统计学》《心理与行为科学统计》、、《心理统计》(Richard P.Runyon)、《心理统计学习指南》
《心理学专业基础》(北京师范大学出版社)
(1)学习建议
①将注意放在概念上,心理统计应该是一门概念性的科学,而非纯数学。 ②一定要将统计方法与心理学研究的情景结合起来学习。
③弄懂一个概念再开始学习下一个,心理统计中的概念应用性较差却是之后做题的基础。 ④做题按照推荐格式能避免出错几率。
(2)基本概念
总体:具有某些共同的、可观测特征的一类事物的全体,构成总体的每个基本单元称为个体 样本:由于不能或没必要对整个总体进行研究,我们只能从总体中选择出一些个体代表总体,这些个体的集合叫样本
变量:本身是变化的或者对于不同个体有不同值得特征或条件 常量:本身不变且对不同的个体的值也相同
参数:描述总体的数值,它可以从一次测量中获得,也可以从总体的一系列测量中推论得到 比例:全组中取值为X的比例,p=f/N
插值法:一种求两个已知数值之间中间值的方法,其假设所求解点附近数据呈线性变化 统计量:描述样本的数值,与参数的获得方式相同
随机取样:从总体抽取样本的一种策略,要求总体中的每一个个体被抽到的机会均等 取样误差:样本统计量与相应的总体参数之间的差距
偏态分布:分数堆积在分布的一端,而另一端成为比较尖细的尾端,其与对称分布对应 次数分布:一批数据在某一量度的每一个类目所出现的次数情况
离散型变量:由分离的、不可分割的范畴组成,临近范畴之间没有值存在
连续型变量:在任何两个观测值之间都存在无限多个可能值,它可被分割成无限多个组成部分
(3)统计检验总表
数据类型
单样本问题 独立样本比较
独立样本t/z 检验 大样本下的相应的t/z检验
相关样本比较 多组样本的比较 独立样本 重复测量
重复测量方差分析
相关问题
Pearson 积差相关 转化为顺序型
等 总体单样本t/z 距 正态检验 型 分布
分布大样本下形态的相应的未知 t/z检验
相关样本t 独立样本检验 方差分析 大样本下的相应的t检验
转化为顺序型
顺序型
符号检验法 χ2匹配度检验
曼-惠特尼 U检验 χ2独立性检验
维尔克松 T检验 符号检验法
命名型
克-瓦氏单弗里德曼
向 双向等级方差分析 方差分析
χ2独立性检验
Spearman 等级相关 χ2独立性检验
一、描述统计
描述统计是指用来整理、概括、简化数据的统计方法,侧重于描述一组数据的全貌,表达一件事物的性质。 (一)统计图表
统计表和统计图简单明确、生动直观地表达数量关系,具有一目了然、整洁美观、容易理解等特点。它们是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。在制定统计图表之前,一般首先要对数据进行以下两种初步整理:
①数据排序:按照某种标准,对收集到的杂乱无章的数据按照一定顺序标准进行排列 ②统计分组:根据被研究对象的特征,将所得到数据划分到各个组别中去 1.统计图
统计图:用点、线、面的位置、升降或大小来表达统计资料数量关系的一种陈列形式 组成:坐标轴、图号、图题、图目、图尺、图形、图例、图注 分类:条形图、圆图、线性图、直方图、散点图、茎叶图 2.统计表
统计表:将要统计分析的事物或指标以表格的形式列出来,以代替烦琐文字描述的一种表现形式
组成:隔开线、表号、名称、标目、数字、表注 分类:简单表、分组表、复合表 (二)集中量数
集中量数又叫集中趋势,是体现一组数据一般水平的统计量。它能反映频数分布中大量数据
向某一点集中的情况。 1.算数平均数
(1)定义
算数平均数:即所有观察值的总和与总频数之商,简称为平均数或均数 平均数一般与标准差、方差相结合使用。
X
i1
n
i
N
(2)特点
①在一组数据中每个变量与平均数之差的总和等于零
②在一组数据中,每一个数都加上一个常数C,所得的平均数为原来的平均数加常数C ③在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以常数C (3)意义
算数平均数是应用最普遍的一种集中量数,它在大多情况下是真值最好的估计值。 (4)优缺点
优点:反应灵敏、计算严密、计算简单、简明易解、适合于进一步用代数方法盐酸、较少受抽样变动的影响
缺点:易受极端数据的影响、不能在出现模糊数据时计算 2.中数
(1)定义
中数:按顺序排列在一起的一组数据中居于中间位置的数,在这组数据中,有一半数据比它大,一般数据比它小,等价于百分位数是50的那个数。 (2)算法
①数列总个数为奇数时,第 (n+1)/2 个数就是中数
②数列总个数为偶数时,可取位于中间的两个数的平均数作为中数
③分布中有相等的数时,将重复的数字看成一个连续体,利用中间分数的精确上下限使用插值法
(3)优缺点
优点:计算简单、容易理解、不受极端值影响、能在有模糊数据情况下使用、可在顺序型数据时使用
缺点:代表性低、不够灵敏、稳定性低、需要排序、不能进一步做代数运算
3.众数
(1)定义
众数:在次数分布中出现次数最多的那个数的数值
众数可能不只一个。在正偏态分布时,平均数最靠近尾端,中数位于其与众数之间。 (2)优缺点
优点:能在数据不同质的情况使用,能避免极端值干扰
缺点:不稳定、代表性差、不够灵敏、不能做进一步的代数运算 (三)差异量数
差异量数就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量,也称为离散量数。
1.离差与平均差
离差:分布中的某点到均值得距离,其符号表示了某分属于均值之间的位置关系而数值表示了它们之间的绝对距离 离差之和始终为零。
xX
平均差:次数分布中所有原始数据与平均数绝对离差的平均值
XA.D.
i
n
2.方差与标准差
和方:每一个离差值平房求和
由于离差正负值互相抵消无法代表离中趋势我们引入和方的概念
SSXX
22
X
N
2
(1)总体的方差和标准差
方差:每个数据与该组数据平均数之差乘方后的均值,即离均差平房后的均数
22
作为样本统计量用符号s表示,作为总体参数用符号σ表示,也叫均方。
2
SS N
标准差:方差的平方根
作为样本统计量用符号s表示,作为总体参数用符号σ表示。
(2)样本的方差和标准差
样本的变异性往往比它来自的总体的变异性要小。为了校正样本数据带来的偏差,在计算样本方差时,我们用自由度来矫正样本误差,从而有利于对总体参数更好的无偏差估计:
S2
SS
n
1
S
(3)性质
①每一个观测值都加一个相同的常数C之后,计算得到的标准差等于原来的标准差 ②每一个观测值都乘以一个相同的常数C,所得到的标准差等于原标准差乘以这个常数
(4)意义
方差与标准差是表示一组数据离散程度的最好指标,它们是统计描述与统计推断分析中最常用的差异量数,它们的优点有:
反应灵敏、计算严谨、计算容易、适合代数运算、受抽样变动影响小、意义简单明了 3.变异系数
当遇到下列情况时,不能用绝对差异量来比较不同样本的离散程度,而应当使用相对差异量数,最常用的就是差异系数。
①两个或两个以上样本所使用的观测工具不同,所测的特质相同
②两个或两个以上样本使用的是同种观测工具,所测的特质相同,但样本间水平差异较大
差异系数:一种最常用的相对差异量,为标准差对平均数的百分比
CV
s
100%
(四)相对量数
1.百分位数
百分位数:在整个分布中,在某一值之下或等于该值的分数的百分比,所对应的分数
百分位数和百分等级是同一操作定义的两端。当我们求累计次数占总体的百分比是,所对应的分数和百分比的值分 别为百分位数和百分等级。 2.百分等级
百分等级:常模团体中低于该分数的人所占总体的百分比
百分等级一定要对应分数区间的精确上限。百分等级和百分位数都可以由已知数据用差值法求解。 3.标准分数
(1)定义
标准分数:以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数,也叫Z分数
离平均数有多远,即表示原始分数在平均数以上或以下几个标准差的位置。
Z
X s
(2)性质
①Z分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量 ②一组原始分数转换得到的Z分数可正可负,所有原始分数的Z分数之和为零 ③原始数据的Z分数的标准差为1
④若原始分数呈正态分布,则转换得到的所有Z分数均值为0,标准差为1的标准正态分布
(3)优点
①可比性——不同性质的成绩,一经转换为标准分数,就可在同一背景下比较 ②可加性——不同性质的原始数据具有相同的参照点,因此可相加 ③明确性——知道了标准分数,利用分布寒暑表就能知道其百分等级 ④稳定性——转换成标准分数之后,规定了标准差为1,保证了不同性质分数在总分数中权重一样
(4)应用
①比较几个分属性质不同的观测值在各自数据分布中相对位置的高低 ②计算不同质的观测值得总合或平均值,以表示在团体中的相对位置
③若标准分数中有小数、负数等不易被人接受的问题,可通过 Z'=aZ+b 的线性公式将其转化成新的分数(如韦氏成人智力量表) (五)相关量数
由于实验法适用范围的限制,有的时候我们只能对变量间进行相关研究,也就是看两者是否有互相跟随的变化关系。相关研究所得到的是一种描述统计,我们仅仅能用其描述两个变量互相跟随的程度大小,至于他们之间是否有因果关系或者是共变关系则不可妄下定论。
相关系数:两列变量间相关程度的数字表现形式
作为样本的统计量用r表示,作为总体参数一般用ρ表示。 正相关:两列变量变动方向相同
负相关:两列变量中有一列变量变动时,另一列变量呈现出与前一列变量方向相反的变动
零相关:两列变量之间没有关系,各自按照自己的规律或无规律变化 1.积差相关
也就是Pearson相关。
(1)前提
①数据要成对出现,即若干个体中每个个体都有两种不同的观测值,并且每队数据与其它对子相互独立
②两列变量各自总体的分布都是正态的,至少接近正态 ③两个相关的变量是连续变量,也即两列数据都是测量数据 ④两列变量之间的关系应是直线性的
(2)公式
r
xy
XYXY
r也就等于X和Y共同变化的程度除以X和Y各自变化的程度。
2.等级相关
也就是Spearman相关
(1)适用范围
①当研究考察的变量为顺序型数据时,若原始数据为等比货等距,则先转化为顺序型数据 ②当研究考察的变量为非线性数据时
(2)公式
将原始数据转化为顺序型数据,仍然用Pearson相关公式计算即可。
3.肯德尔等级相关
(1)肯德尔W系数
也叫肯德尔和谐系数,原始数据资料的获得一般采用等级评定法,即让K个被试对N件实物进行等级评定。其原理是评价者评价的一致性除以最大变异可能性。
W
R
2i
Ri
2
123
KNN12
Ri代表评价对象获得的K个等级之和
N代表等级评定的对象的树木 K代表等级评定者的数目
(2)肯德尔U系数#
其与肯德尔W系数所处理的问题相同,但评价者采用对偶比较法,即将N件事物两两配对分别进行比较
U
8
rijKrij
2
N(n1)K(K1)
1
rij为对偶比较记录表中i>j格中的择优分数
4.点二列相关与二列相关
(1)点二列相关
适用于一列数据为等距正态变量,另一列为离散型二分变量。
rpb
pq
st
p是与二分称名变量的一个值对应的连续变量的平均数 q是与二分称名变量的另一个值对应的连续变量的平均数
p与q是二分称名变量两个值各自所占的比率 st是连续变量的标准差
(2)二列相关
适用于两列变量都是正态等距变量,但其中一列变量被人为地分成两类。
pqpq
rb
sty
y为标准正态曲线中p值对应的高度,查正态分布表能得到 5.Ф相关
适用于两个变量都是只有两个点值或只表示某些质的属性。
r
其中a、b、c、d分别为四格表中左上、右上、左下、右下的数据
二、推断统计
推论统计就是指运用一系列的数学方法,将从样本数据中获得的结果推广到样本所在的总体。进行推论统计的关键在于所抽取的样本要能够尽量接近所要研究的总体。
(一)推断统计的数学基础
1.概率
概率:表明随即时间出现可能性大小的客观指标
概率的定义包含以下两种,当观测次数够多时他们是相等的。
后验概率:对随机事件进行n次观察,某一事件A出现的次数m与观测次数n的比值在n趋近无穷时所稳定在的常数p
先验概率:在满足试验可能结果数有限且每一种结果出现的可能性相等的条件下,随机事件包含的结果数除以结果总数 2.正态分布
当样本量足够大时,我们会发现生活中许多变量的分布都近似于正态曲线,因此有“上帝偏爱正态分布”一说。
(1)特点
①正态曲线的形状就像一口挂钟,呈对称分布,其均值、中数、众数实际上对应于同一个数值
②大部分的原始分数都集中分布在均值附近,极端值相对而言比较少 ③曲线两端向靠近横轴处不断延伸,但始终不会与横轴向交
④正态分布曲线转化为z分数后人以z分数与零点对应曲线下面积固定
(2)用法
①依据Z分数求概率,即已知标准分数求面积 ②从概率求Z分数,即从面积求标准分数值
③已知概率或Z值,求概率密度,即正态曲线的高 3.二项分布
二项分布:对于一个事件有两种可能A和B,但我们对这一事件观察n次,事件A发生的总次数的概率分布就是二项分布
二项分布的均值为pn 方差公式为npq
标准差的公式为2
4.抽样原理与抽样方法
(1)抽样原理
抽样的基本原则是随机性原则,所谓随机性原则,是指在进行抽样时,总体中每一个个体是否被抽选的概率完全均等。由于随机抽样使每个个体有同等机会被抽取,因而有相当大的可能使样本保持和总体有相同的结构,或者说,具有最大的可能使总体的某些特征在样本中得以发现,从而保证由样本推论总体。
(2)抽样方法 ①简单随机取样法 ②系统随机取样法 ③分层随机取样法 ④多段随机取样法 5.抽样分布
样本分布:样本统计量的分布,是统计推论的重要依据
(1)正态分布及渐近正态分布
样本统计量为正态分布或者接近正态分布的情况都可根据正态分布的概率进行统计推论。
总体分为正态或接近正态,方差已知,样本平均数和方差的分布为正态分布 ①样本平均数分布的平均数和方差与母体的平均数和方差有如下关系:
22
n
②样本的方差及标准差的分布也渐趋于正态分布,其分布的平均数与标准差和总体有如下关系:
ss22
s
s2
2
2n
(2)t分布
t分布是一种与方差无关而与自由度有关的分布,很类似正态分布,我们可以将正态分布看作t分布当自由度为正无穷时的特例。
总体分布为正态,方差未知时,样本平均数的分布为t分布:
其中sn1
(3)χ2分布
χ2分布的构造是从一个服从正态分布的总体中每次抽去n个随机变量,计算其平方和之后标准化的一个分布。分布曲线下的面积都是1,但伴随着n取值的不同,自由度改变,曲线分布形状不同,而当自由度趋近于正无穷时χ2分布即为正态分布,因此其于t分布一样都是一族分布,而正态分布都是其中的特例。
2
X
2
2
(4)F分布
如果有两个正态分布的总体,我们从其中各自取出两个样本,各自计算出χ2,则:
12
F
22
12
更多情况下,我们所计算的F两样本取自相同总体,此时可将上式化简为:
F
2sn112sn21
(二)参数估计
当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。总体参数估计问题可以分为点估计与区间估计。
1.点估计、区间估计与标准误
良好估计量的标准
①无偏性——用多个样本的统计量估计总体参数的估计值,其偏差的平均数为零
②有效性——当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方差越小越好
③一致性——当样本容量无限增大时,估计值应能够越来越接近它所估计的总体参数 ④充分性——样本的统计量是否充分地反映了全部n个数据所反映总体的信息
点估计:用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计结果也以一个点的数值表示
区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围,
这个区间就叫做置信区间,相应的概率成为置信度,这两个量是共通变化的,置信区间越大,置信度越高;
区间估计是用数轴上的一段距离表示未知参数可能落入的范围及落入该范围的概率。
标准误:样本平均数分布的标准差
总体方差未知时用估算的总体方差计算标准误。
2.总体平均数的估计
xZxZ
当总体方差未知时,则使用t分布对应置信度 3.标准差与方差的区间估计 (1)标准差的区间估计
sn1Zssn1Zs
(2)方差的区间估计
n1sn212n1sn21
2
21
(三)假设检验
可以说,每一个实验的存在,仅仅是为了给事实一个反驳虚无假设的机会。 ——R.A.Fisher 1.假设检验的原理
假设检验:统计学中的一种推论过程,通过样本统计量得出的差异作为一般性结论,判断总体参数之间是否存在差异
假设检验的实质是对可置信性的评价,是对一个不确定问题的决策过程,其结果在一定概率上正确的,而不是全部。
(1)两类假设
对于任何一种研究而言,其结果无外乎有两种可能,即是否符合我们预期。一般来说证伪一件事情比证实一件事容易,在行为科学的研究中,由于我们无法了解总体中除样本以外的个体情况,因此尝试拒绝虚无假设的方法优于证明备择假设。
备则假设:因变量的变化、差异却是是由于自变量的作用 往往是我们对研究结果的预期,用H1表示。
虚无假设:实际上什么也没有发生,我们所预计的改变、差异、处理效果都不存在 观察到的差异只是随机误差在起作用,用H0表示。
(2)小概率原理
小概率原理:小概率事件在一次试验中几乎是不可能发生的
至于什么就算小概率事件,那就是我们在计算前明确的决策标准,也就是显著性水平α。在检验过程中,我们假设虚无假设是真实的,同时计算出观测到的差异完全是由于随机误差所致的概率。之后将其与我们实现界定好的显著性水平比较,从而考虑是否依据小概率原理来拒绝虚无假设。
(3)两类错误
(本部分内容请参照实心信号检测论对照来看。 ——MJ注)
Ⅰ型错误:当虚无假设正确时,我们拒绝了它所犯的错误,也叫α错误
研究者得出了处理有效果的结论,而实际上并没有效果,即所谓“无中生有”
Ⅱ型错误:当虚无假设是错误的时候,我们没有拒绝所犯的错误,也叫β错误 假设检验未能侦查到实际存在的处理效应,即所谓“失之交臂”
两类检验的关系
①α+β不一定等于1
②在其他条件不变的情况下,α与β不可能同时减小或增大
(4)检验的方向性
单侧检验:强调某一方向的检验,显著性的百分等级为α
双侧检验:只强调差异不强调方向性的检验,显著性百分等级为α/2
对于同样的显著性标准,在某一方向上,单侧检验的临界区域要大于双侧检验,因此如果差异发生在该方向,单侧检验犯β错误的概率较小,我们也说它的检验效力更高。
(5)假设检验的步骤
①根据问题要求,提出虚无假设和备择假设 ②选择适当的检验统计量
③确定检验的方向性并规定显著性水平 ④计算检验统计量的值
⑤将统计量的值与临界值对比做出决策 2.样本与总体平均数差异的检验 (1)总体正态分布且方差已知
zobs
0
其中
0和0分别为总体的平均数和方差
(2)总体正态分布而方差未知
tobs
0其中sX
SsS为用样本和方估算出的总体方差
3.两样本平均数差异的检验
Zobstobs
12
DX
这是两样本平均数检验的通用公式,所不同的仅在于标准误的计算
(1)总体方差已知 ①独立样本
D
②相关样本
DX
r为两组变量之间的相关系数
(2)总体方差未知
①独立样本(方差差异不显著时
)
D
②相关样本
a.相关系数未知:
D
其中d
为每一对对应数据之差
b.相关系数已知:D
4.方差齐性检验
(1)样本方差与总体方差
当从正态分布的总体中随机抽取容量为n的样本时,其样本方差与总体方差比值服从χ2分布:
2
ns2
2
0
由自由度dfn1查χ2表,依据显著性水平判断
(2)两个样本方差之间 ①独立样本
F
2s大
s
2小
其中当两样本自由度相差不大时可用sn代替sn-1
查表时df1n11,df2n21 ②相关样本
t
2
2其中dfn2
5.相关系数的显著性检验 ①积差相关 a.当
ρ=0时:t
其中dfn2
b.当ρ≠0时:先通过查表将r和ρ转化为费舍Zr和Zρ然后进行Z
检验
Z
ZZ②等级相关和肯德尔W系数
在总体相关系数为零时:查各自的相关系数表,判定样本相关显著 (四)方差分析
1.方差分析的原理与基本过程
(1)方差分析的概念
方差分析的目的是推断多组资料的总体均数是否相同,也即检验多组数据之间的均数差异是否有统计意义。当我们用多个t检验来完成这一过程时,相当于从t分布中随机抽取多个t值,这样落在临界范围之外的可能大大增加,从而增加了Ⅰ型错误的概率。我们可以把方差分析看作t检验的增强版。
(2)方差的可分解性
方差分析依据的基本原理就是方差的可加性原则。作为一种统计方法,方差分析把实验数据的总变异分解为若干个不同来源的分量。数据的变异由两部分组成:
组内变异:由于实验中一些希望加以控制的非实验因素和一些未被有效控制的未知因素造成的变异,如个体差异、随机误差
组内变异是具体某一个处理水平之内的,因此在对总体变异进行估计的时候不涉及研究的处理效应。
组间差异:不仅包括组内变异的误差因素,还包括了是不同组所接受的实验处理不同造成的影响
如果研究数据的总变异是由处理效应造成的,那么组间变异在总变异中应该占较大比例。
MSB表示组间方差,MSB
SSB
,dfBk1,k表示实验条件的个数 dfB
SSW
,dfWkn1,n表示每种实验条件中的被试个数 dfW
MSW表示组内方差,MSW
(3)方差分析的基本假定
①样本必须来自正态分布的总体
②每次观察得到的几组数据必须彼此独立 ③各实验处理内的方差应彼此无显著差异
为了满足这一假定,我们可采用最大F比率法Fmax
2smax
2,求出各样本中方差最大值与最smin
小值的比,通过查表判断。
(4)方差分析的基本步骤 Ⅰ 求平方和
①总平方和是所有观测值与总平均数的离差的平方总和 SST
22
GX
其中G表示所有数据的总合,N表示总共的数据个数
2
②组间平方和是每组的平均数与总平均数的离差的平方再与该组数据个数的乘积的总和
22TG SSBniXGi,G为数据总均值,Ti为每组数据和,ni为
i
该组数据个数
③组内平方和是各被试的数值与组平均数之间的离差的平方总和
SSW
SS
i
(注:SSTSSBSSW推荐用于检验之前的计算,而不是被当作快捷计算的方式)
Ⅱ 计算自由度
dfTN1dfBk1
dfWkn1Nk
Ⅲ 计算均方 MSB
SSB
dfBSSW
dfW
MSW
Ⅳ 计算F值 F
MSB
MSW
Ⅴ 查F值表进行F检验并做出判断 Ⅵ 陈列方差分析表 2.完全随机设计的方差分析
3.随机区组设计的方差分析
随机区组设计中同质被试参加所有水平下测试,因此,组间变异不包括个体差异的影响。而每一个水平之内仍然是由不同被试共同完成的,于是我们仍然将总体变异分为组间变异和组内变异,但需要进一步将组内变异分为被试间变异和误差引起的变异。
这样,我们就可以在F检验时,将被试间变异从组内变异中去除,使得检验结果更灵敏。
个体误差用SSR表示,而随机误差用SSE表示,它们的和等于组内差异SSW
F
MSBSSE
其中MSE而SSESSWSSR;dfEk1n1 MSEdfE
n
SSR
i1
R
k
2
G
2
N
其中
R为同一区组的数据之和,或者同一被试在不同处理下的
乘积的和
让我们回忆一下两个相关样本平均数假设检验,可以发现那里出现的情况和这里的多样本方差分析相仿。也就是说,对于同样的实验数据,当我们把它看作是由独立样本得出或相关样本得出时,就要采用不同的检验方法,从而有可能得出不同的结论。在假定为相关样本的数据得出的显著性差异如果换作背景是独立样本就可能只能接受虚无假设。这实际上是因为相关情况下样本之间差异的减小使得对应检验要使用的统计量变大,检验也就更加灵敏了。 4.两因素方差分析
在两因素实验设计中,研究者同时用两种影响因素作为自变量研究它们对某一因变量的影响,其实验结果比单因素设计更实际。 (1)交互作用与主效应
主效应:某个自变量的不同水平对因变量所造成的影响的差异
交互作用:一个因素对因变量的影响因另一个因素的不同水平而不同
如果两个因素彼此独立,即不管其中一个因素处于哪个水平,另一个因素的不同
水平均值间的差异都保持一致,则
不会产生交互作用。
(2)统计原理
为了看清各因素独立作用和交互作用的影响,我们进一步将组间差异分解:
SSBSSaSSbSSab
其中SSa与SSb分别表示a因素与b因素的组间平方和,SSab表示交互作用的平方和 dfaa1;dfbb1;dfaba1b1;dfWNab
(3)F的计算(这里讨论独立样本)
Fa差异 MSaSSa其中MSa这里的SSa是假定全体数据只根据a因素分为两组所计算的组间MSWdfa
FbMSbSS其中MSbb这里的SSb也同样为假设只根据b因素分组所计算的组间差异 MSWdfb
MSabSSab其中MSab这里的SSab为总体组间差异减去SSa和SSb得到 MSWdfabFab5.事后检验
由方差分析只能得到显著差异的结果,事后检验使我们能够比较各组,发现差异具体产生在什么地方。事后检验采用成对比较的方式,每次比较两个组的差异。这里我们只介绍常用的红丝带检验而不是过气的内裤检验。
HSD检验法
Ⅰ 把要比较的各个平均数从小到大作等级排列
Ⅱ 处理条件的数目k,自由度dfE查表得到相应显著性的q值
Ⅲ
计算作为临界值的HSDMSE代替MSW)
Ⅳ 把要比较的两个平均数的差与临界值比较,若超过则认为差异显著
21
(五)回归分析
1.一元线性回归分析
(1)基本概念
回归分析:通过大量的观测发现变量之间存在的统计规律性,并用一定的数学模型表示变量相关关系的方法
只有一个自变量并且统计量成大体一次函数的线性关系的回归分析叫一元线性回归分析。
abX作为回归方程,代表X与Y的线性关系 在一元线性回归中,我们用Y
其中:a表示该直线在Y轴的截距
的变化率 b表示该直线的斜率也就是Y
X为自变量,通常是研究者事先选定的数值
为对应于X对变量Y的估计值 Y
(2)最小二乘法
所谓最小二乘法,就是如果散点图中每一点沿Y轴方向到直线的距离的平方和最小,则认为这条直线的代表性最好,即使用其作为回归方程。这样我们使得总误差
最小。 YY2
abX Y
XXYY其中b;aYbX XX2
2.一元线性回归方程的检验
(1)方差分析法
FMSR MSE
22
其中SSTYYY22Yn2而其dfTn1
SSRYY22X22其dfR1 bXn
SSESSTSSR其dfEn2
(2)回归系数检验
b其中SEbt
SEb
而
sXY 为中心
Y值上下波动的标准差 Y
(在知道相关系数时sXYsY)
3.一元线性回归方程的应用
回归分析的目的,就是在测定自变量X与因变量Y的关系为显著相关后,借助于你和的较优回归模型来预测在自变量X为一定值时因变量Y的发展变化。当我们根据给出的X值而预测得到点估计Y时,Y只代表了预测值的中点,而计算在特定置信区间内的区间估计则依靠以下公式:
YptsXYn很大时近似为1
其中t的自由度取 n-2,Yp为对应该XP的方程解出的点估计Y值
(六)卡方检验
2
fofefe2其中fo为观察次数;fe为理论期望次数 23
公式的适用范围要求观察彼此之间独立,并且单位格的理论期望次数不能小于5(小于5时可与相邻的组合并)
1.拟合度检验
2÷匹配度检验是用样本数据来检验总体分布的形状或比率,以确定与假设的总体性质的匹配度。
dfC1其中C为分类数
2.独立性检验
2÷独立性检验帮助我们考察多种因素的不同分类之间是否独立。它是检验行和列两个变量彼此有无关联的一种统计方法,适用于命名型变量和顺序型变量。
dfC1R1其中C和R分别为行列分类数
(七)非参数检验
1.独立样本均值差异的非参数检验
(1)秩和检验法
①两样本容量均小于10
将容量较小的样本的各数据等级求和,T值检验表中的临界值比较。
②两样本容量均大于10
ZTT
T
其中Tn1n1n11而
T 2
(2)中数检验法#
①将两个样本数据混合从小到大排列
②求混合排列的中数
③分别找出每个样本中大于和小于中数的数据的个数,列成四格表(中数本身不在内) ④对四格表卡方检验公式进行计算
24
心理统计学葵花宝典 + 心得
参考文献:《现代心理与教育统计学》《心理与行为科学统计》、、《心理统计》(Richard P.Runyon)、《心理统计学习指南》
《心理学专业基础》(北京师范大学出版社)
(1)学习建议
①将注意放在概念上,心理统计应该是一门概念性的科学,而非纯数学。 ②一定要将统计方法与心理学研究的情景结合起来学习。
③弄懂一个概念再开始学习下一个,心理统计中的概念应用性较差却是之后做题的基础。 ④做题按照推荐格式能避免出错几率。
(2)基本概念
总体:具有某些共同的、可观测特征的一类事物的全体,构成总体的每个基本单元称为个体 样本:由于不能或没必要对整个总体进行研究,我们只能从总体中选择出一些个体代表总体,这些个体的集合叫样本
变量:本身是变化的或者对于不同个体有不同值得特征或条件 常量:本身不变且对不同的个体的值也相同
参数:描述总体的数值,它可以从一次测量中获得,也可以从总体的一系列测量中推论得到 比例:全组中取值为X的比例,p=f/N
插值法:一种求两个已知数值之间中间值的方法,其假设所求解点附近数据呈线性变化 统计量:描述样本的数值,与参数的获得方式相同
随机取样:从总体抽取样本的一种策略,要求总体中的每一个个体被抽到的机会均等 取样误差:样本统计量与相应的总体参数之间的差距
偏态分布:分数堆积在分布的一端,而另一端成为比较尖细的尾端,其与对称分布对应 次数分布:一批数据在某一量度的每一个类目所出现的次数情况
离散型变量:由分离的、不可分割的范畴组成,临近范畴之间没有值存在
连续型变量:在任何两个观测值之间都存在无限多个可能值,它可被分割成无限多个组成部分
(3)统计检验总表
数据类型
单样本问题 独立样本比较
独立样本t/z 检验 大样本下的相应的t/z检验
相关样本比较 多组样本的比较 独立样本 重复测量
重复测量方差分析
相关问题
Pearson 积差相关 转化为顺序型
等 总体单样本t/z 距 正态检验 型 分布
分布大样本下形态的相应的未知 t/z检验
相关样本t 独立样本检验 方差分析 大样本下的相应的t检验
转化为顺序型
顺序型
符号检验法 χ2匹配度检验
曼-惠特尼 U检验 χ2独立性检验
维尔克松 T检验 符号检验法
命名型
克-瓦氏单弗里德曼
向 双向等级方差分析 方差分析
χ2独立性检验
Spearman 等级相关 χ2独立性检验
一、描述统计
描述统计是指用来整理、概括、简化数据的统计方法,侧重于描述一组数据的全貌,表达一件事物的性质。 (一)统计图表
统计表和统计图简单明确、生动直观地表达数量关系,具有一目了然、整洁美观、容易理解等特点。它们是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。在制定统计图表之前,一般首先要对数据进行以下两种初步整理:
①数据排序:按照某种标准,对收集到的杂乱无章的数据按照一定顺序标准进行排列 ②统计分组:根据被研究对象的特征,将所得到数据划分到各个组别中去 1.统计图
统计图:用点、线、面的位置、升降或大小来表达统计资料数量关系的一种陈列形式 组成:坐标轴、图号、图题、图目、图尺、图形、图例、图注 分类:条形图、圆图、线性图、直方图、散点图、茎叶图 2.统计表
统计表:将要统计分析的事物或指标以表格的形式列出来,以代替烦琐文字描述的一种表现形式
组成:隔开线、表号、名称、标目、数字、表注 分类:简单表、分组表、复合表 (二)集中量数
集中量数又叫集中趋势,是体现一组数据一般水平的统计量。它能反映频数分布中大量数据
向某一点集中的情况。 1.算数平均数
(1)定义
算数平均数:即所有观察值的总和与总频数之商,简称为平均数或均数 平均数一般与标准差、方差相结合使用。
X
i1
n
i
N
(2)特点
①在一组数据中每个变量与平均数之差的总和等于零
②在一组数据中,每一个数都加上一个常数C,所得的平均数为原来的平均数加常数C ③在一组数据中,每一个数都乘以一个常数C,所得的平均数为原来的平均数乘以常数C (3)意义
算数平均数是应用最普遍的一种集中量数,它在大多情况下是真值最好的估计值。 (4)优缺点
优点:反应灵敏、计算严密、计算简单、简明易解、适合于进一步用代数方法盐酸、较少受抽样变动的影响
缺点:易受极端数据的影响、不能在出现模糊数据时计算 2.中数
(1)定义
中数:按顺序排列在一起的一组数据中居于中间位置的数,在这组数据中,有一半数据比它大,一般数据比它小,等价于百分位数是50的那个数。 (2)算法
①数列总个数为奇数时,第 (n+1)/2 个数就是中数
②数列总个数为偶数时,可取位于中间的两个数的平均数作为中数
③分布中有相等的数时,将重复的数字看成一个连续体,利用中间分数的精确上下限使用插值法
(3)优缺点
优点:计算简单、容易理解、不受极端值影响、能在有模糊数据情况下使用、可在顺序型数据时使用
缺点:代表性低、不够灵敏、稳定性低、需要排序、不能进一步做代数运算
3.众数
(1)定义
众数:在次数分布中出现次数最多的那个数的数值
众数可能不只一个。在正偏态分布时,平均数最靠近尾端,中数位于其与众数之间。 (2)优缺点
优点:能在数据不同质的情况使用,能避免极端值干扰
缺点:不稳定、代表性差、不够灵敏、不能做进一步的代数运算 (三)差异量数
差异量数就是对一组数据的变异性,即离中趋势特点进行度量和描述的统计量,也称为离散量数。
1.离差与平均差
离差:分布中的某点到均值得距离,其符号表示了某分属于均值之间的位置关系而数值表示了它们之间的绝对距离 离差之和始终为零。
xX
平均差:次数分布中所有原始数据与平均数绝对离差的平均值
XA.D.
i
n
2.方差与标准差
和方:每一个离差值平房求和
由于离差正负值互相抵消无法代表离中趋势我们引入和方的概念
SSXX
22
X
N
2
(1)总体的方差和标准差
方差:每个数据与该组数据平均数之差乘方后的均值,即离均差平房后的均数
22
作为样本统计量用符号s表示,作为总体参数用符号σ表示,也叫均方。
2
SS N
标准差:方差的平方根
作为样本统计量用符号s表示,作为总体参数用符号σ表示。
(2)样本的方差和标准差
样本的变异性往往比它来自的总体的变异性要小。为了校正样本数据带来的偏差,在计算样本方差时,我们用自由度来矫正样本误差,从而有利于对总体参数更好的无偏差估计:
S2
SS
n
1
S
(3)性质
①每一个观测值都加一个相同的常数C之后,计算得到的标准差等于原来的标准差 ②每一个观测值都乘以一个相同的常数C,所得到的标准差等于原标准差乘以这个常数
(4)意义
方差与标准差是表示一组数据离散程度的最好指标,它们是统计描述与统计推断分析中最常用的差异量数,它们的优点有:
反应灵敏、计算严谨、计算容易、适合代数运算、受抽样变动影响小、意义简单明了 3.变异系数
当遇到下列情况时,不能用绝对差异量来比较不同样本的离散程度,而应当使用相对差异量数,最常用的就是差异系数。
①两个或两个以上样本所使用的观测工具不同,所测的特质相同
②两个或两个以上样本使用的是同种观测工具,所测的特质相同,但样本间水平差异较大
差异系数:一种最常用的相对差异量,为标准差对平均数的百分比
CV
s
100%
(四)相对量数
1.百分位数
百分位数:在整个分布中,在某一值之下或等于该值的分数的百分比,所对应的分数
百分位数和百分等级是同一操作定义的两端。当我们求累计次数占总体的百分比是,所对应的分数和百分比的值分 别为百分位数和百分等级。 2.百分等级
百分等级:常模团体中低于该分数的人所占总体的百分比
百分等级一定要对应分数区间的精确上限。百分等级和百分位数都可以由已知数据用差值法求解。 3.标准分数
(1)定义
标准分数:以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数,也叫Z分数
离平均数有多远,即表示原始分数在平均数以上或以下几个标准差的位置。
Z
X s
(2)性质
①Z分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量 ②一组原始分数转换得到的Z分数可正可负,所有原始分数的Z分数之和为零 ③原始数据的Z分数的标准差为1
④若原始分数呈正态分布,则转换得到的所有Z分数均值为0,标准差为1的标准正态分布
(3)优点
①可比性——不同性质的成绩,一经转换为标准分数,就可在同一背景下比较 ②可加性——不同性质的原始数据具有相同的参照点,因此可相加 ③明确性——知道了标准分数,利用分布寒暑表就能知道其百分等级 ④稳定性——转换成标准分数之后,规定了标准差为1,保证了不同性质分数在总分数中权重一样
(4)应用
①比较几个分属性质不同的观测值在各自数据分布中相对位置的高低 ②计算不同质的观测值得总合或平均值,以表示在团体中的相对位置
③若标准分数中有小数、负数等不易被人接受的问题,可通过 Z'=aZ+b 的线性公式将其转化成新的分数(如韦氏成人智力量表) (五)相关量数
由于实验法适用范围的限制,有的时候我们只能对变量间进行相关研究,也就是看两者是否有互相跟随的变化关系。相关研究所得到的是一种描述统计,我们仅仅能用其描述两个变量互相跟随的程度大小,至于他们之间是否有因果关系或者是共变关系则不可妄下定论。
相关系数:两列变量间相关程度的数字表现形式
作为样本的统计量用r表示,作为总体参数一般用ρ表示。 正相关:两列变量变动方向相同
负相关:两列变量中有一列变量变动时,另一列变量呈现出与前一列变量方向相反的变动
零相关:两列变量之间没有关系,各自按照自己的规律或无规律变化 1.积差相关
也就是Pearson相关。
(1)前提
①数据要成对出现,即若干个体中每个个体都有两种不同的观测值,并且每队数据与其它对子相互独立
②两列变量各自总体的分布都是正态的,至少接近正态 ③两个相关的变量是连续变量,也即两列数据都是测量数据 ④两列变量之间的关系应是直线性的
(2)公式
r
xy
XYXY
r也就等于X和Y共同变化的程度除以X和Y各自变化的程度。
2.等级相关
也就是Spearman相关
(1)适用范围
①当研究考察的变量为顺序型数据时,若原始数据为等比货等距,则先转化为顺序型数据 ②当研究考察的变量为非线性数据时
(2)公式
将原始数据转化为顺序型数据,仍然用Pearson相关公式计算即可。
3.肯德尔等级相关
(1)肯德尔W系数
也叫肯德尔和谐系数,原始数据资料的获得一般采用等级评定法,即让K个被试对N件实物进行等级评定。其原理是评价者评价的一致性除以最大变异可能性。
W
R
2i
Ri
2
123
KNN12
Ri代表评价对象获得的K个等级之和
N代表等级评定的对象的树木 K代表等级评定者的数目
(2)肯德尔U系数#
其与肯德尔W系数所处理的问题相同,但评价者采用对偶比较法,即将N件事物两两配对分别进行比较
U
8
rijKrij
2
N(n1)K(K1)
1
rij为对偶比较记录表中i>j格中的择优分数
4.点二列相关与二列相关
(1)点二列相关
适用于一列数据为等距正态变量,另一列为离散型二分变量。
rpb
pq
st
p是与二分称名变量的一个值对应的连续变量的平均数 q是与二分称名变量的另一个值对应的连续变量的平均数
p与q是二分称名变量两个值各自所占的比率 st是连续变量的标准差
(2)二列相关
适用于两列变量都是正态等距变量,但其中一列变量被人为地分成两类。
pqpq
rb
sty
y为标准正态曲线中p值对应的高度,查正态分布表能得到 5.Ф相关
适用于两个变量都是只有两个点值或只表示某些质的属性。
r
其中a、b、c、d分别为四格表中左上、右上、左下、右下的数据
二、推断统计
推论统计就是指运用一系列的数学方法,将从样本数据中获得的结果推广到样本所在的总体。进行推论统计的关键在于所抽取的样本要能够尽量接近所要研究的总体。
(一)推断统计的数学基础
1.概率
概率:表明随即时间出现可能性大小的客观指标
概率的定义包含以下两种,当观测次数够多时他们是相等的。
后验概率:对随机事件进行n次观察,某一事件A出现的次数m与观测次数n的比值在n趋近无穷时所稳定在的常数p
先验概率:在满足试验可能结果数有限且每一种结果出现的可能性相等的条件下,随机事件包含的结果数除以结果总数 2.正态分布
当样本量足够大时,我们会发现生活中许多变量的分布都近似于正态曲线,因此有“上帝偏爱正态分布”一说。
(1)特点
①正态曲线的形状就像一口挂钟,呈对称分布,其均值、中数、众数实际上对应于同一个数值
②大部分的原始分数都集中分布在均值附近,极端值相对而言比较少 ③曲线两端向靠近横轴处不断延伸,但始终不会与横轴向交
④正态分布曲线转化为z分数后人以z分数与零点对应曲线下面积固定
(2)用法
①依据Z分数求概率,即已知标准分数求面积 ②从概率求Z分数,即从面积求标准分数值
③已知概率或Z值,求概率密度,即正态曲线的高 3.二项分布
二项分布:对于一个事件有两种可能A和B,但我们对这一事件观察n次,事件A发生的总次数的概率分布就是二项分布
二项分布的均值为pn 方差公式为npq
标准差的公式为2
4.抽样原理与抽样方法
(1)抽样原理
抽样的基本原则是随机性原则,所谓随机性原则,是指在进行抽样时,总体中每一个个体是否被抽选的概率完全均等。由于随机抽样使每个个体有同等机会被抽取,因而有相当大的可能使样本保持和总体有相同的结构,或者说,具有最大的可能使总体的某些特征在样本中得以发现,从而保证由样本推论总体。
(2)抽样方法 ①简单随机取样法 ②系统随机取样法 ③分层随机取样法 ④多段随机取样法 5.抽样分布
样本分布:样本统计量的分布,是统计推论的重要依据
(1)正态分布及渐近正态分布
样本统计量为正态分布或者接近正态分布的情况都可根据正态分布的概率进行统计推论。
总体分为正态或接近正态,方差已知,样本平均数和方差的分布为正态分布 ①样本平均数分布的平均数和方差与母体的平均数和方差有如下关系:
22
n
②样本的方差及标准差的分布也渐趋于正态分布,其分布的平均数与标准差和总体有如下关系:
ss22
s
s2
2
2n
(2)t分布
t分布是一种与方差无关而与自由度有关的分布,很类似正态分布,我们可以将正态分布看作t分布当自由度为正无穷时的特例。
总体分布为正态,方差未知时,样本平均数的分布为t分布:
其中sn1
(3)χ2分布
χ2分布的构造是从一个服从正态分布的总体中每次抽去n个随机变量,计算其平方和之后标准化的一个分布。分布曲线下的面积都是1,但伴随着n取值的不同,自由度改变,曲线分布形状不同,而当自由度趋近于正无穷时χ2分布即为正态分布,因此其于t分布一样都是一族分布,而正态分布都是其中的特例。
2
X
2
2
(4)F分布
如果有两个正态分布的总体,我们从其中各自取出两个样本,各自计算出χ2,则:
12
F
22
12
更多情况下,我们所计算的F两样本取自相同总体,此时可将上式化简为:
F
2sn112sn21
(二)参数估计
当在研究中从样本获得一组数据后,如何通过这组信息,对总体特征进行估计,也就是如何从局部结果推论总体的情况,称为总体参数估计。总体参数估计问题可以分为点估计与区间估计。
1.点估计、区间估计与标准误
良好估计量的标准
①无偏性——用多个样本的统计量估计总体参数的估计值,其偏差的平均数为零
②有效性——当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方差越小越好
③一致性——当样本容量无限增大时,估计值应能够越来越接近它所估计的总体参数 ④充分性——样本的统计量是否充分地反映了全部n个数据所反映总体的信息
点估计:用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计结果也以一个点的数值表示
区间估计:根据估计量以一定可靠程度推断总体参数所在的区间范围,
这个区间就叫做置信区间,相应的概率成为置信度,这两个量是共通变化的,置信区间越大,置信度越高;
区间估计是用数轴上的一段距离表示未知参数可能落入的范围及落入该范围的概率。
标准误:样本平均数分布的标准差
总体方差未知时用估算的总体方差计算标准误。
2.总体平均数的估计
xZxZ
当总体方差未知时,则使用t分布对应置信度 3.标准差与方差的区间估计 (1)标准差的区间估计
sn1Zssn1Zs
(2)方差的区间估计
n1sn212n1sn21
2
21
(三)假设检验
可以说,每一个实验的存在,仅仅是为了给事实一个反驳虚无假设的机会。 ——R.A.Fisher 1.假设检验的原理
假设检验:统计学中的一种推论过程,通过样本统计量得出的差异作为一般性结论,判断总体参数之间是否存在差异
假设检验的实质是对可置信性的评价,是对一个不确定问题的决策过程,其结果在一定概率上正确的,而不是全部。
(1)两类假设
对于任何一种研究而言,其结果无外乎有两种可能,即是否符合我们预期。一般来说证伪一件事情比证实一件事容易,在行为科学的研究中,由于我们无法了解总体中除样本以外的个体情况,因此尝试拒绝虚无假设的方法优于证明备择假设。
备则假设:因变量的变化、差异却是是由于自变量的作用 往往是我们对研究结果的预期,用H1表示。
虚无假设:实际上什么也没有发生,我们所预计的改变、差异、处理效果都不存在 观察到的差异只是随机误差在起作用,用H0表示。
(2)小概率原理
小概率原理:小概率事件在一次试验中几乎是不可能发生的
至于什么就算小概率事件,那就是我们在计算前明确的决策标准,也就是显著性水平α。在检验过程中,我们假设虚无假设是真实的,同时计算出观测到的差异完全是由于随机误差所致的概率。之后将其与我们实现界定好的显著性水平比较,从而考虑是否依据小概率原理来拒绝虚无假设。
(3)两类错误
(本部分内容请参照实心信号检测论对照来看。 ——MJ注)
Ⅰ型错误:当虚无假设正确时,我们拒绝了它所犯的错误,也叫α错误
研究者得出了处理有效果的结论,而实际上并没有效果,即所谓“无中生有”
Ⅱ型错误:当虚无假设是错误的时候,我们没有拒绝所犯的错误,也叫β错误 假设检验未能侦查到实际存在的处理效应,即所谓“失之交臂”
两类检验的关系
①α+β不一定等于1
②在其他条件不变的情况下,α与β不可能同时减小或增大
(4)检验的方向性
单侧检验:强调某一方向的检验,显著性的百分等级为α
双侧检验:只强调差异不强调方向性的检验,显著性百分等级为α/2
对于同样的显著性标准,在某一方向上,单侧检验的临界区域要大于双侧检验,因此如果差异发生在该方向,单侧检验犯β错误的概率较小,我们也说它的检验效力更高。
(5)假设检验的步骤
①根据问题要求,提出虚无假设和备择假设 ②选择适当的检验统计量
③确定检验的方向性并规定显著性水平 ④计算检验统计量的值
⑤将统计量的值与临界值对比做出决策 2.样本与总体平均数差异的检验 (1)总体正态分布且方差已知
zobs
0
其中
0和0分别为总体的平均数和方差
(2)总体正态分布而方差未知
tobs
0其中sX
SsS为用样本和方估算出的总体方差
3.两样本平均数差异的检验
Zobstobs
12
DX
这是两样本平均数检验的通用公式,所不同的仅在于标准误的计算
(1)总体方差已知 ①独立样本
D
②相关样本
DX
r为两组变量之间的相关系数
(2)总体方差未知
①独立样本(方差差异不显著时
)
D
②相关样本
a.相关系数未知:
D
其中d
为每一对对应数据之差
b.相关系数已知:D
4.方差齐性检验
(1)样本方差与总体方差
当从正态分布的总体中随机抽取容量为n的样本时,其样本方差与总体方差比值服从χ2分布:
2
ns2
2
0
由自由度dfn1查χ2表,依据显著性水平判断
(2)两个样本方差之间 ①独立样本
F
2s大
s
2小
其中当两样本自由度相差不大时可用sn代替sn-1
查表时df1n11,df2n21 ②相关样本
t
2
2其中dfn2
5.相关系数的显著性检验 ①积差相关 a.当
ρ=0时:t
其中dfn2
b.当ρ≠0时:先通过查表将r和ρ转化为费舍Zr和Zρ然后进行Z
检验
Z
ZZ②等级相关和肯德尔W系数
在总体相关系数为零时:查各自的相关系数表,判定样本相关显著 (四)方差分析
1.方差分析的原理与基本过程
(1)方差分析的概念
方差分析的目的是推断多组资料的总体均数是否相同,也即检验多组数据之间的均数差异是否有统计意义。当我们用多个t检验来完成这一过程时,相当于从t分布中随机抽取多个t值,这样落在临界范围之外的可能大大增加,从而增加了Ⅰ型错误的概率。我们可以把方差分析看作t检验的增强版。
(2)方差的可分解性
方差分析依据的基本原理就是方差的可加性原则。作为一种统计方法,方差分析把实验数据的总变异分解为若干个不同来源的分量。数据的变异由两部分组成:
组内变异:由于实验中一些希望加以控制的非实验因素和一些未被有效控制的未知因素造成的变异,如个体差异、随机误差
组内变异是具体某一个处理水平之内的,因此在对总体变异进行估计的时候不涉及研究的处理效应。
组间差异:不仅包括组内变异的误差因素,还包括了是不同组所接受的实验处理不同造成的影响
如果研究数据的总变异是由处理效应造成的,那么组间变异在总变异中应该占较大比例。
MSB表示组间方差,MSB
SSB
,dfBk1,k表示实验条件的个数 dfB
SSW
,dfWkn1,n表示每种实验条件中的被试个数 dfW
MSW表示组内方差,MSW
(3)方差分析的基本假定
①样本必须来自正态分布的总体
②每次观察得到的几组数据必须彼此独立 ③各实验处理内的方差应彼此无显著差异
为了满足这一假定,我们可采用最大F比率法Fmax
2smax
2,求出各样本中方差最大值与最smin
小值的比,通过查表判断。
(4)方差分析的基本步骤 Ⅰ 求平方和
①总平方和是所有观测值与总平均数的离差的平方总和 SST
22
GX
其中G表示所有数据的总合,N表示总共的数据个数
2
②组间平方和是每组的平均数与总平均数的离差的平方再与该组数据个数的乘积的总和
22TG SSBniXGi,G为数据总均值,Ti为每组数据和,ni为
i
该组数据个数
③组内平方和是各被试的数值与组平均数之间的离差的平方总和
SSW
SS
i
(注:SSTSSBSSW推荐用于检验之前的计算,而不是被当作快捷计算的方式)
Ⅱ 计算自由度
dfTN1dfBk1
dfWkn1Nk
Ⅲ 计算均方 MSB
SSB
dfBSSW
dfW
MSW
Ⅳ 计算F值 F
MSB
MSW
Ⅴ 查F值表进行F检验并做出判断 Ⅵ 陈列方差分析表 2.完全随机设计的方差分析
3.随机区组设计的方差分析
随机区组设计中同质被试参加所有水平下测试,因此,组间变异不包括个体差异的影响。而每一个水平之内仍然是由不同被试共同完成的,于是我们仍然将总体变异分为组间变异和组内变异,但需要进一步将组内变异分为被试间变异和误差引起的变异。
这样,我们就可以在F检验时,将被试间变异从组内变异中去除,使得检验结果更灵敏。
个体误差用SSR表示,而随机误差用SSE表示,它们的和等于组内差异SSW
F
MSBSSE
其中MSE而SSESSWSSR;dfEk1n1 MSEdfE
n
SSR
i1
R
k
2
G
2
N
其中
R为同一区组的数据之和,或者同一被试在不同处理下的
乘积的和
让我们回忆一下两个相关样本平均数假设检验,可以发现那里出现的情况和这里的多样本方差分析相仿。也就是说,对于同样的实验数据,当我们把它看作是由独立样本得出或相关样本得出时,就要采用不同的检验方法,从而有可能得出不同的结论。在假定为相关样本的数据得出的显著性差异如果换作背景是独立样本就可能只能接受虚无假设。这实际上是因为相关情况下样本之间差异的减小使得对应检验要使用的统计量变大,检验也就更加灵敏了。 4.两因素方差分析
在两因素实验设计中,研究者同时用两种影响因素作为自变量研究它们对某一因变量的影响,其实验结果比单因素设计更实际。 (1)交互作用与主效应
主效应:某个自变量的不同水平对因变量所造成的影响的差异
交互作用:一个因素对因变量的影响因另一个因素的不同水平而不同
如果两个因素彼此独立,即不管其中一个因素处于哪个水平,另一个因素的不同
水平均值间的差异都保持一致,则
不会产生交互作用。
(2)统计原理
为了看清各因素独立作用和交互作用的影响,我们进一步将组间差异分解:
SSBSSaSSbSSab
其中SSa与SSb分别表示a因素与b因素的组间平方和,SSab表示交互作用的平方和 dfaa1;dfbb1;dfaba1b1;dfWNab
(3)F的计算(这里讨论独立样本)
Fa差异 MSaSSa其中MSa这里的SSa是假定全体数据只根据a因素分为两组所计算的组间MSWdfa
FbMSbSS其中MSbb这里的SSb也同样为假设只根据b因素分组所计算的组间差异 MSWdfb
MSabSSab其中MSab这里的SSab为总体组间差异减去SSa和SSb得到 MSWdfabFab5.事后检验
由方差分析只能得到显著差异的结果,事后检验使我们能够比较各组,发现差异具体产生在什么地方。事后检验采用成对比较的方式,每次比较两个组的差异。这里我们只介绍常用的红丝带检验而不是过气的内裤检验。
HSD检验法
Ⅰ 把要比较的各个平均数从小到大作等级排列
Ⅱ 处理条件的数目k,自由度dfE查表得到相应显著性的q值
Ⅲ
计算作为临界值的HSDMSE代替MSW)
Ⅳ 把要比较的两个平均数的差与临界值比较,若超过则认为差异显著
21
(五)回归分析
1.一元线性回归分析
(1)基本概念
回归分析:通过大量的观测发现变量之间存在的统计规律性,并用一定的数学模型表示变量相关关系的方法
只有一个自变量并且统计量成大体一次函数的线性关系的回归分析叫一元线性回归分析。
abX作为回归方程,代表X与Y的线性关系 在一元线性回归中,我们用Y
其中:a表示该直线在Y轴的截距
的变化率 b表示该直线的斜率也就是Y
X为自变量,通常是研究者事先选定的数值
为对应于X对变量Y的估计值 Y
(2)最小二乘法
所谓最小二乘法,就是如果散点图中每一点沿Y轴方向到直线的距离的平方和最小,则认为这条直线的代表性最好,即使用其作为回归方程。这样我们使得总误差
最小。 YY2
abX Y
XXYY其中b;aYbX XX2
2.一元线性回归方程的检验
(1)方差分析法
FMSR MSE
22
其中SSTYYY22Yn2而其dfTn1
SSRYY22X22其dfR1 bXn
SSESSTSSR其dfEn2
(2)回归系数检验
b其中SEbt
SEb
而
sXY 为中心
Y值上下波动的标准差 Y
(在知道相关系数时sXYsY)
3.一元线性回归方程的应用
回归分析的目的,就是在测定自变量X与因变量Y的关系为显著相关后,借助于你和的较优回归模型来预测在自变量X为一定值时因变量Y的发展变化。当我们根据给出的X值而预测得到点估计Y时,Y只代表了预测值的中点,而计算在特定置信区间内的区间估计则依靠以下公式:
YptsXYn很大时近似为1
其中t的自由度取 n-2,Yp为对应该XP的方程解出的点估计Y值
(六)卡方检验
2
fofefe2其中fo为观察次数;fe为理论期望次数 23
公式的适用范围要求观察彼此之间独立,并且单位格的理论期望次数不能小于5(小于5时可与相邻的组合并)
1.拟合度检验
2÷匹配度检验是用样本数据来检验总体分布的形状或比率,以确定与假设的总体性质的匹配度。
dfC1其中C为分类数
2.独立性检验
2÷独立性检验帮助我们考察多种因素的不同分类之间是否独立。它是检验行和列两个变量彼此有无关联的一种统计方法,适用于命名型变量和顺序型变量。
dfC1R1其中C和R分别为行列分类数
(七)非参数检验
1.独立样本均值差异的非参数检验
(1)秩和检验法
①两样本容量均小于10
将容量较小的样本的各数据等级求和,T值检验表中的临界值比较。
②两样本容量均大于10
ZTT
T
其中Tn1n1n11而
T 2
(2)中数检验法#
①将两个样本数据混合从小到大排列
②求混合排列的中数
③分别找出每个样本中大于和小于中数的数据的个数,列成四格表(中数本身不在内) ④对四格表卡方检验公式进行计算
24