卫生统计学
第一节 概述
1、 主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法) b、健康统计(医
学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。
2、 3、 医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。
4、 观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国
家等。
5、 变异:是指客观事物的多样性和不确定性。
6、 变量:观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。
7、 总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。
8、 样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。
9、 概率:事件发生的可能性大小的量度,通常以符号P表示。
10、 误差:
第二节 数值资料的统计描述
1、 频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。
2、 频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。
3、 集中趋势指标:算术平均数(均数)、几何均数、中位数。
指标
算术平均数 使用条件 适用于正态或近似正态分布
的数值变量资料
计算公式
几何均数 ①对数正态分布,即数据经
过对数变换后呈正态分布的
资料;②等比级数资料,即
观察值之间呈倍数或近似倍
数变化的资料。
中位数 ①非正态分布资料(对数正
态分布除外);②频数分布的
一端或两端无确切数据的资
料③总体分布不清楚的资
料。 为奇数 , 为偶数,
4、 离散型趋势指标:极差、标准差和变异系数
指标
极差 计算公式 R=Xmax-Xmin 主要优缺点 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映
组内其它观察值的变异度,不稳定,受样本量影响很大。
离均差平
方和
方差
标准差
变异系数
反映了各变量值之间的变异情况,但单位是原观察值单位的平方,不易理解,同时又受观察值个数的影响,不利于比较。 反映了各变量值之间的变异情况,不受观察值个数的影响,但单位是原观察值单位的平方,不易理解。 反映了各变量值之间的变异情况,不受观察值个数的影响,单位与原观察值单位相同,是最常用的离散程度指标之一,但在两组合多组资料比较时,常受到计量单位不同和均数相差很大的影响而不能比较和不便于比较。 反映了各变量值之间的变异情况,不受观察值个数的影响,没有单位,用于比较度量衡单位不同或均数相差悬殊的多组资料的变异度。
5、 正态分布下面积分布规律①标准正态分布时区间(-1,1)或正态分布时区间(μ-1σ,μ+1σ)的面积占总面积的
68.27%;②标准正态分布时区间(-1.96,1.96)或正态分布时区间(μ-1.96σ,μ+1.96σ)的面积占总面积的95%;③标准正态分布时区间(-2.58,2.58)或正态分布时区间(μ-2.58σ,μ+2.58σ)的面积占总面积的99%。
6、 正态分布的应用。a、医学参考值范围 b、质量控制 c、正态分布是其他一些理论分布的极限形式。
第三节 总体均数的估计和t检验
1、 均数的抽样误差:由抽样引起的样本均数与总体均数之差。均数的抽样误差大小用标准误来描述。标准误σ
X=n。一般不知道总体均数σ,可用样本标准差S来代替:SX=sn。
2、标准差与标准误的区别与联系: 区别:⑴标准差S(σ):①意义:描述个体观察值变异程度的大小。标准差小,均数对一组观察值得代表性好;②应用:与X结合,用以描述个体观察值的分布范围,常用于医学参考值范围的估计;③与n的关系:n越大,S越趋于稳定;⑵标准误SX(σX):①意义:描述样本均数变异程度及抽样误差的大小。标准误小,用样本均数推断总体均数的可靠性大;②应用于X结合,用以估计总体均数可能出现的范围以及对总体均数作假设检验;③与n的关系:n越大,S 越小。联系:①都是描述变异程度的指标;②由S=sn可知,SX与S正比。n一定时,s越大,S越大。
sn3、t分布:当X服从均数为μ的正态分布时,统计量 t服从自由度为v=n-1的t分布,是小样本总体均
数的区间估计及假设检验的理论基础。
4、t分布的图形特征:t值得分布于自由度有关。t分布只有一个参数即v。特征:①单峰分布,以0为中心,左右对称;②v越小,t值越分散,曲线的峰部越矮,尾部越高;③随着v逐渐增大,t分布逐渐接近标准正态分布;当v趋向∞时,t分布趋近标准正态分布,故标准正态分布是t分布的特例;④t分布是一簇曲线。
5、一般正态分布转化为标准正态分布就是将变量X转变为标准正态变量Z值。Z=(X-X)/S。
6、小样本均数可信区间:总体均数μ的双侧(1-α)置信区间为X±tα/2,vSX;单侧(X-tα,vSX,∞)或(-∞,X+ tα,vSX)。μ95%的可信区间:X±t0.05,v SX;μ99%的可信区间:X±t0.01,v SX
7、大样本均数可信区间估计:μ95%的可信区间:X±1.96SX;μ99%的可信区间:X±2.58 SX
8、t检验主要用于两组均属的比较,它能够判断进行比较的两个均数的差别是由于抽样误差引起,还是来自不
同总体。
9、t检验应用条件:①资料是数值资料②分析目的是对两均数进行比较③样本例数较少时,资料服从正态分布,做两样本均数比较时,要求两总体方差齐。
10、样本均数与总体均数比较的t检验:t0
sn
11、配对设计的t检验:td0 ssd/nsd/n
12
SSn1n2212212、两样本均数比较的u检验,两样本均数比较时,如n1和n2均大于100,可用Z检验。Z
第四节 方差分析
1、方差分析应用:a、两个或多个样本均数的比较b、分离各有关因素并分别估计其效应c、分析两因素或多因素的交互作用d、方差齐性检验
2、方差分析包括:a、完全随机设计的方差分析b、随机区组(配伍组)设计资料的方差分析c、均数间的两两比较。
C=(∑∑Xij)/ni
1、 方差分析基本条件:a、独立性各样本是相互独立的随机样本b、方差齐性各组实验结果变异程度一致c、正
态性各组实验结果都服从正态分布
第四节 分类资料的统计描述
1、常用相对数包括:率、构成比、相对比
发生某现象的观察单位数2、率: 率100%可能发生某现象的观察单位总数
率又称频率指标,说明某现象发生的频率或强度,常以100%、1000‟等表示。
3、构成比又称构成指标,说明某一事物内部各组成部分所占的比重或分布。常以百分数表示。
某一组成部分的观察单位数 构成比100%同一事物各组成部分的观察单位总数
4、相对比,是A、B两个有关指标之比,说明两者的对比水平,常以倍数或百分数表示,其公式为:相对比=甲指标 / 乙指标(或100%)
5、动态数列常用指标:绝对增减量、发展速度、增减速度、平均发展速度、平均增减速度。
6、标化率:在进行几个总率比较时,由于内部构成不同并影响了相互比较的结论时,采用统一的标准对几个总率的内部构成进行矫正后在比较。校正后的总率称标化率或调整率。
第六节 二项分布及其应用
1、二项分布是一种离散型随机变量的分布类型。如果每个观察对象阳性结果的发生概率为π,阴性结果的发生概率为(1-π);而且每个观察对象的结果是相互对立的,那么,重复观察n个人,发生阳性结果的人数X的概率分布为而二项分布,记作B(n,π)。
2、二项分布的概率函数P(X)=Cnx πx(1-π)n-x
3、二项分布适用条件:①每次实验只有两种互斥的结果;②各次实验互相独立;③发生成功事件的概率恒定。
4、分布特征:二项分布的特征由二项分布的参数π以及观察的次数n决定。
图形分布特征:二项分布图的高峰在μ=nπ处或附近;π=0.5时,图形对称;
π≠0.5时,分布不对称,且对同一n,π离0.5愈远,对称性愈差。对于同一π,随着n的增大,分布趋于对称。当n→∞时,只要π不太靠近0或1(特别是当nπ和n(1-π)均大于5时),二项分布趋于对称。
5、二项分布的均数和标准差:若X服从二项分布B(n,π),则X的总体均数为μ=nπ,总体方差为σ2=nπ(1-π)
第七节 泊松分布及其应用
1、Poisson分布:是一种离散型随机变量的分布类型,是二项分布的特例,用以描述单位时间、空间、面积等的罕见事件发生次数的概率分布。一般记作P(λ),λ是Poisson分布的唯一参数。总体均数为λ=nπ。前提条件:互斥、独立、恒定。
2、概率函数为:P(X)=e-λ ,X为观察单位内稀有事件的发生次数,e=2.71828。
3、分布特性:Poisson分布是非对称的,总体参数λ值越小,分布越偏;随着λ→∞,分布趋于对称,当λ≥20时,Poisson分布资料可按正态分布处理。
4、Poisson分布总体均数与总体方差相等,均为λ
5、Poisson分布的观察结果可加性,即对于服从Poisson分布的m歌互相独立的随机变量X1、X2„Xm,它们的和也服从Poisson分布,其均数为这个m随机变量的均数之和。
6、三种常用分布之间的关系:
①二项分布与Poisson分布的关系:当n很大,发生概率π(或1-π)很小,二项分布B(n,π)近似于Poisson分布P(nπ);
②二项分布与正态分布的关系:当n较大,π不接近0或1(特别是当nπ和n(1-π)均大于5时),二项分布B(n,π)近似于正态分布N(nπ,nπ(1-π));
③ Poisson分布与正态分布的关系:当λ≥20时,Poisson分布渐进正态分布N(λ,λ)。
7、二项分布与Poisson分布的区别:
⑴相同点:都是离散型随机变量的常见分布;
⑵区别:a、取值不同。服从二项分布的随机变量有n+1个不同的取值;Poisson分布的随机变量的可能去只有无限多个,即非负整数0,1,2„„;b、随机变量的概率不同:二项分布P(X=k)= ,Poisson分布P(X=k)=e-λ ;c、描述的随机变量不同。二项分布描述的是一次试验只会出现两种对立的结果之一,n次独立重复试验中某种结果出现次数的概率分布。Poisson分布描述的是在单位时间、面积、空间等范围中某种事件发生数的概率分布。
第八节 卡方检验
1、检验用途:常用于分类变量资料的统计推断,主要用途包括:①单样本分布的拟合优度;②比较两个或多个独立样本频率分布;③比较配对设计两样本频率和两频率分布;④推断两个变量或特征之间有无关联性。分为四格表卡方检验、行*列表卡方检验、配对资料卡方检验。
2、四格表资料的卡方检验:公式:
3、四格表次来哦在下列情况①四格表资料中有任何一个格子的理论数T<1或n<40;②四格表卡方检验,所得P值十分临近检验水准时,可以直接计算其概率做出判断。
4、行*列表卡方检验要求:理论频数不宜太小,一般不宜有1/5以上的格子的理论频数小于5,或不宜有一个理论频数小于1,否则可能会产生偏性。如果不满足此要求,处理方法有:①增加样本含量(首选);②结合专业知识考虑是否可以将该格所在行或列与别的行和列合并,要根据样本特性来确定,但会损失信息;③改用R×C表Fisher精确概率法,可以用计算机软件实现。
5、配对设计资料的X2检验:
公式:
第九节 非参数统计
1、非参数统计使用:a、资料不服从正态分布或分布未知b、只能以严重程度、优劣等级、效果大小、名词先后来综合判断的有序分类资料。
2、秩和检验目的:是推断连续型变量资料或有序变量资料的两个独立样本代表的两个总体分布是否有差别。
3、方法要点:①将两组数据由小到大同一编秩,以样本列数小者为n1,其秩和为T,查T界值表确定P值;②正态近似法:当n1>10或n2- n1>10时,T分布接近均数为n1(N+1)/2,方差为n1 n2(N+1)/2的正态分布,可用Z检验。
4、注意事项:①编秩中若有相同的数据在同一组则依次编秩;若相同数值在不同组内,求平均秩次;②当相持出现较多时(超过25%),需使用校正公式。
5、基本思想:假设含量为n1与n2的两个样本(且n1≤n2),来自同一总体或分布相同的两个总体,则n1样本的秩和T1与其理论秩和n1(N+1)/2相差不大,即[T- n1(N+1)/2]仅为抽样误差所致。当二者相差悬殊,超出抽样误差可解释的范围时,则有理由怀疑该假设,从而拒绝H0。
第十节 直线相关与回归
1、直线相关又称简单相关,用于双变量正态分布资料,它是从数量上研究两随机变量间相互关系密切程度的一种统计方法。
2、相关系数是线性相关条件下用来说明两个变量间相关关系的密切程度和方向的一个统计指标。
R=
3、直线回归又称简单回归,它是描述与分析两变量间线性依存关系的一种统计方法。
4、直线回归方程:F=a+bX
5、回归系数假设检验:F=
6、回归剩余标准差:Sy,x=
7、回归系数标准误:Sb=
8、不要把相关关系都说成是因果关系。(伴随关系)
9、不要把相关的显著性程度误解为密切程度。
10、线性回归模型的适用条件:①线性:因变量Y与自变量X称线性关系;②独立:每个个体观察值之间互相独立;③正态性:任意给定X值,对应的随机变量Y都服从正态分布;④等方差性:在一定范围内不同的X值所对应的随机变量Y的方差相等。简记为LINE。
11、线性回归的应用:①用于计算总体条件均数的置信区间以及总体回归线的置信带;②用于计算个体Y预测值及其预测区间。线性回归常用于统计预测和统计推断。
12、线性回归与线性相关的区别与联系:
⑴区别:
①单位:相关系数r没有单位,回归系数b有单位;所以,相关系数与单位无关,回归系数与单位有关; ②应用目的:说明两变量间的关联性用相关分析,说明两者依存变化的数量关系则用回归分析;
③对资料的要求不同:线性回归要求应变量Y是服从正态分布的随机变量;线性相关要求两个变量X和Y为服从双变量正态分布的随机变量。
④取值范围:-∞
⑵联系:
①方向一致: r与b的正负号一致;②假设检验等价: tr=tb;③ ;④用回归解释相关决定系数(coefficient of determination): ,回归平方和越接近总平方和,则r2越接近1,相关性越好。
第十二节 调查设计
1、调查设计是对调查研究所作的周密计划,包括资料收集、整理和分析全过程的设想和安排。
2、调查设计包括内容:确定调查目的和指标、确定调查对象和观察单位、确定调查方法、确定资料收集方式、拟定调查项目和调查表、估计样本含量。
3、组织计划:调查员的挑选和调查员的培训。
4、整理计划步骤:问卷接受、问卷核查、数据编码、数据录入、拟定整理表、归纳汇总等。
5、常用的调查方法有:直接观察法、采访法、报告法等。
6、各种抽样方法的抽样误差一般是:整群抽样≥单纯抽样≥系统抽样≥分层抽样。
第十三节 实验设计
1、根据研究者是否人为地设置处理因素,即是否给予干预措施,可将医学研究分为调查研究和实验研究两类。① 调查研究:又称观察性研究或非实验性研究,确切的说应是非随机化对比研究。它对研究对象不施加任何干预措施,是在完全“自然状态”下对研究对象的特征进行观察、记录,并对观察结果进行描述和对比研究。② 实验研究:又称干预性研究,是对研究对象人为给予干预措施的研究。
2、实验设计的基本要素:受试对象、实验因素、实验效应。① 受试对象:是处理因素作用的客体,根据受试对象不同,实验可以分为三类:动物实验、临床试验、现场试验。② 实验因素:是研究者根据研究目的而施加的特定的实验措施,又称为受试因素。③ 实验效应:是处理因素作用下,受试对象的反应或结局,它通过观察指标来体现。
3、选择观察指标时,应当注意:a客观性:客观指标具有较好的真实性和可靠性;b精确性:包括准确度和精密度两层含义。准确度指观察值与真值的接近程度,主要受系统误差的影响。精密度指相同条件下对同一对象的同一指标进行重复观察时,观察值与其均数的接近程度,其差值受随机误差的影响。c灵敏性和特异性:指标的灵敏度反映其检出真阳性的能力,灵敏度高的指标能将处理因素的效应更好地显示出来;指标的特异度反映其鉴别
真阴性的能力,特异度高的指标不易受混杂因素的干扰。
4、实验设计的基本原则:对照、随机化和重复。
⑴对照的形式:①安慰剂对照:目的:在于克服研究者、受试对象等由心理因素导致的偏倚。②空白对照:即对照组不接受任何处理,在动物实验和实验方法研究中最常见,常用于评价测量方法的准确度,评价实验是否处于正常状态等。③实验对照;④标准对照:用现有标准方法或常规方法作为对照;⑤自身对照:对照与实验在同一受试对象身上进行。
⑵a随机化体现在三方面:①随机抽样:总体中每一个体都有相同机会被抽到样本中来;②随机分配:每个受试对象被分配到各组的机会相等,保证大量难以控制的非处理因素在对比组间尽可能均衡,以提高组间的可比性;③实验顺序随机:每个受试对象先后接受处理的机会相等,它使实验顺序的影响也达到均衡。b在实验设计中常通过随机数来实现随机化。获得随机数的常用方法有:随机数字表和计算机的伪随机数发生器。随机数字表常用于抽样研究及随机分组。c常用的两种随机化分组的方法:完全随机化和分层随机化(配对随机化和区组随机化可看成是分层随机化的实际应用)。
⑶重复包括三种情形:①整个实验的重复;②用多个受试对象进行重复;③同一受试对象的重复观察。重复的主要作用:①估计变异的大小;②降低变异大小。
5、常用的实验设计方案:
⑴完全随机设:又称简单随机设计,是最为常见的一种考察单因素两水平或多水平效应的实验设计的方法,它是采用完全随机分组的方法将同质的受试对象分配到各处理组,观察其实验效应。
⑵配对设计:是将受试对象按一定条件配成对子,再将每对中的两个受试对象随机分配到不同的处理组。据以配对的因素应为可能影响实验结果的主要混杂因素。配对设计主要有以下情形:①将两个条件相同或相近的受试对象配成对子,通过随机化,使对子内个体分别接受两种不同的处理;②同一受试对象的两个部分配成对子,分别速记地接受两种不同的处理;③自身前后配对,即同一受试对象,接受某种处理之前和接受该处理后视为配对。 ⑶配伍组设计:实际上是配对设计的扩展。通常是将受试对象按性质相同或相近分为b个区组(或称单位组、配伍组),再将每个区组中的k个受试对象随机分配到k个处理组。设计应遵循“区组间差别越大越好,区组内差别越小越好”的原则。
6、样本含量的估算:
⑴确定样本含量的原则:在保证研究结论有一定可靠性的前提下,估算最少需要多少受试对象。
⑵假设检验所需样本含量取决于四个要素:
① 第一类错误概率α的大小:α越小,所需样本量越大;②第二类错误概率β或检验功效(1-β)的大小: 第二类错误的概率越小,检验功效越大,所需样本含量越多;③容许误差δ:即两总体参数的的差值,δ越大,所需样本含量越小;④总体标准差σ和总体概率π:σ越大,所需样本含量越多;总体概率π越接近50%,变异性越大,所需样本含量越多。
第十四节 居民健康统计
1、反映生育水平的指标包括:粗出生率、总生育率、年龄组生育率。a、粗出生率是指某地某年平均每千人口中的出生数,说明一个地区人口的生育水平。b、总生育率是指某地平均每千名育龄妇女(15-49岁妇女)的活产总数。c、是按年龄别计算的育龄妇女生育率,它消除了年龄构成对生育水平的影响,可了解计划生育控制的重点人群,但不能反映某一时空范围的总生育率情况。
2、人口死亡统计指标:粗死亡率、年龄别死亡率、标准化死亡率、婴儿死亡率、新生儿死亡率。a、粗死亡率:某地某年死亡总人数/同年平均人口数×K 反映一个地区居民死亡水平,但受当地人口、年龄、性别构成影响,须标化后才能进行比较b、年龄别死亡率:某年某年龄组死亡人数/同年同年龄组平均人口数×K 可与他地相应年龄别死亡率直接比较,但也受性别构成影响。一般以5岁为一组距,不满一岁者归0~组,1~4组又为一组,以此为据推算寿命表c、标准化死亡率:消除了年龄结构对死亡水平的影响,可用于比较年龄结构不同的人群整体死亡水平d、婴儿死亡率:某年平均每千名活产数中不满周岁婴儿的死亡数。e、新生儿死亡数:是某年平均每千名活产数中未满28天新生儿的死亡数。
3、寿命表是描述特定人群生命过程的一种统计表,分为定群寿命表和现实寿命表。 用于评价人群健康状况和社会卫生水平;用于评价某种(类)疾病对于居民寿命的影响。
4、发病率是指在一定时期内,在可能发生某病的一定人群中新发某病的频率指标。
5、患病率也称现患率,指某时点上受检人群中患某种疾病的人数,通常用于描述病程较长或发病时间不宜明确的疾病的患病情况。
6、某病死亡率又称疾病别死亡率,指某年每10万人中因某病死亡的人数。
7、生存率:指病人能活到某一时点的概率。(直接法和寿命表法)
8、n年生存率=活满n年的合计病人数/随访满n年的累计病人数*100%
卫生统计学
第一节 概述
1、 主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法) b、健康统计(医
学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。
2、 3、 医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。
4、 观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国
家等。
5、 变异:是指客观事物的多样性和不确定性。
6、 变量:观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。
7、 总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。
8、 样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。
9、 概率:事件发生的可能性大小的量度,通常以符号P表示。
10、 误差:
第二节 数值资料的统计描述
1、 频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。
2、 频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。
3、 集中趋势指标:算术平均数(均数)、几何均数、中位数。
指标
算术平均数 使用条件 适用于正态或近似正态分布
的数值变量资料
计算公式
几何均数 ①对数正态分布,即数据经
过对数变换后呈正态分布的
资料;②等比级数资料,即
观察值之间呈倍数或近似倍
数变化的资料。
中位数 ①非正态分布资料(对数正
态分布除外);②频数分布的
一端或两端无确切数据的资
料③总体分布不清楚的资
料。 为奇数 , 为偶数,
4、 离散型趋势指标:极差、标准差和变异系数
指标
极差 计算公式 R=Xmax-Xmin 主要优缺点 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映
组内其它观察值的变异度,不稳定,受样本量影响很大。
离均差平
方和
方差
标准差
变异系数
反映了各变量值之间的变异情况,但单位是原观察值单位的平方,不易理解,同时又受观察值个数的影响,不利于比较。 反映了各变量值之间的变异情况,不受观察值个数的影响,但单位是原观察值单位的平方,不易理解。 反映了各变量值之间的变异情况,不受观察值个数的影响,单位与原观察值单位相同,是最常用的离散程度指标之一,但在两组合多组资料比较时,常受到计量单位不同和均数相差很大的影响而不能比较和不便于比较。 反映了各变量值之间的变异情况,不受观察值个数的影响,没有单位,用于比较度量衡单位不同或均数相差悬殊的多组资料的变异度。
5、 正态分布下面积分布规律①标准正态分布时区间(-1,1)或正态分布时区间(μ-1σ,μ+1σ)的面积占总面积的
68.27%;②标准正态分布时区间(-1.96,1.96)或正态分布时区间(μ-1.96σ,μ+1.96σ)的面积占总面积的95%;③标准正态分布时区间(-2.58,2.58)或正态分布时区间(μ-2.58σ,μ+2.58σ)的面积占总面积的99%。
6、 正态分布的应用。a、医学参考值范围 b、质量控制 c、正态分布是其他一些理论分布的极限形式。
第三节 总体均数的估计和t检验
1、 均数的抽样误差:由抽样引起的样本均数与总体均数之差。均数的抽样误差大小用标准误来描述。标准误σ
X=n。一般不知道总体均数σ,可用样本标准差S来代替:SX=sn。
2、标准差与标准误的区别与联系: 区别:⑴标准差S(σ):①意义:描述个体观察值变异程度的大小。标准差小,均数对一组观察值得代表性好;②应用:与X结合,用以描述个体观察值的分布范围,常用于医学参考值范围的估计;③与n的关系:n越大,S越趋于稳定;⑵标准误SX(σX):①意义:描述样本均数变异程度及抽样误差的大小。标准误小,用样本均数推断总体均数的可靠性大;②应用于X结合,用以估计总体均数可能出现的范围以及对总体均数作假设检验;③与n的关系:n越大,S 越小。联系:①都是描述变异程度的指标;②由S=sn可知,SX与S正比。n一定时,s越大,S越大。
sn3、t分布:当X服从均数为μ的正态分布时,统计量 t服从自由度为v=n-1的t分布,是小样本总体均
数的区间估计及假设检验的理论基础。
4、t分布的图形特征:t值得分布于自由度有关。t分布只有一个参数即v。特征:①单峰分布,以0为中心,左右对称;②v越小,t值越分散,曲线的峰部越矮,尾部越高;③随着v逐渐增大,t分布逐渐接近标准正态分布;当v趋向∞时,t分布趋近标准正态分布,故标准正态分布是t分布的特例;④t分布是一簇曲线。
5、一般正态分布转化为标准正态分布就是将变量X转变为标准正态变量Z值。Z=(X-X)/S。
6、小样本均数可信区间:总体均数μ的双侧(1-α)置信区间为X±tα/2,vSX;单侧(X-tα,vSX,∞)或(-∞,X+ tα,vSX)。μ95%的可信区间:X±t0.05,v SX;μ99%的可信区间:X±t0.01,v SX
7、大样本均数可信区间估计:μ95%的可信区间:X±1.96SX;μ99%的可信区间:X±2.58 SX
8、t检验主要用于两组均属的比较,它能够判断进行比较的两个均数的差别是由于抽样误差引起,还是来自不
同总体。
9、t检验应用条件:①资料是数值资料②分析目的是对两均数进行比较③样本例数较少时,资料服从正态分布,做两样本均数比较时,要求两总体方差齐。
10、样本均数与总体均数比较的t检验:t0
sn
11、配对设计的t检验:td0 ssd/nsd/n
12
SSn1n2212212、两样本均数比较的u检验,两样本均数比较时,如n1和n2均大于100,可用Z检验。Z
第四节 方差分析
1、方差分析应用:a、两个或多个样本均数的比较b、分离各有关因素并分别估计其效应c、分析两因素或多因素的交互作用d、方差齐性检验
2、方差分析包括:a、完全随机设计的方差分析b、随机区组(配伍组)设计资料的方差分析c、均数间的两两比较。
C=(∑∑Xij)/ni
1、 方差分析基本条件:a、独立性各样本是相互独立的随机样本b、方差齐性各组实验结果变异程度一致c、正
态性各组实验结果都服从正态分布
第四节 分类资料的统计描述
1、常用相对数包括:率、构成比、相对比
发生某现象的观察单位数2、率: 率100%可能发生某现象的观察单位总数
率又称频率指标,说明某现象发生的频率或强度,常以100%、1000‟等表示。
3、构成比又称构成指标,说明某一事物内部各组成部分所占的比重或分布。常以百分数表示。
某一组成部分的观察单位数 构成比100%同一事物各组成部分的观察单位总数
4、相对比,是A、B两个有关指标之比,说明两者的对比水平,常以倍数或百分数表示,其公式为:相对比=甲指标 / 乙指标(或100%)
5、动态数列常用指标:绝对增减量、发展速度、增减速度、平均发展速度、平均增减速度。
6、标化率:在进行几个总率比较时,由于内部构成不同并影响了相互比较的结论时,采用统一的标准对几个总率的内部构成进行矫正后在比较。校正后的总率称标化率或调整率。
第六节 二项分布及其应用
1、二项分布是一种离散型随机变量的分布类型。如果每个观察对象阳性结果的发生概率为π,阴性结果的发生概率为(1-π);而且每个观察对象的结果是相互对立的,那么,重复观察n个人,发生阳性结果的人数X的概率分布为而二项分布,记作B(n,π)。
2、二项分布的概率函数P(X)=Cnx πx(1-π)n-x
3、二项分布适用条件:①每次实验只有两种互斥的结果;②各次实验互相独立;③发生成功事件的概率恒定。
4、分布特征:二项分布的特征由二项分布的参数π以及观察的次数n决定。
图形分布特征:二项分布图的高峰在μ=nπ处或附近;π=0.5时,图形对称;
π≠0.5时,分布不对称,且对同一n,π离0.5愈远,对称性愈差。对于同一π,随着n的增大,分布趋于对称。当n→∞时,只要π不太靠近0或1(特别是当nπ和n(1-π)均大于5时),二项分布趋于对称。
5、二项分布的均数和标准差:若X服从二项分布B(n,π),则X的总体均数为μ=nπ,总体方差为σ2=nπ(1-π)
第七节 泊松分布及其应用
1、Poisson分布:是一种离散型随机变量的分布类型,是二项分布的特例,用以描述单位时间、空间、面积等的罕见事件发生次数的概率分布。一般记作P(λ),λ是Poisson分布的唯一参数。总体均数为λ=nπ。前提条件:互斥、独立、恒定。
2、概率函数为:P(X)=e-λ ,X为观察单位内稀有事件的发生次数,e=2.71828。
3、分布特性:Poisson分布是非对称的,总体参数λ值越小,分布越偏;随着λ→∞,分布趋于对称,当λ≥20时,Poisson分布资料可按正态分布处理。
4、Poisson分布总体均数与总体方差相等,均为λ
5、Poisson分布的观察结果可加性,即对于服从Poisson分布的m歌互相独立的随机变量X1、X2„Xm,它们的和也服从Poisson分布,其均数为这个m随机变量的均数之和。
6、三种常用分布之间的关系:
①二项分布与Poisson分布的关系:当n很大,发生概率π(或1-π)很小,二项分布B(n,π)近似于Poisson分布P(nπ);
②二项分布与正态分布的关系:当n较大,π不接近0或1(特别是当nπ和n(1-π)均大于5时),二项分布B(n,π)近似于正态分布N(nπ,nπ(1-π));
③ Poisson分布与正态分布的关系:当λ≥20时,Poisson分布渐进正态分布N(λ,λ)。
7、二项分布与Poisson分布的区别:
⑴相同点:都是离散型随机变量的常见分布;
⑵区别:a、取值不同。服从二项分布的随机变量有n+1个不同的取值;Poisson分布的随机变量的可能去只有无限多个,即非负整数0,1,2„„;b、随机变量的概率不同:二项分布P(X=k)= ,Poisson分布P(X=k)=e-λ ;c、描述的随机变量不同。二项分布描述的是一次试验只会出现两种对立的结果之一,n次独立重复试验中某种结果出现次数的概率分布。Poisson分布描述的是在单位时间、面积、空间等范围中某种事件发生数的概率分布。
第八节 卡方检验
1、检验用途:常用于分类变量资料的统计推断,主要用途包括:①单样本分布的拟合优度;②比较两个或多个独立样本频率分布;③比较配对设计两样本频率和两频率分布;④推断两个变量或特征之间有无关联性。分为四格表卡方检验、行*列表卡方检验、配对资料卡方检验。
2、四格表资料的卡方检验:公式:
3、四格表次来哦在下列情况①四格表资料中有任何一个格子的理论数T<1或n<40;②四格表卡方检验,所得P值十分临近检验水准时,可以直接计算其概率做出判断。
4、行*列表卡方检验要求:理论频数不宜太小,一般不宜有1/5以上的格子的理论频数小于5,或不宜有一个理论频数小于1,否则可能会产生偏性。如果不满足此要求,处理方法有:①增加样本含量(首选);②结合专业知识考虑是否可以将该格所在行或列与别的行和列合并,要根据样本特性来确定,但会损失信息;③改用R×C表Fisher精确概率法,可以用计算机软件实现。
5、配对设计资料的X2检验:
公式:
第九节 非参数统计
1、非参数统计使用:a、资料不服从正态分布或分布未知b、只能以严重程度、优劣等级、效果大小、名词先后来综合判断的有序分类资料。
2、秩和检验目的:是推断连续型变量资料或有序变量资料的两个独立样本代表的两个总体分布是否有差别。
3、方法要点:①将两组数据由小到大同一编秩,以样本列数小者为n1,其秩和为T,查T界值表确定P值;②正态近似法:当n1>10或n2- n1>10时,T分布接近均数为n1(N+1)/2,方差为n1 n2(N+1)/2的正态分布,可用Z检验。
4、注意事项:①编秩中若有相同的数据在同一组则依次编秩;若相同数值在不同组内,求平均秩次;②当相持出现较多时(超过25%),需使用校正公式。
5、基本思想:假设含量为n1与n2的两个样本(且n1≤n2),来自同一总体或分布相同的两个总体,则n1样本的秩和T1与其理论秩和n1(N+1)/2相差不大,即[T- n1(N+1)/2]仅为抽样误差所致。当二者相差悬殊,超出抽样误差可解释的范围时,则有理由怀疑该假设,从而拒绝H0。
第十节 直线相关与回归
1、直线相关又称简单相关,用于双变量正态分布资料,它是从数量上研究两随机变量间相互关系密切程度的一种统计方法。
2、相关系数是线性相关条件下用来说明两个变量间相关关系的密切程度和方向的一个统计指标。
R=
3、直线回归又称简单回归,它是描述与分析两变量间线性依存关系的一种统计方法。
4、直线回归方程:F=a+bX
5、回归系数假设检验:F=
6、回归剩余标准差:Sy,x=
7、回归系数标准误:Sb=
8、不要把相关关系都说成是因果关系。(伴随关系)
9、不要把相关的显著性程度误解为密切程度。
10、线性回归模型的适用条件:①线性:因变量Y与自变量X称线性关系;②独立:每个个体观察值之间互相独立;③正态性:任意给定X值,对应的随机变量Y都服从正态分布;④等方差性:在一定范围内不同的X值所对应的随机变量Y的方差相等。简记为LINE。
11、线性回归的应用:①用于计算总体条件均数的置信区间以及总体回归线的置信带;②用于计算个体Y预测值及其预测区间。线性回归常用于统计预测和统计推断。
12、线性回归与线性相关的区别与联系:
⑴区别:
①单位:相关系数r没有单位,回归系数b有单位;所以,相关系数与单位无关,回归系数与单位有关; ②应用目的:说明两变量间的关联性用相关分析,说明两者依存变化的数量关系则用回归分析;
③对资料的要求不同:线性回归要求应变量Y是服从正态分布的随机变量;线性相关要求两个变量X和Y为服从双变量正态分布的随机变量。
④取值范围:-∞
⑵联系:
①方向一致: r与b的正负号一致;②假设检验等价: tr=tb;③ ;④用回归解释相关决定系数(coefficient of determination): ,回归平方和越接近总平方和,则r2越接近1,相关性越好。
第十二节 调查设计
1、调查设计是对调查研究所作的周密计划,包括资料收集、整理和分析全过程的设想和安排。
2、调查设计包括内容:确定调查目的和指标、确定调查对象和观察单位、确定调查方法、确定资料收集方式、拟定调查项目和调查表、估计样本含量。
3、组织计划:调查员的挑选和调查员的培训。
4、整理计划步骤:问卷接受、问卷核查、数据编码、数据录入、拟定整理表、归纳汇总等。
5、常用的调查方法有:直接观察法、采访法、报告法等。
6、各种抽样方法的抽样误差一般是:整群抽样≥单纯抽样≥系统抽样≥分层抽样。
第十三节 实验设计
1、根据研究者是否人为地设置处理因素,即是否给予干预措施,可将医学研究分为调查研究和实验研究两类。① 调查研究:又称观察性研究或非实验性研究,确切的说应是非随机化对比研究。它对研究对象不施加任何干预措施,是在完全“自然状态”下对研究对象的特征进行观察、记录,并对观察结果进行描述和对比研究。② 实验研究:又称干预性研究,是对研究对象人为给予干预措施的研究。
2、实验设计的基本要素:受试对象、实验因素、实验效应。① 受试对象:是处理因素作用的客体,根据受试对象不同,实验可以分为三类:动物实验、临床试验、现场试验。② 实验因素:是研究者根据研究目的而施加的特定的实验措施,又称为受试因素。③ 实验效应:是处理因素作用下,受试对象的反应或结局,它通过观察指标来体现。
3、选择观察指标时,应当注意:a客观性:客观指标具有较好的真实性和可靠性;b精确性:包括准确度和精密度两层含义。准确度指观察值与真值的接近程度,主要受系统误差的影响。精密度指相同条件下对同一对象的同一指标进行重复观察时,观察值与其均数的接近程度,其差值受随机误差的影响。c灵敏性和特异性:指标的灵敏度反映其检出真阳性的能力,灵敏度高的指标能将处理因素的效应更好地显示出来;指标的特异度反映其鉴别
真阴性的能力,特异度高的指标不易受混杂因素的干扰。
4、实验设计的基本原则:对照、随机化和重复。
⑴对照的形式:①安慰剂对照:目的:在于克服研究者、受试对象等由心理因素导致的偏倚。②空白对照:即对照组不接受任何处理,在动物实验和实验方法研究中最常见,常用于评价测量方法的准确度,评价实验是否处于正常状态等。③实验对照;④标准对照:用现有标准方法或常规方法作为对照;⑤自身对照:对照与实验在同一受试对象身上进行。
⑵a随机化体现在三方面:①随机抽样:总体中每一个体都有相同机会被抽到样本中来;②随机分配:每个受试对象被分配到各组的机会相等,保证大量难以控制的非处理因素在对比组间尽可能均衡,以提高组间的可比性;③实验顺序随机:每个受试对象先后接受处理的机会相等,它使实验顺序的影响也达到均衡。b在实验设计中常通过随机数来实现随机化。获得随机数的常用方法有:随机数字表和计算机的伪随机数发生器。随机数字表常用于抽样研究及随机分组。c常用的两种随机化分组的方法:完全随机化和分层随机化(配对随机化和区组随机化可看成是分层随机化的实际应用)。
⑶重复包括三种情形:①整个实验的重复;②用多个受试对象进行重复;③同一受试对象的重复观察。重复的主要作用:①估计变异的大小;②降低变异大小。
5、常用的实验设计方案:
⑴完全随机设:又称简单随机设计,是最为常见的一种考察单因素两水平或多水平效应的实验设计的方法,它是采用完全随机分组的方法将同质的受试对象分配到各处理组,观察其实验效应。
⑵配对设计:是将受试对象按一定条件配成对子,再将每对中的两个受试对象随机分配到不同的处理组。据以配对的因素应为可能影响实验结果的主要混杂因素。配对设计主要有以下情形:①将两个条件相同或相近的受试对象配成对子,通过随机化,使对子内个体分别接受两种不同的处理;②同一受试对象的两个部分配成对子,分别速记地接受两种不同的处理;③自身前后配对,即同一受试对象,接受某种处理之前和接受该处理后视为配对。 ⑶配伍组设计:实际上是配对设计的扩展。通常是将受试对象按性质相同或相近分为b个区组(或称单位组、配伍组),再将每个区组中的k个受试对象随机分配到k个处理组。设计应遵循“区组间差别越大越好,区组内差别越小越好”的原则。
6、样本含量的估算:
⑴确定样本含量的原则:在保证研究结论有一定可靠性的前提下,估算最少需要多少受试对象。
⑵假设检验所需样本含量取决于四个要素:
① 第一类错误概率α的大小:α越小,所需样本量越大;②第二类错误概率β或检验功效(1-β)的大小: 第二类错误的概率越小,检验功效越大,所需样本含量越多;③容许误差δ:即两总体参数的的差值,δ越大,所需样本含量越小;④总体标准差σ和总体概率π:σ越大,所需样本含量越多;总体概率π越接近50%,变异性越大,所需样本含量越多。
第十四节 居民健康统计
1、反映生育水平的指标包括:粗出生率、总生育率、年龄组生育率。a、粗出生率是指某地某年平均每千人口中的出生数,说明一个地区人口的生育水平。b、总生育率是指某地平均每千名育龄妇女(15-49岁妇女)的活产总数。c、是按年龄别计算的育龄妇女生育率,它消除了年龄构成对生育水平的影响,可了解计划生育控制的重点人群,但不能反映某一时空范围的总生育率情况。
2、人口死亡统计指标:粗死亡率、年龄别死亡率、标准化死亡率、婴儿死亡率、新生儿死亡率。a、粗死亡率:某地某年死亡总人数/同年平均人口数×K 反映一个地区居民死亡水平,但受当地人口、年龄、性别构成影响,须标化后才能进行比较b、年龄别死亡率:某年某年龄组死亡人数/同年同年龄组平均人口数×K 可与他地相应年龄别死亡率直接比较,但也受性别构成影响。一般以5岁为一组距,不满一岁者归0~组,1~4组又为一组,以此为据推算寿命表c、标准化死亡率:消除了年龄结构对死亡水平的影响,可用于比较年龄结构不同的人群整体死亡水平d、婴儿死亡率:某年平均每千名活产数中不满周岁婴儿的死亡数。e、新生儿死亡数:是某年平均每千名活产数中未满28天新生儿的死亡数。
3、寿命表是描述特定人群生命过程的一种统计表,分为定群寿命表和现实寿命表。 用于评价人群健康状况和社会卫生水平;用于评价某种(类)疾病对于居民寿命的影响。
4、发病率是指在一定时期内,在可能发生某病的一定人群中新发某病的频率指标。
5、患病率也称现患率,指某时点上受检人群中患某种疾病的人数,通常用于描述病程较长或发病时间不宜明确的疾病的患病情况。
6、某病死亡率又称疾病别死亡率,指某年每10万人中因某病死亡的人数。
7、生存率:指病人能活到某一时点的概率。(直接法和寿命表法)
8、n年生存率=活满n年的合计病人数/随访满n年的累计病人数*100%