医学统计学笔记12

医学统计学笔记

统计学：是收集、分析、解释与阐述数据资料的一门科学。通过收集、分类、分析来处理数据变化的科学与艺术，获得可信结果。

医学统计学：将概率论和数理统计的原理和方法应用于医疗卫生实践和医学科研，研究其数据的搜集、整理与分析的一门科学。是认识人群健康与疾病数量特征的重要工具，是进行医药卫生科学研究的重要手段。

国外统计学家：统计学并不能证明事物，但它能进行推断，发现线索，提供信息，使得人们有根据去改善事物。

科研原则：随机化原则，对照原则，重复原则，齐同原则（均衡原则）。

统计内容：设计，总体指标估计，假设检验，现象联系关系的分析，多因素分析，健康估计。统计三大内容：科研设计，统计描述，统计推断。

变量：被观察和测量单位的特征。变量值：对变量的测量值。

同质：被研究指标的影响因素相同或具有相同性质的事物。

变异：在同质的基础上各观察单位之间的差异或同质事物之间的差别。

总体：根据研究目的确定的同质的研究对象的全体。

样本：（随机性，可比性，可靠性）。

特点：除。

抽样误差：在抽样过程中由于个体差异（本质）所致的统计量与参数之间的差异。特点：有过失误差：由于操作者的失误造成的误差。

概率：随机事件发生的可能性大小的数值。0《P 《1 必然事件P=0，不可能事件，小概率事件：P 《0.05或P 《0.01，小概率原理：小概率事件并不表示不可能发生，但在某一次试验中，是不会发生的。在大量观察基础上，频率的稳定值为概率。

统计资料类型：

计量资料：描述指标，对每个观察单位用定量的方法测量某项指标量的大小所得的资料，有计量单位。

计数资料：相对数，将观察单位按性质或类别分类，然后清点各组观察单位的个数所得的资料。

等级资料：将观察单位按某种属性的不同程度分组，然后清点各组观察单位的个数所得的资料。

新分法：数值变量（计量），分类变量（用定性的方法得到的资料），二项多类变量（计数），多项分类变量：有序多项分类变量（等级），无序多项分类变量（计数）。

步骤：研究设计是指科学研究具体内容，方法的设想和计划安排，主要包括：调查设计，实验设计，临床试验设计等。五原则：随机，对照，重复，类同，盲法原则；目的：使科研结果符合四性---有用性，创新性，可靠性，经济型。

收集资料任务：按设计的要求及时取得准确、可靠、完整的原始资料。资料来源：第一手资料：经常性统计资料，工作记录；一时性专题调查，实验或临床试验。第二手资料：已公布的资料，如数据银行等。

整理资料目的：净化资料，使原始数据的条理化、系统化。

所采用手段---检查核对数据---合理分组、目的---实现专业目标

质分组：按事物的属性或性质分组--分类变量量分组：按数据的大小---数值变量

分析资料统计描述：用统计指标，统计图表对资料的数量特征及分布规律进行测定和描述；统计推断：用样本推断总体的特征参数估计，假设检验

统计学的功能：收集，分类，分析，解释数据资料。

统计描述：用适当的统计图表和统计指标来描述资料的分布规律及其数量特征。

数据变量的统计描述：频数表，集中趋势，离散程度，分布。

直条图表离散型变量连续性变量频数的分布、分组、步骤

极差：— 组数）（相对取整，不遵循四舍五入）。

条理化、便于进一步分析；类型（正

。。

中位数：M M=X(n+1/2) (奇数) ； M=1/2(Xn/2+Xn/2+1) (偶数) 。。。

应用：百分位数：。。。可用来描述资料的观察值序列在某百分位置的水平。

众数：在样本中出现的次数最多的数值；也是总体中出现机会最高的数值。

调和均数：H ，取原数据倒数的算术均数，该算术均数的倒数称。。，适用于参差不齐的数据分布资料。

离散程度指标：全距R 亦称极差优点：计算简单缺点：仅考虑了Xmax ，Xmix ，不能反映组内其它观察值的变异度；样本含量越大，抽到较大或较小观察值的可能性越大，故全距可能越大；样本含量相差悬殊时不宜用全距比较。

四分位数间距：适用于描述偏态分布以及分布的一端或两端无确切数据资料的离散程度。公式Qu —QL 优点，不受Xmax ，Xmix 影响；缺点，未考虑全部观察值得变异度。平均偏差：优点，全面考虑观察值的变异程度；缺点，取绝对值。

方差：记σ2，总体方差样本方差：S2

优点：全面考虑观察值的变异情况；缺点，平方后度量衡单位cm--cm2

标准差：用途表示变量值的离散程度，衡量均数的代表性，标准差小，离散程度小，代表性强；用来计算变异系数；用于估计变量值的分布情况；可用于制定医学参考值（正常值）；可用于计算标准误。

变异系数：又称相对偏差Rsi ，用途：度量衡单位不同，均数相差悬殊。

特征：对称性；集中性（集中于中等大小数据附近）；两个参数u--位置参数，总体均数σ--总体标准差，系统参数；均匀分布，曲线分布呈均匀性；正态曲线在—1S 处各有一个拐点；1

1.96---95% 用途：1. >100，分双侧，单侧。

8种情况：

连续有69个点；连续14个点交替上下；连续32个点超过2151侧或两侧连续81

4. 正态分布是许多统计方法的基础。某些统计量的抽样分布是在正态分布的基础上推t 也可通过变量变换，转换成正态分布，然后按正态分布规律处理。

小样本用t 检验，大样本用u 检验。

如何判断资料是否为正态分布：图示法，频数表法 P--P 图，Q--Q 图；假设检验，w 检验（3《n 《100），D 检验（10《n 《2000）。距法：动差法，偏度与峰度检验。

抽样误差：由于抽样与变异造成的统计量与参数，或统计量与统计量之间的差异。

标准误：反映样本均数抽样误差的大小，反映统计量的离散程度。说明样本均数的可靠度。 T 分布：是以0为中心，随自由度而变化的一簇左右对称的曲线。T 分布只有一个参数即自由度，V=n—1，自由度越大，t 分布越接近于正态分布，当自由度比较无穷大时，t 分布趋向于标准正态分布。

自由度：指计算某一统计量时，能够自由取值的变量的个数。

T 分布图形特征：单峰分布，以0为中心，左右对称，类似正态；自由度V 越小，则t 越大，t 值越分散，曲线的峰部越矮，尾部越高；随着V 升高，t 分布逐渐逼近标准正态分布。 t 分布主要用于总体均数的区间估计及t 检验。

Ti 分布与标准正态分布的比较：都为单峰，t 分布的峰顶比正态分布低，两端高。

总体均数的估计，参数估计用样本统计量估计总体参数；方法：总估计，可信区间估计，标准误用途：均数的可靠程度；总体均数的可信区间；用于假设检验。

可信区间两要素：

准确度：反映在可信度的大小，即可信区间包括总体参数，概率的大小，其概率愈接近1准确度愈高。

精密度：反映区间的长度，区间长度愈小精度越高，可信区间随样本的不同而变化，而总体均数u 是固定参数。

假设检验的意义：判断差别是抽样误差所致还是本质的差别。

为何要做假设检验：

样本均数和样本率比较，它们之间的差别可能有两种原因造成：

它们是来自同一总体，它们之间的差别是由抽样误差所致；并非来自同一总体，其差别不完全由抽样误差的原因而是有本质差别；

为了判断原因必须通过假设检验来回答。

假设检验的原理：

首先假设被比较的两个或几个均数（率）分别来自同一个总体，而它们间的差异仅仅是由于

抽样误差所致，然后根据资料数据的类型，分布，样本含量的大小和利用科研设计的要求等，选择检验的方法，计算相应的统计量，去推断这种抽样误差的可能性大小，即P 值的大小，如果P 值较大，则认为他们间的差异是由于抽样误差所致的可能性较大，而实际存在本质差异的可能性较小，故接受假设，否定反之。

如何确定用单侧或双侧

一般情况下用双侧，初学者用双侧，除非有足够的理论证明事物是朝一个方向发展的。第一步：确定假设检验和检验标准；第二步：选择方法确定统计量；第三步：确定P 值作出推断。

t 检验应用的条件是计量资料，要求样本来自正态分布的总体；两样本均数比较时，还要求量总体方差具有齐性，但实际工作中，只要其分布为单峰呈近似对称分布也可应用。是否相同，一样，一律用双侧，通过问题来判断，优于，高于，，用单侧。

配对设计：减少实验的误差和个体差异，提高统计学效率。

同一受试对象身体两个部位的数据；同一受试对象处理（实验或治疗）前后的数据；同一样品用两种方法检验的结果；两种同质受试对象分别接受两种处理。

U t u 检验。

保证组间的可比性；；正确理解差别P 。。结论根据P

0时写成P=1成或

检验可提高更多的信息；

变量变换是指将原始数据作某种函数转换。

拟合）。

数据变换平方根正弦报告，样本服从二项分布，但其率偏小（

倒数变换数据两端波动大的资料，可使其极端值得影响减小。

第四章

多个均数比较，不能用两样本均数比较的t 检验。

若用两样本均数比较的t 检验进行多重比较，将会加大一类错误（把本无差别的两个总体均数判为有差别）的概率。

方差分析，Analysis of variance ANovA 方差分析又称变异分析。

R.A.Fisher 英国统计学家

基本思想是把全部观察值之间的变异（总变异）按设计和需要分为若干部分，每部分都有一定意义，其中至少一部分表示各组均数的变异（组间变异）另一部分表示误差所致的变异，然后计算变异间的比值（F 值），可以认为处理因素无作用，否则反之，若F 值接近1，。。。组内变异有随机误差和抽样误差，组间变异有抽样误差，随机及时间等。

应用条件

各样本是来自自态分布的总体；各样本是相互独立的随机样本；样本均数所在总体方差具有齐性。

应用范围。可用于两个或两个以上的均数的假设检验；方差齐性检验；有无交互效应的分析；回归系数的显著性检验。

Duunett 法，用于多个实验组与一个对照组化比较，其统计量为d ’

LSD ，最小显著性，适用于一对或几对在专业上有特殊意义的样本均数间的比较； SNK--q 检验，亦称q 检验，适用于多个样本均数两两之间的全面比较。

多个样本方差的齐性检验用Bartlett 检验。

多个均数比较

方差齐性检验（Bartlett

齐

常用相对数的指标：

患病率=患病人数/调查人数xK;

发病率=观察期内新发病例数比同期内可能发生该病的平均人数xk ；

感染率=感染人数比检查人数xK;

死亡率=某年内的死亡人数比同年内的平均人口数乘以百分之1000；

病死率=死于某病的人数比该病的患病总人数乘以百分之100；

漏诊率=未被诊断为某病的病人数比确实为该病的病人数乘以百分之100；

误诊率=确实不是某病的人数比被诊断为该病的病人数乘以百分之100.

构成比：又称构成指标，等于某组成部分的观察单位数比各组成部分的观察单位总数乘以100%

特点：总和等于100%或1，不能同时增大或减小。

相对比：反映指标同一的相对水平，等于甲指标比乙指标。

应用相对数主要事项：

分母不能太小；比与率不能混用；合差率（总率）的计算；可比性，总率比较时需要看内部

构成；抽样误差，假设检验。

率的标准化：

意义和基本思想：

当比较两组或多组资料，其内部各小组明显不同，且多小组观察例数的构成比，诸如年龄、性别、工龄、病情轻重、病情长短等也明显不同时，直接比较两个或多个合计率是不合理的，因为其内部构成不同往往影响合计率的大小。

条件：小组构成影响总率，小组构成各部相同，比较总率。

方法：直接法，适用条件，各小组率已知标准选用标准人口。

间接法：只有总发生数和年龄别人口数而缺乏年龄别发生率时，或各年龄组人口数小，年龄别发生率不稳定时，宜用间接法。由于理论方面的问题，尽量少用间接法，最好不用。各小组率不清楚时选用，但已知总体，标准选用标准发生率。

离散型变量分布，特点：重复试验是彼此独立的；每次试验只有两种互斥的结果之一；每次试验产生某种结果的概率是固定的。

应用：概率估计；总体的可信区间估计；进行显著性检验；样本率与总体率比较（近似正态法）满足近似正态条件时要求P 不是太小，nxp 和nx （1—p ）≥5, 可用U 检验，U=p-π／６ｐ，．．．

二项分布，见公式。。。

卡方检验，用途：

单个频数分布的拟合优度检验；完全随机设计两组频数分布Ｘ２检验；多组频数分布的ｘ２检验；配对设计下两组频数分布ｘ２检验；理论数与实际数差别的显著性检验；分析两分类变量（属性现象）之间有无关系的推断。

用于检验两组及两组以上样本率，构成比，理论数与实际数之间差别的显著性检验，用于频数分布拟合优度检验，还可用于分析的。。。

特性：卡方分布无负值，因各个（Ａ－Ｔ）２／Ｔ均为正值，卡方分布为０—无穷大；

卡方分布的形状是自由度决定的，因（Ａ－Ｔ）２／Ｔ的个数愈多，卡方值也就愈大，

卡方分布的形状是随自由度不同而改变的，随自由度增大其曲线逐渐趋于对称，当自由度大于３０时，则其分布形状近似正态分布。

四格表资料的ｘ２检验：＋－合计

甲ａｂａ＋ｂ

ｃｄ乙ｃ＋ｄ

ａ＋ｃｂ＋ｄａ＋ｂ＋ｃ＋ｄ

ｎ≥４０，Ｔ≥５时，用ｘ２公式，ｎ≥４０, １≤Ｔ

X2=u2，这种关系仅仅适用于四格表而且np 和n （1-p ）≥5的情况。

12月4日

行X 列表资料的X 2 检验公式：

适用条件：总样本不能太小至少大于50；理论数不能小于1；理论数在1--5之间不能多于1/5的总格子数。

合并，删除，加大样本含量（最好用）

A 研究目的为多个样本率的比较，可用行X 列表资料的X 2 检验，必要时进一步分割X2检验，有3个样本率；a ’=a’/N, a=a/N+1, a=a/2(k-1)

B 行x 列表中的试验部分组变量是有序的（如药物浓度），而指标变量是无序的（如染色体损伤类型），此单向有序资料可用行X 列表资料的X 2 检验。

行x 列表中试验分组分变量是无序的（如资料方式）而指标变量是有序的（如疗效等），此单向有序资料用秩和检验，如果用x2检验，只能说明构成比不同。

研究目的为分析两个分类变量之间的有无关联性以及密切程度时，可用x2检验及Pearson 。。。双向有序属性相同的行x 列表资料，如用两种方法对同一抽样进行测定，但测定结果用3个及以上的等级表示，其研究目的的通常是分析两种方法检出的一致性，此时宜用一致性检

专用公式： x2=（b+c）2 /（b+c）

差异性检验：b+c大于等于40时，用专业公式。

b+c小于40时，x2=（|b—c|—1）²/(b+c)。 P115页

Fisher 确切概率法：

条件理论数小于1或n 小于40或作x2检验后所得概率P 接近检验水准a ，公式见书本。

第十章

秩转换的非参数检验

秩和检验是非参数检验的一种，特点：假设检验的结果对总体分布的形状差别不敏感，只对总体分布的位置差别敏感。

首先将定量数据从小到大或等级从弱到强成秩序，再求秩和，计算检验。。

应用范围：对计量资料不满足正态和方差齐性条件的小样本资料，分布不明的小样本资料，资料的末端是不确定数据的资料；对等级资料。。。

注意：如果已知其计量资料满足（或近似满足）t 或F 检验条件，选敏感度高的检验，提高

检验效率。

优点：不受总体分布的限定；对数据的要求不像参数那样严格；分析时常用等级，正负号。不足：损失信息，降低检验效率，计算较繁琐。

秩次，秩统计量，是指全部观察值按某种顺序排列的位序，在一定程度上反映了等级的高低。秩和：同组秩次的合计，在一定程度上反映了等级的分布位置。

配对资料的秩和检验。

当n 《50时，查T 界值表，判断原则，内大外小。

若n 大于50时，可用正态近似法作u 检验。

若n1大于10或n2—n1大于10超出附表的范围时，可用正态近似法作u 检验，令n1+n2=N，见公式。

统计表与统计图

基本要求：表序号，阿拉伯数字标题，概括表的主要内容，包括研究的时间地点和研究内容，放在表的上方。

数字：无数字“—”... 0以0示。

。