[生物统计学]上机内容(SPSS)

《生物统计学》上机实验

—— SPSS for Windows 统计软件操作与应用

陈 光 升 编

绵阳师范学院生命科学与技术学院

实验一 数据的管理及基本统计分析

一、数据格式化:

用户可根据具体资料的属性对数据进行格式化。主要有以下3种数据类型:

Numeric :数值型,同时定义数值的宽度(Width ),即整数部分+小数点+小数部分的位数,默认为8位;定义小数位数(Decimal Places),默认为2位。

Date :日期型。如选择mm/dd/yy形式,则1995年6月25日显示为06/25/95。 String :字符型,用户可定义字符长度(Characters )以便输入字符。

二、数据的输入:

定义好变量并格式化数据之后,即可向数据管理窗口键入原始数据。数据管理窗口的主要部分就是电

子表格,横方向为电子表格的行,其行头以1、2、3、„„表示,即第1、2、3、„„行;纵方向为电子表格的列,其列头以var00001,var00002,var00003„„表示变量名。行列交叉处称为单元格,即保存数据的空格。鼠标一旦移入电子表格内即呈十字形,这时按鼠标左键可激活单元格,被激活的单元格以加粗的边框显示;用户也可以按方向键上下左右移动来激活单元格。单元格被激活后,用户即可向其中输入新数据或修改已有的数据。 三、数据管理器列宽定义:

点击Column Format... 钮,用户可定义数据管理器纵列的宽度,以便显示较长的数值或文字;同时用

户还可指定数值或文字在数据管理器单元格中的位置:Left 表示靠左、Center 表示居中、Right 表示靠右(此为默认方式)。 四、数据的增删:

增加一个新的变量列: Data菜单的Insert Variable 命令项。 增加一个新的行: Data菜单的Insert Case 命令项。

增加一个新的观察值:Edit 菜单的Cut 命令项。删除一个行:Delete 键或选Edit 菜单的Clear 命令项。 删除一个变量列:Delete 键或选Edit 菜单的Clear 命令项。

删除一个观察值:Edit 菜单的Cut 命令项,Edit 菜单的Paste 命令项, 五、数据的整理:

数据的排序:选Data 菜单的Sort Cases...命令项,弹出Sort Cases...对话框,在变量名列框中选1个需要按其数值大小排序的变量(用户也可选多个变量,系统将按变量选择的先后逐级依次排序),点击 钮使之进入Sort by框,然后在Sort Order框中确定是按升序(Ascending ,从小到大)或降序(Descending ,从大到小),点击OK 钮即可。

数据的行列互换:选Data 菜单的Transpose... 命令项,弹出Transpose... 对话框,在变量名列框中选

1个或多个需要转换的变量,点击 钮使之进入Variable(s)框,再点击OK 钮即可。产生的新数据会在第1列出现一个case_lbl新变量,用于放置原来数值的变量名。若要将数据再转换回原来的排列方式,方法与上述过程相同。

数据的分组汇总:选Data 菜单的Aggregate... 命令项,弹出Aggregate Data 对话框在变量名列框中选一个变量,点击 钮使之进入Break Variable(s)框,选一个变量进入Aggregate Variable(s)框,因欲作平均值汇总,故点击Function... 钮弹出Aggregate Data: Aggregate Function 对话框,选Mean of values 项点击Continue 钮返回;再点击OK 钮即可。

数据的分割:选Data 菜单的Split File... 命令项,弹出Split File 对话框,选Repeat analysis for each group 表示此后都按指定的分组方式作相同项目的分析,用户可从变量名列框中选1个或多个变量点击 钮使之进入Groups Based on 框来作分组的依据。若在数据分割之后要取消这种分组,可选Analyze all cases项,则系统恢复如初。 六、数据的运算与新变量的生成:

选Transform 菜单的Compute... 命令项,既可对选定的变量进行运算操作,又可通过运算操作让系统生成新的变量。在弹出的Compute Variable对话框中,先在Target Variable指定一个变量(可以是数据管理器中已有的变量,也可是用户欲生成的新变量),然后点击Type&Label...钮确定是数值型变量,还是字符型变量,或加上变量标签。在Numeric Expression框中键入运算公式,系统提供计算器和82种函数(在Functions 框内)让用户使用;若点击If... 钮会弹出Compute Variable:If Cases对话框,用户可指定符合条件的变量参与运算。

七、数据文件的调用与保存:选File 菜单的Open 命令项,再选Data... 项,弹出Open Data File 对话框,用户确定盘符、路径、文件名后点击OK 钮,即可调入数据文件。

数据文件的保存:File 菜单的Save As... 命令项,弹出Newdata:Save Data As对话框, 用户确定盘符、路径、文件名以及文件格式后点击OK 钮,即可保存数据文件。

例 某地某年成年男子120 人的红血球数(1012/L)记录如下:

5.195 5.360 4.070 4.065 5.160 4.590 4.520 4.720 4.490 5.260 5.070 5.100 4.315 4.990 4.360 5.450 5.120 5.190 4.580 4.380 4.610 4.360 5.100 4.215 5.070 4.721 4.640 5.000 5.510 5.600 4.420 5.180 4.260 5.060 5.280 4.250 4.840 4.800 5.850 5.305 5.000 5.290 5.360 4.950 5.420 5.610 5.630 4.520 4.800 5.000 5.280 4.920 5.170 4.640 5.520 5.140 4.295 5.470 4.840 4.540 4.740 4.880 5.140 4.700 5.560 5.520 4.485 4.290 4.780 4.620 4.810 5.110 4.600 5.200 4.700 5.050 5.220 5.590 5.370 4.650 4.780 5.315 5.150 5.070 5.005 5.120 4.985 4.815 5.090 3.980 4.550 4.960 4.780 5.190 5.160 5.640 5.050 5.040 4.320 5.190 4.840 5.000 5.700 5.030 5.155 4.860 4.715 4.920 4.890 5.180 5.875 5.105 5.185 5.130 4.070 5.100 5.260 5.220 5.190 5.010

八、Descriptives 过程:

调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。依次打开

A nalyze-descriptive statistics-descriptives,弹出Descriptives 对话框。现在对话框左侧的变量列表中选取变

量, 点击钮使之进入Variable(s)框。点击Options... 钮,弹出Descriptives:Options对话框。框中各指标的意义请参阅上面内容。选好项目后点击 Continue钮返回Descriptives 对话框,再点击OK 钮即可。如上例,得结果如下表。表中N 为观测值个数,Valid N 为合法观测值个数(去除缺失值后的观测值个数,本例无缺失值)。其它指标含义同前,可知最大值为5.875(c m),最小值为3.980(1012/L),均数为4.95909(1012/L),标准差为0.40383(1012/L)。

九、 Frequencies 过程:

调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。依次选择Analyze -Descriptive statistics-Frequencies ,弹出Frequencies 对话框。同时可点击Format... 钮弹出Frequencies :Format 对话框,在Order by 栏中有四个选项:Ascending values 为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。在Page Formal栏中可定义结果输出的格式。点击statistics ... 钮,弹出对话框,可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。如计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness )和峰度系数(Kurtosis),选好后点击Continue 钮返回Frequencies 对话框。点击Charts... 钮,弹出Frequencies:Charts对话框,用户可选两种图形,一是直条图(Bar chart),适用于非连续性的变量;另一是直方图(Histogram )。在输出结果窗口中将看到如下统计数据:系统对变量x 的原始数据作频数分布表,Value 为原始值、Frequency 为频数、Percent 为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。练习上一例题。

练习:自己定义一个数据文件,进行上述数据管理的操作并做一些基本统计分析。

实验二 均值比较与检验(T 检验)

一、Means 过程:

与Descriptives 过程相比,若仅仅计算单一组别的均数和标准差,Means 过程并无特别之处;但若要

求按指定条件分组计算均数和标准差,如分性别同时分年龄计算各组的均数和标准差,则用Means 过程更显简单快捷。激活Analyze 菜单选Compare Means 中的Means... 项,弹出Means 对话框。在对话框左侧的变量列表中选一个变量,点击 钮使之进入Dependent List 框,选另一个变量(如sex )点击 钮使之进入Independent List 框,点击Next ,可选定分组的第二层次(Layer 2 of 2),选第三个变量(如age ) 点击 钮亦使之进入Independent List 框。点击Options... 可选统计项目:在Cell Displays 项中,Mean 为均数、Standard deviation为标准差、Variance 为方差、Count 为观察单位数、Sum 为观察值总和,在Analyze for First Layer项中,将为第一层次的分组计算方差分析(ANOVA table and eta)和线性检验(Test of linearity)。选好后点击Continue 钮返回Means 对话框,点击OK 钮即可。 二、Independent-Samples T Test过程:

调用此过程可完成两样本均数差别的显著性检验,即通常所说的两组资料的t 检验。

实例:分别测得14例老年性慢性支气管炎病人及11例健康人的尿中17酮类固醇排出量(mg/dl)如下,试比较两组均数有无差别。

数据准备:激活数据管理窗口,定义变量名:把实际观察值定义为x ,再定义一个变量group 来区分病人与健康人。输入原始数据,在变量group 中,病人输入1,健康人输入2。

统计分析:激活Analyze 菜单选Compare Means 中的Independent-samples T Test... 项,弹出Independent- samples T Test对话框。从对话框左侧的变量列表中选x ,点击 钮使之进入Test Variable(s)框,选group 点击 钮使之进入Grouping Variable 框,点击Define Groups... 钮弹出Define Groups 定义框,在Group 1中输入1,在Group 2中输入2,点击Continue 钮,返回Independent-samples T Test对话框,点击OK 钮即完成分析。

结果解释:第一部分显示两组资料的例数(Numbers of cases )、均数(Mean )、标准差(SD )和标准误(SE of Mean ),显示两均数差值为1.1503,经方差齐性检验: F= .440 P= .514,即两方差具有齐性。第二部分显示t 检验的结果,第一行表示方差齐情况下的t 检验的结果,第二行表示方差不齐情况下的t 检验的结果。依次显示值(t-value )、自由度(df )、双侧检验概率(2-Tail Sig )、差值的标准误(SE of Diff )及其95%可信区间(Cl for Diff )。因本例属方差齐性,故采用第一行(即Equal )结果:t=1.81,P=0.084,差别有显著性意义,即老年性慢性支气管炎病人的尿中17酮类固醇排出量低于健康人。 三、Paired-Samples T Test过程:

调用此过程可完成配对资料的显著性检验,即配对t 检验。

实例:某单位研究饲料中缺乏维生素E 与肝中维生素A 含量的关系,将大白鼠按性别、体重等配为8对,

每对中两只大白鼠分别喂给正常饲料和维生素E 缺乏饲料,一段时期后将之宰杀,测定其肝中维生素A 含量(μmol/L)如下,问饲料中缺乏维生素E 对鼠肝中维生素A 含量有无影响?

数据准备:激活数据管理窗口,定义变量名:正常饲料组测定值为x1,维生素E 缺乏饲料组测定值为x2。 统计分析:激活Analyze 菜单选Compare Means 中的

Paired-samples T Test... 项,弹出Paried-samples T Test 对话框。从对话框左侧的变量列表中点击x1,这时在左下方的Current Selections 框中Variable 1处出现x1,再从变量列表中点击x2,左下方的Current Selections框中Variable 2处出现x2。点击 钮使x1、x2进入Variables 框,点击OK 钮即完成分析。 练习:教材第五章习题。

实验三 非参数检验(卡方检验)

一、Chi-Square 过程:

调用此过程可对样本数据的分布进行卡方检验。卡方检验适用于配合度检验,主要用于分析实际频数与某理论频数是否相符。实例:某地一周内各日死亡数的分布如下表,请检验一周内各日的死亡危险性是否相同?

数据准备:激活数据管理窗口,定义变量名:各周日为day (数据类型应定义为数字型),死亡数为death 。按顺序输入数据。激活Data 菜单选Weight Cases...命令项,弹出Weight Cases对话框,选death 点击钮使之进入Frequency Variable框,定义死亡数为权数,再点击OK 钮即可。

统计分析:激活Analyze 菜单选Nonparametric Tests 中的Chi-Square... 命令项,弹出Chi-Square Test 对话框。现欲对一周内各日的死亡数进行分布分析,故在对话框左侧的变量列表中选day ,点击钮使之进入Test Variable List框,点击OK 钮即可。

结果解释:在结果输出窗口中将看到如下统计数据: 运算结果显示一周内各日死亡的理论数(Expected )为15.71,即一周内各日死亡均数;还算出实际死亡数与理论死亡数的差值(Residual );卡方值χ2 = 3.4000,自由度数(D.F. )= 6 ,P = 0.7572 ,可认为一周内各日的死亡危险性是相同的。 二、Binomial 过程:

有些总体只能划分为两类,如医学中的生与死、患病的有与无。从这种二分类总体中抽取的所有可能结果,要么是对立分类中的这一类,要么是另一类,其频数分布称为二项分布。调用Binomial 过程可对样本资料进行二项分布分析。实例:某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同? 数据准备:激活数据管理窗口,定义性别变量为sex 。按出生顺序输入数据,男性为1 ,女性为0。 统计分析:激活Analyze 菜单选Nonparametric Tests 中的Binomial Test... 命令项,弹出 Binomial Test 对话框。在对话框左侧的变量列表中选sex ,点击钮使之进入Test Variable List 框,在Test Proportion 框中键入0.50,再点击OK 钮即可。

结果解释:二项分布检验表明,女婴12名,男婴28名,观察概率为0.7000(即男婴占70%),检验概率为0.5000,二项分布检验的结果是双侧概率为0.0177,可认为男女比例的差异有高度显著性,即与通常0.5的性比例相比,该地男婴比女婴明显为多。 三、2 Independent Samples过程:

调用此过程可对两个独立样本的均数、中位数、离散趋势、偏度等进行差异比较检验。

实例:调查某厂的铅作业工人7人和非铅作业工人10人的血铅值(μg / 100g)如下,问两组工人的血铅值有无差别?

数据准备:激活数据管理窗口,定义分组变量为group (非铅作业组为1,铅作业组为2),血铅值为Pb 。按顺序输入数据。

统计分析:激活Analyze 菜单选Nonparametric Tests中的2 Independent Samples...命令项,弹出 2 Independent-Samples-Test对话框。在对话框左侧的变量列表中选Pb, 点击钮使之进入Test Variable List 框;选group ,点击钮使之进入Grouping Variable框,点击Define Groups...钮,在弹出的Two Independent Samples:Define Groups对话框内定义Group 1为1,Group 2为2,之后点击Continue 钮

返回2 Independent-Samples-Test对话框;在Test Type框中有四种检验方法:Mann-Whitney U:主要用于判别两个独立样本所属的总体是否有相同的分布;Kolmogorov-Smirnov Z:推测两个样本是否来自具有相同分布的总体;Moses extreme reactions:检验两个独立样本之观察值的散布范围是否有差异存在,以检验两个样本是否来自具有同一分布的总体;Wald-Wolfowitz runs:考察两个独立样本是否来自具有相同分布的总体。本例选Mann-Whitney U检验方法,之后点击OK 钮即可。

结果解释:结果表明,第1组的平均秩次(Mean Rank)为5.95,第2组的平均秩次为13.36,U = 4.5,W = 93.5,精确双侧概率P = 0.0012,可认为铅作业组工人的血铅值高于非铅作业组。 四、列联表资料的SPSS 分析

例 某院欲比较异梨醇口服液(试验组) 和氢氯噻嗪 +地塞米松(对照组) 降低颅内压的疗效 ,将 200 例颅内压增高患者随机分为 2 组, 见表 1 。 表 1 试验组和对照组降低颅内压疗效的比较

组别 有效 无效 有效率( %) 合计 试验组 99 5 95.20 104 对照组 75 21 78.13 96 合计 174 26 87.00 200

数据录入:打开 SPSS;点击 Variable View 定义变量 ,变量 1Name 为“group ”,Type 为“String ”; 变量 2 Name 为“effect ”,Type 为“String ”; 变量 3 Name 为“count ”, Type 为“Numeric ”,Decimals 为“0”, 其它为默认设置; 点击 Data View 输入数据。

分析过程 ①频数加权(所有列联表资料均需经过频数加权 ,以下例题分析中省略该过程) : Data →Weight Cases Weight Cases by : Frequency Variable :count OK ②分析:

Analyze →Descriptive Statistics →Crosstabs Rows :group Columns :effect

Statistics : √Chi - square : Continue OK

主要结果与解释:根据列联表资料χ2 检验的应用条件:

① 例数( n ) ≥40 且所有的理论值( T ) ≥5 时 ,选用一般的χ

2

检验; P ≈α时 ,改用 Fisher

精确概率法; ②n ≥40 ,有 1 ≤T ≤5 时 ,选用连续校正的检验; 或改用 Fisher 精确概率法; ③n

2

2

2

值和似然比(Likelihood ratio) χ值 ,二者χ值分别为 12.123 和 12.864 , P

实验四 方差分析

方差分析主要用于:1、均数差别的显著性检验,2、分离各有关因素并估计其对总变异的作用,3、分析因素间的交互作用,4、方差齐性检验。 一、Simple Factorial过程:

调用此过程可对资料进行方差分析或协方差分析。在方差分析中可按用户需要作单因素方差分析或多因素方差分析;当观察因素中存在很难或无法人为控制的因素时,则可对之加以指定以便进行协方差分析。 实例: 运动员、大学生、高中生的身高差异如下表:

数据准备:激活数据管理窗口,定义变量名:组变量为group (运动员=1,大学生=2,高中生=3),身高为x ,按顺序输入相应数值,建立数据库。

统计分析:激活 Analyze 菜单选Compare Means中的Means... 项,弹出One-way ANOVA对话框。在变量列表中选变量y ,点击 钮使之进入Dependent 框;选分组变量group ,点击 钮使之进入Factor(s)框中, 并点击Define Range...钮在弹出的Simple Factorial ANOVA:Define Range框中确定分组变量group 的起止值(1,2); 结果运算。 二、General Linear Model过程:

调用此过程可对完全随机设计资料、配对设计资料、析因设计资料、正交设计资料等等进行多因素方差分析或协方差分析。

实例:下表为三因素析因实验的资料,请用方差分析说明不同基础液与不同血清种类对钩端螺旋体的培养计数的影响。

数据准备:激活数据管理窗口,定义变量名:基础液为base ,血清种类为sero ,血清浓度为pct ,钩端螺旋体的培养计数为X ,按顺序输入相应数值,建立数据库。

统计分析:激活Analyze 菜单选General Linear Model中的univarate ... 项,弹出对话框。在对话框左侧的变量列表中选变量x ,点击 钮使之进入Dependent Variable 框;选要控制的分组变量base 、sero 和pct ,点 钮使之进入Factor(s)框中,并分别点击Define Range钮,在弹出的General Factorial ANOVA:Define Range对话框中确定各变量的起止值,本例变量base 的起止值为1、3,变量sero 的起止值为1、2,变量pct 的起止值为1、2。之后点击OK 钮即可。

结果解释:在结果输出窗口中,系统显示48个观察值进入统计,三个因素按其各自水平共产生12种组合。

分析表明,模型总效应的F 值为10.55,P 值

和交互效应导致的组间差别比较结果是:

单因素组间比较:A :基础液(BASE )

F = 4.98,P = 0.012,说明三种培养基培养钩体的计数有

差别;B :血清种类(SERO )

F = 61.265,P

C :血清浓度(PCT ) F = 3.49,P = 0.070,说明两种血清浓度培养钩体的计数无差别。

两因素构成的一级交互作用:

A×B :基础液(BASE )×血清种类(SERO ) F = 5.16,P = 0.011,交互作用明显;

B×C :血清种类(SERO )×血清浓度(PCT ) F = 15.96,P

A×B ×C :基础液(BASE )×血清种类(SERO )×血清浓度(PCT )F = 6.75,P = 0.003,交互作用明显 练习:教材第八、九章习题.

实验五 相关分析

一、Bivariate 过程:

调用此过程可对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。调用该过程命令时允许同时输入两变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。 实例:某地区10名健康儿童头发和全血中的硒含量(1000ppm )如下,试作发硒与血硒的相关分析。

数据准备:激活数据管理窗口,定义变量名:发硒为X ,血硒为Y ,按顺序输入相应数值,建立数据库。 统计分析:激活Analyze 菜单选Correlate 中的Bivariate... 命令项,弹出Bivariate Correlation 对话框。在对话框左侧的变量列表中选x 、y ,点击 钮使之进入Variables 框;再在Correlation Coefficients 框中选择相关系数的类型,共有三种:Pearson 为通常所指的相关系数(r ),Kendell’s tau-b 为非参数资料的相关系数,Spearman 为非正态分布资料的Pearson 相关系数替代值,本例选用Pearson 项;在Test of Significance 框中可选相关系数的单侧(One-tailed )或双侧(Two-tailed )检验,本例选双侧检验。点击Options... 钮弹出Bivariate Correlation:Options对话框,可选有关统计项目。本例要求输出X 、Y 的均数与标准差以及XY 交叉乘积的标准差与协方差,故选Means and standard deviations和Cross-product deviations and covariances项,而后点击Continue 钮返回Bivariate Correlation对话框,再点击OK 钮即可。

结果解释:在结果输出窗口中将看到如下统计数据:变量X 、Y 的例数、均数与标准差,变量X 、Y 交叉乘积的例数、标准差与协方差;XY 两两对应的相关系数及其双侧检验的概率,本例r = 0.8715,P = 0.001。 二、Partial 过程:

调用此过程可对变量进行偏相关分析。在偏相关分析中,系统可按用户的要求对两相关变量之外的某一或某些影响相关的其他变量进行控制,输出控制其他变量影响后的相关系数。

实例:某地29名13岁男童身高(cm )、体重(kg )和肺活量(ml )的数据如下表, 试对该资料作控制体重影响作用的身高与肺活量相关分析。

数据准备:激活数据管理窗口,定义变量名:身高为height ,体重为weight ,肺活量为vc ,按顺序输入相应数值,建立数据库。

统计分析:激活Analyze 菜单选Correlate 中的Partial... 命令项,弹出Partial Correlations 对话框。现欲在控制体重的影响下对变量身高与肺活量进行偏相关分析,故在对话框左侧的变量列表中选变量height 、vc ,点击 钮使之进入Variables 框,选要控制的变量weight ,点击 钮使之进入Controlling for 框中, 在Test of Significance框中选双侧检验,然后点击OK 钮即可。

结果解释:在结果输出窗口中将看到如下统计数据:控制体重的影响后,身高与肺活量的相关系数为0.0926,经检验P = 0.639,故身高与肺活量的线性相关不存在。(如果不控制体重的影响,则身高与肺活量的相关系数为0.5884,P 为0.001。在有控制的情况下,身高与肺活量的决定系数 r2 = 0.00857,而无控制的身高与肺活量决定系数 r2 = 0.34621,可见身高与肺活量的相关有33.764%是由体重协同作用而产生的。如果控制变量改为身高,则得如下结果:体重与肺活量的相关系数为0.5528,经检验P = 0.002,故体重与肺活量的线性相关存在。可见,尽管肺活量与身高和体重均有关系,但如果仅仅研究其中一个变量与肺活量的相关关系时,体重的意义会更大。 练习:教材第十一章例题。

实验六 回归分析

一、Linear 过程:

调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。

实例:某医师测得10名3岁儿童的身高(cm )、体重(kg )和体表面积(cm )资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。

2

数据准备:激活数据管理窗口,定义变量名:体表面积为Y ,保留3位小数;身高、体重分别为X1、X2,1位小数。输入原始数据。

统计分析:激活Analyze 菜单选Regression 中的Linear... 项,弹出Linear Regression 对话框。从对话框左侧的变量列表中选y ,点击 钮使之进入Dependent 框,选x1、x2,点击 钮使之进入Indepentdent(s)框;在Method 处下拉菜单,共有5个选项:Enter (全部入选法)、Stepwise (逐步法)、Remove (强制剔除法)、Backward (向后法)、Forward (向前法)。本例选用Enter 法。点击OK 钮即完成分析。用户还可点击Analyze... 钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots... 钮选择是否作变量分布图(本例要求对标准化Y 预测值作变量分布图);点击Save... 钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y 预测值和标准化Y 预测值作保存);点击Options... 钮选择变量入选与剔除的α、β值和缺失值的处理方法。

结果解释:结果显示,本例以X1、X2为自变量,Y 为应变量,采用全部入选法建立回归方程。回归方程的复相关系数为0.94964,决定系数(即r 2)为0.90181,经方差分析,F=34.14499,P=0.0003,回归方程有效。回归方程为Y=0.0687101X1+0.183756X2-2.856476。 本例要求按所建立的回归方程计算Y 预测值和

标准化Y 预测值(所谓标准化Y 预测值是指将根据回归方程求得的Y 预测值转化成按均数为0、标准差为1的标准正态分布的Y 值)并将计算结果保存入原数据库。系统将原始的X1、X2值代入方程求Y 值预测值(即库中pre_1栏)和标准化Y 预测值(即库中zpr_1栏), Curve Estimation过程:此过程可完成下列有关曲线拟合的功能:

1、Linear :拟合直线方程(实际上与Linear 过程的二元直线回归相同,即Y = b 0+ b 1X ); 2、Quadratic :拟合二次方程(Y = b0+ b1X+b2X 2); 3、Compound :拟合复合曲线模型(Y = b0×b 1); 4、Growth :拟合等比级数曲线模型(Y = e(b0+b1X)); 5、Logarithmic :拟合对数方程(Y = b0+b1lnX ) 6、Cubic :拟合三次方程(Y = b0+ b1X+b2X 2+b3X 3); 7、S :拟合S 形曲线(Y = e(b0+b1/X));

8、Exponential :拟合指数方程(Y = b0 e); 9、Inverse :数据按Y = b0+b1/X进行变换; 10、Power :拟合乘幂曲线模型(Y = b0X b1);

11、Logistic :拟合Logistic 曲线模型(Y = 1/(1/u + b0×b 1X )。

b1X

X

实例:某地1963年调查得儿童年龄(岁)X 与锡克试验阴性率(%)Y 的资料如下,试拟合对数曲线。

数据准备:激活数据管理窗口,定义变量名:锡克试验阴性率为Y ,年龄为X ,输入原始数据。 统计分析:激活Analyze 菜单选Regression 中的Curve Estimation...项,弹出Curve Estimation对话框。从对话框左侧的变量列表中选y ,点击 钮使之进入Dependent 框,选x ,点击 钮使之进入Indepentdent(s)框;在Model 框内选择所需的曲线模型,本例选择Logarithmic 模型(即对数曲线);选Plot models 项要求绘制曲线拟合图;点击Save... 钮,弹出Curve Estimation:Save对话框,选择Predicted value 项,要求在原始数据库中保存根据对数方程求出的Y 预测值,点击Continue 钮返回Curve Estimation 对话框,再点击OK 钮即可。

结果解释:在以X 为自变量、Y 为应变量,采用对数曲线拟合方法建立的方程,决定系数R =0.913(接近于1),作拟合优度检验,方差分析表明:F=52.32,P=0.001,拟合度很好,对数方程为:Y=61.3259+20.6704lnX。 练习:教材第十、十一章例题。

2

《生物统计学》上机实验

—— SPSS for Windows 统计软件操作与应用

陈 光 升 编

绵阳师范学院生命科学与技术学院

实验一 数据的管理及基本统计分析

一、数据格式化:

用户可根据具体资料的属性对数据进行格式化。主要有以下3种数据类型:

Numeric :数值型,同时定义数值的宽度(Width ),即整数部分+小数点+小数部分的位数,默认为8位;定义小数位数(Decimal Places),默认为2位。

Date :日期型。如选择mm/dd/yy形式,则1995年6月25日显示为06/25/95。 String :字符型,用户可定义字符长度(Characters )以便输入字符。

二、数据的输入:

定义好变量并格式化数据之后,即可向数据管理窗口键入原始数据。数据管理窗口的主要部分就是电

子表格,横方向为电子表格的行,其行头以1、2、3、„„表示,即第1、2、3、„„行;纵方向为电子表格的列,其列头以var00001,var00002,var00003„„表示变量名。行列交叉处称为单元格,即保存数据的空格。鼠标一旦移入电子表格内即呈十字形,这时按鼠标左键可激活单元格,被激活的单元格以加粗的边框显示;用户也可以按方向键上下左右移动来激活单元格。单元格被激活后,用户即可向其中输入新数据或修改已有的数据。 三、数据管理器列宽定义:

点击Column Format... 钮,用户可定义数据管理器纵列的宽度,以便显示较长的数值或文字;同时用

户还可指定数值或文字在数据管理器单元格中的位置:Left 表示靠左、Center 表示居中、Right 表示靠右(此为默认方式)。 四、数据的增删:

增加一个新的变量列: Data菜单的Insert Variable 命令项。 增加一个新的行: Data菜单的Insert Case 命令项。

增加一个新的观察值:Edit 菜单的Cut 命令项。删除一个行:Delete 键或选Edit 菜单的Clear 命令项。 删除一个变量列:Delete 键或选Edit 菜单的Clear 命令项。

删除一个观察值:Edit 菜单的Cut 命令项,Edit 菜单的Paste 命令项, 五、数据的整理:

数据的排序:选Data 菜单的Sort Cases...命令项,弹出Sort Cases...对话框,在变量名列框中选1个需要按其数值大小排序的变量(用户也可选多个变量,系统将按变量选择的先后逐级依次排序),点击 钮使之进入Sort by框,然后在Sort Order框中确定是按升序(Ascending ,从小到大)或降序(Descending ,从大到小),点击OK 钮即可。

数据的行列互换:选Data 菜单的Transpose... 命令项,弹出Transpose... 对话框,在变量名列框中选

1个或多个需要转换的变量,点击 钮使之进入Variable(s)框,再点击OK 钮即可。产生的新数据会在第1列出现一个case_lbl新变量,用于放置原来数值的变量名。若要将数据再转换回原来的排列方式,方法与上述过程相同。

数据的分组汇总:选Data 菜单的Aggregate... 命令项,弹出Aggregate Data 对话框在变量名列框中选一个变量,点击 钮使之进入Break Variable(s)框,选一个变量进入Aggregate Variable(s)框,因欲作平均值汇总,故点击Function... 钮弹出Aggregate Data: Aggregate Function 对话框,选Mean of values 项点击Continue 钮返回;再点击OK 钮即可。

数据的分割:选Data 菜单的Split File... 命令项,弹出Split File 对话框,选Repeat analysis for each group 表示此后都按指定的分组方式作相同项目的分析,用户可从变量名列框中选1个或多个变量点击 钮使之进入Groups Based on 框来作分组的依据。若在数据分割之后要取消这种分组,可选Analyze all cases项,则系统恢复如初。 六、数据的运算与新变量的生成:

选Transform 菜单的Compute... 命令项,既可对选定的变量进行运算操作,又可通过运算操作让系统生成新的变量。在弹出的Compute Variable对话框中,先在Target Variable指定一个变量(可以是数据管理器中已有的变量,也可是用户欲生成的新变量),然后点击Type&Label...钮确定是数值型变量,还是字符型变量,或加上变量标签。在Numeric Expression框中键入运算公式,系统提供计算器和82种函数(在Functions 框内)让用户使用;若点击If... 钮会弹出Compute Variable:If Cases对话框,用户可指定符合条件的变量参与运算。

七、数据文件的调用与保存:选File 菜单的Open 命令项,再选Data... 项,弹出Open Data File 对话框,用户确定盘符、路径、文件名后点击OK 钮,即可调入数据文件。

数据文件的保存:File 菜单的Save As... 命令项,弹出Newdata:Save Data As对话框, 用户确定盘符、路径、文件名以及文件格式后点击OK 钮,即可保存数据文件。

例 某地某年成年男子120 人的红血球数(1012/L)记录如下:

5.195 5.360 4.070 4.065 5.160 4.590 4.520 4.720 4.490 5.260 5.070 5.100 4.315 4.990 4.360 5.450 5.120 5.190 4.580 4.380 4.610 4.360 5.100 4.215 5.070 4.721 4.640 5.000 5.510 5.600 4.420 5.180 4.260 5.060 5.280 4.250 4.840 4.800 5.850 5.305 5.000 5.290 5.360 4.950 5.420 5.610 5.630 4.520 4.800 5.000 5.280 4.920 5.170 4.640 5.520 5.140 4.295 5.470 4.840 4.540 4.740 4.880 5.140 4.700 5.560 5.520 4.485 4.290 4.780 4.620 4.810 5.110 4.600 5.200 4.700 5.050 5.220 5.590 5.370 4.650 4.780 5.315 5.150 5.070 5.005 5.120 4.985 4.815 5.090 3.980 4.550 4.960 4.780 5.190 5.160 5.640 5.050 5.040 4.320 5.190 4.840 5.000 5.700 5.030 5.155 4.860 4.715 4.920 4.890 5.180 5.875 5.105 5.185 5.130 4.070 5.100 5.260 5.220 5.190 5.010

八、Descriptives 过程:

调用此过程可对变量进行描述性统计分析,计算并列出一系列相应的统计指标。依次打开

A nalyze-descriptive statistics-descriptives,弹出Descriptives 对话框。现在对话框左侧的变量列表中选取变

量, 点击钮使之进入Variable(s)框。点击Options... 钮,弹出Descriptives:Options对话框。框中各指标的意义请参阅上面内容。选好项目后点击 Continue钮返回Descriptives 对话框,再点击OK 钮即可。如上例,得结果如下表。表中N 为观测值个数,Valid N 为合法观测值个数(去除缺失值后的观测值个数,本例无缺失值)。其它指标含义同前,可知最大值为5.875(c m),最小值为3.980(1012/L),均数为4.95909(1012/L),标准差为0.40383(1012/L)。

九、 Frequencies 过程:

调用此过程可进行频数分布表的分析。频数分布表是描述性统计中最常用的方法之一,此外还可对数据的分布趋势进行初步分析。依次选择Analyze -Descriptive statistics-Frequencies ,弹出Frequencies 对话框。同时可点击Format... 钮弹出Frequencies :Format 对话框,在Order by 栏中有四个选项:Ascending values 为根据数值大小按升序从小到大作频数分布;Descending values为根据数值大小按降序从大到小作频数分布;Ascending counts为根据频数多少按升序从少到多作频数分布;Descending counts为根据频数多少按降序从多到少作频数分布。在Page Formal栏中可定义结果输出的格式。点击statistics ... 钮,弹出对话框,可点击相应项目,要求系统在作频数表分析的基础上,附带作各种统计指标的描述,特别是可进行任何水平的百分位数计算。如计算四分位数(Quartiles)、均数(Mean)、中位数(Median)、众数(Mode)、总和(Sum)、标准差(Std.deviation)、方差(Variance)、全距 (Range)、最小值(Minimum)、最大值(Maximum)、标准误(S.E.mean)、偏度系数(Skewness )和峰度系数(Kurtosis),选好后点击Continue 钮返回Frequencies 对话框。点击Charts... 钮,弹出Frequencies:Charts对话框,用户可选两种图形,一是直条图(Bar chart),适用于非连续性的变量;另一是直方图(Histogram )。在输出结果窗口中将看到如下统计数据:系统对变量x 的原始数据作频数分布表,Value 为原始值、Frequency 为频数、Percent 为各组频数占总例数的百分比、Valid percent为各组频数占总例数的有效百分比、Cum Percent为各组频数占总例数的累积百分比。练习上一例题。

练习:自己定义一个数据文件,进行上述数据管理的操作并做一些基本统计分析。

实验二 均值比较与检验(T 检验)

一、Means 过程:

与Descriptives 过程相比,若仅仅计算单一组别的均数和标准差,Means 过程并无特别之处;但若要

求按指定条件分组计算均数和标准差,如分性别同时分年龄计算各组的均数和标准差,则用Means 过程更显简单快捷。激活Analyze 菜单选Compare Means 中的Means... 项,弹出Means 对话框。在对话框左侧的变量列表中选一个变量,点击 钮使之进入Dependent List 框,选另一个变量(如sex )点击 钮使之进入Independent List 框,点击Next ,可选定分组的第二层次(Layer 2 of 2),选第三个变量(如age ) 点击 钮亦使之进入Independent List 框。点击Options... 可选统计项目:在Cell Displays 项中,Mean 为均数、Standard deviation为标准差、Variance 为方差、Count 为观察单位数、Sum 为观察值总和,在Analyze for First Layer项中,将为第一层次的分组计算方差分析(ANOVA table and eta)和线性检验(Test of linearity)。选好后点击Continue 钮返回Means 对话框,点击OK 钮即可。 二、Independent-Samples T Test过程:

调用此过程可完成两样本均数差别的显著性检验,即通常所说的两组资料的t 检验。

实例:分别测得14例老年性慢性支气管炎病人及11例健康人的尿中17酮类固醇排出量(mg/dl)如下,试比较两组均数有无差别。

数据准备:激活数据管理窗口,定义变量名:把实际观察值定义为x ,再定义一个变量group 来区分病人与健康人。输入原始数据,在变量group 中,病人输入1,健康人输入2。

统计分析:激活Analyze 菜单选Compare Means 中的Independent-samples T Test... 项,弹出Independent- samples T Test对话框。从对话框左侧的变量列表中选x ,点击 钮使之进入Test Variable(s)框,选group 点击 钮使之进入Grouping Variable 框,点击Define Groups... 钮弹出Define Groups 定义框,在Group 1中输入1,在Group 2中输入2,点击Continue 钮,返回Independent-samples T Test对话框,点击OK 钮即完成分析。

结果解释:第一部分显示两组资料的例数(Numbers of cases )、均数(Mean )、标准差(SD )和标准误(SE of Mean ),显示两均数差值为1.1503,经方差齐性检验: F= .440 P= .514,即两方差具有齐性。第二部分显示t 检验的结果,第一行表示方差齐情况下的t 检验的结果,第二行表示方差不齐情况下的t 检验的结果。依次显示值(t-value )、自由度(df )、双侧检验概率(2-Tail Sig )、差值的标准误(SE of Diff )及其95%可信区间(Cl for Diff )。因本例属方差齐性,故采用第一行(即Equal )结果:t=1.81,P=0.084,差别有显著性意义,即老年性慢性支气管炎病人的尿中17酮类固醇排出量低于健康人。 三、Paired-Samples T Test过程:

调用此过程可完成配对资料的显著性检验,即配对t 检验。

实例:某单位研究饲料中缺乏维生素E 与肝中维生素A 含量的关系,将大白鼠按性别、体重等配为8对,

每对中两只大白鼠分别喂给正常饲料和维生素E 缺乏饲料,一段时期后将之宰杀,测定其肝中维生素A 含量(μmol/L)如下,问饲料中缺乏维生素E 对鼠肝中维生素A 含量有无影响?

数据准备:激活数据管理窗口,定义变量名:正常饲料组测定值为x1,维生素E 缺乏饲料组测定值为x2。 统计分析:激活Analyze 菜单选Compare Means 中的

Paired-samples T Test... 项,弹出Paried-samples T Test 对话框。从对话框左侧的变量列表中点击x1,这时在左下方的Current Selections 框中Variable 1处出现x1,再从变量列表中点击x2,左下方的Current Selections框中Variable 2处出现x2。点击 钮使x1、x2进入Variables 框,点击OK 钮即完成分析。 练习:教材第五章习题。

实验三 非参数检验(卡方检验)

一、Chi-Square 过程:

调用此过程可对样本数据的分布进行卡方检验。卡方检验适用于配合度检验,主要用于分析实际频数与某理论频数是否相符。实例:某地一周内各日死亡数的分布如下表,请检验一周内各日的死亡危险性是否相同?

数据准备:激活数据管理窗口,定义变量名:各周日为day (数据类型应定义为数字型),死亡数为death 。按顺序输入数据。激活Data 菜单选Weight Cases...命令项,弹出Weight Cases对话框,选death 点击钮使之进入Frequency Variable框,定义死亡数为权数,再点击OK 钮即可。

统计分析:激活Analyze 菜单选Nonparametric Tests 中的Chi-Square... 命令项,弹出Chi-Square Test 对话框。现欲对一周内各日的死亡数进行分布分析,故在对话框左侧的变量列表中选day ,点击钮使之进入Test Variable List框,点击OK 钮即可。

结果解释:在结果输出窗口中将看到如下统计数据: 运算结果显示一周内各日死亡的理论数(Expected )为15.71,即一周内各日死亡均数;还算出实际死亡数与理论死亡数的差值(Residual );卡方值χ2 = 3.4000,自由度数(D.F. )= 6 ,P = 0.7572 ,可认为一周内各日的死亡危险性是相同的。 二、Binomial 过程:

有些总体只能划分为两类,如医学中的生与死、患病的有与无。从这种二分类总体中抽取的所有可能结果,要么是对立分类中的这一类,要么是另一类,其频数分布称为二项分布。调用Binomial 过程可对样本资料进行二项分布分析。实例:某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同? 数据准备:激活数据管理窗口,定义性别变量为sex 。按出生顺序输入数据,男性为1 ,女性为0。 统计分析:激活Analyze 菜单选Nonparametric Tests 中的Binomial Test... 命令项,弹出 Binomial Test 对话框。在对话框左侧的变量列表中选sex ,点击钮使之进入Test Variable List 框,在Test Proportion 框中键入0.50,再点击OK 钮即可。

结果解释:二项分布检验表明,女婴12名,男婴28名,观察概率为0.7000(即男婴占70%),检验概率为0.5000,二项分布检验的结果是双侧概率为0.0177,可认为男女比例的差异有高度显著性,即与通常0.5的性比例相比,该地男婴比女婴明显为多。 三、2 Independent Samples过程:

调用此过程可对两个独立样本的均数、中位数、离散趋势、偏度等进行差异比较检验。

实例:调查某厂的铅作业工人7人和非铅作业工人10人的血铅值(μg / 100g)如下,问两组工人的血铅值有无差别?

数据准备:激活数据管理窗口,定义分组变量为group (非铅作业组为1,铅作业组为2),血铅值为Pb 。按顺序输入数据。

统计分析:激活Analyze 菜单选Nonparametric Tests中的2 Independent Samples...命令项,弹出 2 Independent-Samples-Test对话框。在对话框左侧的变量列表中选Pb, 点击钮使之进入Test Variable List 框;选group ,点击钮使之进入Grouping Variable框,点击Define Groups...钮,在弹出的Two Independent Samples:Define Groups对话框内定义Group 1为1,Group 2为2,之后点击Continue 钮

返回2 Independent-Samples-Test对话框;在Test Type框中有四种检验方法:Mann-Whitney U:主要用于判别两个独立样本所属的总体是否有相同的分布;Kolmogorov-Smirnov Z:推测两个样本是否来自具有相同分布的总体;Moses extreme reactions:检验两个独立样本之观察值的散布范围是否有差异存在,以检验两个样本是否来自具有同一分布的总体;Wald-Wolfowitz runs:考察两个独立样本是否来自具有相同分布的总体。本例选Mann-Whitney U检验方法,之后点击OK 钮即可。

结果解释:结果表明,第1组的平均秩次(Mean Rank)为5.95,第2组的平均秩次为13.36,U = 4.5,W = 93.5,精确双侧概率P = 0.0012,可认为铅作业组工人的血铅值高于非铅作业组。 四、列联表资料的SPSS 分析

例 某院欲比较异梨醇口服液(试验组) 和氢氯噻嗪 +地塞米松(对照组) 降低颅内压的疗效 ,将 200 例颅内压增高患者随机分为 2 组, 见表 1 。 表 1 试验组和对照组降低颅内压疗效的比较

组别 有效 无效 有效率( %) 合计 试验组 99 5 95.20 104 对照组 75 21 78.13 96 合计 174 26 87.00 200

数据录入:打开 SPSS;点击 Variable View 定义变量 ,变量 1Name 为“group ”,Type 为“String ”; 变量 2 Name 为“effect ”,Type 为“String ”; 变量 3 Name 为“count ”, Type 为“Numeric ”,Decimals 为“0”, 其它为默认设置; 点击 Data View 输入数据。

分析过程 ①频数加权(所有列联表资料均需经过频数加权 ,以下例题分析中省略该过程) : Data →Weight Cases Weight Cases by : Frequency Variable :count OK ②分析:

Analyze →Descriptive Statistics →Crosstabs Rows :group Columns :effect

Statistics : √Chi - square : Continue OK

主要结果与解释:根据列联表资料χ2 检验的应用条件:

① 例数( n ) ≥40 且所有的理论值( T ) ≥5 时 ,选用一般的χ

2

检验; P ≈α时 ,改用 Fisher

精确概率法; ②n ≥40 ,有 1 ≤T ≤5 时 ,选用连续校正的检验; 或改用 Fisher 精确概率法; ③n

2

2

2

值和似然比(Likelihood ratio) χ值 ,二者χ值分别为 12.123 和 12.864 , P

实验四 方差分析

方差分析主要用于:1、均数差别的显著性检验,2、分离各有关因素并估计其对总变异的作用,3、分析因素间的交互作用,4、方差齐性检验。 一、Simple Factorial过程:

调用此过程可对资料进行方差分析或协方差分析。在方差分析中可按用户需要作单因素方差分析或多因素方差分析;当观察因素中存在很难或无法人为控制的因素时,则可对之加以指定以便进行协方差分析。 实例: 运动员、大学生、高中生的身高差异如下表:

数据准备:激活数据管理窗口,定义变量名:组变量为group (运动员=1,大学生=2,高中生=3),身高为x ,按顺序输入相应数值,建立数据库。

统计分析:激活 Analyze 菜单选Compare Means中的Means... 项,弹出One-way ANOVA对话框。在变量列表中选变量y ,点击 钮使之进入Dependent 框;选分组变量group ,点击 钮使之进入Factor(s)框中, 并点击Define Range...钮在弹出的Simple Factorial ANOVA:Define Range框中确定分组变量group 的起止值(1,2); 结果运算。 二、General Linear Model过程:

调用此过程可对完全随机设计资料、配对设计资料、析因设计资料、正交设计资料等等进行多因素方差分析或协方差分析。

实例:下表为三因素析因实验的资料,请用方差分析说明不同基础液与不同血清种类对钩端螺旋体的培养计数的影响。

数据准备:激活数据管理窗口,定义变量名:基础液为base ,血清种类为sero ,血清浓度为pct ,钩端螺旋体的培养计数为X ,按顺序输入相应数值,建立数据库。

统计分析:激活Analyze 菜单选General Linear Model中的univarate ... 项,弹出对话框。在对话框左侧的变量列表中选变量x ,点击 钮使之进入Dependent Variable 框;选要控制的分组变量base 、sero 和pct ,点 钮使之进入Factor(s)框中,并分别点击Define Range钮,在弹出的General Factorial ANOVA:Define Range对话框中确定各变量的起止值,本例变量base 的起止值为1、3,变量sero 的起止值为1、2,变量pct 的起止值为1、2。之后点击OK 钮即可。

结果解释:在结果输出窗口中,系统显示48个观察值进入统计,三个因素按其各自水平共产生12种组合。

分析表明,模型总效应的F 值为10.55,P 值

和交互效应导致的组间差别比较结果是:

单因素组间比较:A :基础液(BASE )

F = 4.98,P = 0.012,说明三种培养基培养钩体的计数有

差别;B :血清种类(SERO )

F = 61.265,P

C :血清浓度(PCT ) F = 3.49,P = 0.070,说明两种血清浓度培养钩体的计数无差别。

两因素构成的一级交互作用:

A×B :基础液(BASE )×血清种类(SERO ) F = 5.16,P = 0.011,交互作用明显;

B×C :血清种类(SERO )×血清浓度(PCT ) F = 15.96,P

A×B ×C :基础液(BASE )×血清种类(SERO )×血清浓度(PCT )F = 6.75,P = 0.003,交互作用明显 练习:教材第八、九章习题.

实验五 相关分析

一、Bivariate 过程:

调用此过程可对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互关系的密切程度。调用该过程命令时允许同时输入两变量或两个以上变量,但系统输出的是变量间两两相关的相关系数。 实例:某地区10名健康儿童头发和全血中的硒含量(1000ppm )如下,试作发硒与血硒的相关分析。

数据准备:激活数据管理窗口,定义变量名:发硒为X ,血硒为Y ,按顺序输入相应数值,建立数据库。 统计分析:激活Analyze 菜单选Correlate 中的Bivariate... 命令项,弹出Bivariate Correlation 对话框。在对话框左侧的变量列表中选x 、y ,点击 钮使之进入Variables 框;再在Correlation Coefficients 框中选择相关系数的类型,共有三种:Pearson 为通常所指的相关系数(r ),Kendell’s tau-b 为非参数资料的相关系数,Spearman 为非正态分布资料的Pearson 相关系数替代值,本例选用Pearson 项;在Test of Significance 框中可选相关系数的单侧(One-tailed )或双侧(Two-tailed )检验,本例选双侧检验。点击Options... 钮弹出Bivariate Correlation:Options对话框,可选有关统计项目。本例要求输出X 、Y 的均数与标准差以及XY 交叉乘积的标准差与协方差,故选Means and standard deviations和Cross-product deviations and covariances项,而后点击Continue 钮返回Bivariate Correlation对话框,再点击OK 钮即可。

结果解释:在结果输出窗口中将看到如下统计数据:变量X 、Y 的例数、均数与标准差,变量X 、Y 交叉乘积的例数、标准差与协方差;XY 两两对应的相关系数及其双侧检验的概率,本例r = 0.8715,P = 0.001。 二、Partial 过程:

调用此过程可对变量进行偏相关分析。在偏相关分析中,系统可按用户的要求对两相关变量之外的某一或某些影响相关的其他变量进行控制,输出控制其他变量影响后的相关系数。

实例:某地29名13岁男童身高(cm )、体重(kg )和肺活量(ml )的数据如下表, 试对该资料作控制体重影响作用的身高与肺活量相关分析。

数据准备:激活数据管理窗口,定义变量名:身高为height ,体重为weight ,肺活量为vc ,按顺序输入相应数值,建立数据库。

统计分析:激活Analyze 菜单选Correlate 中的Partial... 命令项,弹出Partial Correlations 对话框。现欲在控制体重的影响下对变量身高与肺活量进行偏相关分析,故在对话框左侧的变量列表中选变量height 、vc ,点击 钮使之进入Variables 框,选要控制的变量weight ,点击 钮使之进入Controlling for 框中, 在Test of Significance框中选双侧检验,然后点击OK 钮即可。

结果解释:在结果输出窗口中将看到如下统计数据:控制体重的影响后,身高与肺活量的相关系数为0.0926,经检验P = 0.639,故身高与肺活量的线性相关不存在。(如果不控制体重的影响,则身高与肺活量的相关系数为0.5884,P 为0.001。在有控制的情况下,身高与肺活量的决定系数 r2 = 0.00857,而无控制的身高与肺活量决定系数 r2 = 0.34621,可见身高与肺活量的相关有33.764%是由体重协同作用而产生的。如果控制变量改为身高,则得如下结果:体重与肺活量的相关系数为0.5528,经检验P = 0.002,故体重与肺活量的线性相关存在。可见,尽管肺活量与身高和体重均有关系,但如果仅仅研究其中一个变量与肺活量的相关关系时,体重的意义会更大。 练习:教材第十一章例题。

实验六 回归分析

一、Linear 过程:

调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。

实例:某医师测得10名3岁儿童的身高(cm )、体重(kg )和体表面积(cm )资料如下。试用多元回归方法确定以身高、体重为自变量,体表面积为应变量的回归方程。

2

数据准备:激活数据管理窗口,定义变量名:体表面积为Y ,保留3位小数;身高、体重分别为X1、X2,1位小数。输入原始数据。

统计分析:激活Analyze 菜单选Regression 中的Linear... 项,弹出Linear Regression 对话框。从对话框左侧的变量列表中选y ,点击 钮使之进入Dependent 框,选x1、x2,点击 钮使之进入Indepentdent(s)框;在Method 处下拉菜单,共有5个选项:Enter (全部入选法)、Stepwise (逐步法)、Remove (强制剔除法)、Backward (向后法)、Forward (向前法)。本例选用Enter 法。点击OK 钮即完成分析。用户还可点击Analyze... 钮选择是否作变量的描述性统计、回归方程应变量的可信区间估计等分析;点击Plots... 钮选择是否作变量分布图(本例要求对标准化Y 预测值作变量分布图);点击Save... 钮选择对回归分析的有关结果是否作保存(本例要求对根据所确定的回归方程求得的未校正Y 预测值和标准化Y 预测值作保存);点击Options... 钮选择变量入选与剔除的α、β值和缺失值的处理方法。

结果解释:结果显示,本例以X1、X2为自变量,Y 为应变量,采用全部入选法建立回归方程。回归方程的复相关系数为0.94964,决定系数(即r 2)为0.90181,经方差分析,F=34.14499,P=0.0003,回归方程有效。回归方程为Y=0.0687101X1+0.183756X2-2.856476。 本例要求按所建立的回归方程计算Y 预测值和

标准化Y 预测值(所谓标准化Y 预测值是指将根据回归方程求得的Y 预测值转化成按均数为0、标准差为1的标准正态分布的Y 值)并将计算结果保存入原数据库。系统将原始的X1、X2值代入方程求Y 值预测值(即库中pre_1栏)和标准化Y 预测值(即库中zpr_1栏), Curve Estimation过程:此过程可完成下列有关曲线拟合的功能:

1、Linear :拟合直线方程(实际上与Linear 过程的二元直线回归相同,即Y = b 0+ b 1X ); 2、Quadratic :拟合二次方程(Y = b0+ b1X+b2X 2); 3、Compound :拟合复合曲线模型(Y = b0×b 1); 4、Growth :拟合等比级数曲线模型(Y = e(b0+b1X)); 5、Logarithmic :拟合对数方程(Y = b0+b1lnX ) 6、Cubic :拟合三次方程(Y = b0+ b1X+b2X 2+b3X 3); 7、S :拟合S 形曲线(Y = e(b0+b1/X));

8、Exponential :拟合指数方程(Y = b0 e); 9、Inverse :数据按Y = b0+b1/X进行变换; 10、Power :拟合乘幂曲线模型(Y = b0X b1);

11、Logistic :拟合Logistic 曲线模型(Y = 1/(1/u + b0×b 1X )。

b1X

X

实例:某地1963年调查得儿童年龄(岁)X 与锡克试验阴性率(%)Y 的资料如下,试拟合对数曲线。

数据准备:激活数据管理窗口,定义变量名:锡克试验阴性率为Y ,年龄为X ,输入原始数据。 统计分析:激活Analyze 菜单选Regression 中的Curve Estimation...项,弹出Curve Estimation对话框。从对话框左侧的变量列表中选y ,点击 钮使之进入Dependent 框,选x ,点击 钮使之进入Indepentdent(s)框;在Model 框内选择所需的曲线模型,本例选择Logarithmic 模型(即对数曲线);选Plot models 项要求绘制曲线拟合图;点击Save... 钮,弹出Curve Estimation:Save对话框,选择Predicted value 项,要求在原始数据库中保存根据对数方程求出的Y 预测值,点击Continue 钮返回Curve Estimation 对话框,再点击OK 钮即可。

结果解释:在以X 为自变量、Y 为应变量,采用对数曲线拟合方法建立的方程,决定系数R =0.913(接近于1),作拟合优度检验,方差分析表明:F=52.32,P=0.001,拟合度很好,对数方程为:Y=61.3259+20.6704lnX。 练习:教材第十、十一章例题。

2


相关文章

  • 生物统计上机操作第四讲 卡方检验 二项分布检验
  • 研究生<生物统计学>课程 上机内容 第四讲:独立性检验与二项分布检验 独立性检验(χ2 检验)与二项分布检验:是针对离散型数据的检验,在生物科学研究中,除了分析计量资料外,还常常需要对质量性状和质量反应的次数资料进行分析,其变异 ...查看


  • 应用统计学课程教学大纲
  • <应用统计学>课程教学大纲 第一部分 大纲说明 一.课程的性质和任务 <应用统计学>是高职高专院校经济类及管理类专业必修课的核心课程,是其它专业的选修课.在市场经济条件下,为了使学生掌握各种调查.各类数据的分析以及对 ...查看


  • spss统计学上机实验报告
  • 学生姓名: 学 号: 所在系部: 专业班级: 指导老师: 日 期: 实验一:用SPSS绘制统计图 实验目的:掌握基本的统计学理论,使用SPSS实现基本统计功能(绘制统计图). 对SPSS的理解:它是一款社会科学统计软件包,同时也广泛应用于经 ...查看


  • 统计学上机实验报告
  • >实验报告 班级: ___10 旅游 2 班__ 学号: __10841604______ 姓名: _____平菲_______ 江苏技术师范学院商学院 12 年 7 月 实验一 一.实验(实训)概述: [目的及要求] 数据文件的操作 ...查看


  • SPSS原理与应用
  • <SPSS原理与应用>教学大纲 学时:51学时 学分:2 理论学时:17 实验或讨论学时:34学时 适用专业:心理学 大纲执笔人:郭振娟 大纲审定人:心理学系集体审定 一.说明 (一)课程的性质.地位和任务 SPSS是软件英文名 ...查看


  • [应用多元统计分析]第六章主成分分析实验报告
  • 第六章主成分分析实验报告 实验项目 名称 主成分分析的上机实现 实验 目的及要求 目的:通过本次实验,培养学生如下几方面的能力: 1.使学生能够借助于SPSS的因子分析功能,实现主成分分析的方法. 2.使学生对主成分分析的基本原理有更深入的 ...查看


  • 教育统计学大纲
  • 高纲1428 江苏省高等教育自学考试大纲 28063 教育统计学 南京师范大学编 江苏省高等教育自学考试委员会办公室 Ⅰ 课程的性质与设置目的 <教育统计学>是研究如何整理.分析在包括教育实验.教育调查等教育研究中所获取的数字资 ...查看


  • 上机操作2完全随机试验设计的SPSS分析
  • 上机操作2 完全随机试验设计的SPSS分析 习题3 不同种源的白榆在土壤肥力不一致的4块试验地上进行试验,每块试验地划分5个小区,每小区播种一个种源,苗木生长4个月后,测每小区苗木平均高,测定结果见表8.15.问不同种源的白榆苗高生长差异是 ...查看


  • 的资源配置优化模型
  • 数学建模论文 题目:数学建模在计算机专业的应用 专业系别:电子信息与控制工程系轨道交通信号与控制姓名:金朝阳 学号:14101067 指导教师:李晓玲 数学建模在计算机专业中的应用 一.摘要 本文重点分析了数学建模的特点,探讨了数学建模与计 ...查看


热门内容