免疫学数据的现代统计分析指南

免疫学数据的现代统计分析指南

与统计分析相关的免疫学研究特殊方面

免疫数据结构

免疫学数据通常不是有规则的分布,研究者要么进行数据转换(例如log 转换使偏斜数据向有规则分布),要么选择不以严格数据假设为基础的统计学技术(例如用不要求有规则分布的非参数统计学方法)。另外一个重要的方面是不同的免疫学数据在同一个研究中呈高度的相关(多重共线性)。因此,在观察中设定为独立性的统计技术应用通常是无效的,基因上述原因,在考虑因通常“后台”生物学机制导致的研究变量的前提下,采取一种方法。后台的生物学机制不能直接观察到,但是却影响不止一种的免疫学变量:“免疫成熟”,“下调”或者“Th2转换”。

免疫学中关系的复杂性

免疫参数之间的关系会变,例如(细胞因子)在不同细胞群中,在不同那个的时间以及其他免疫参数“有或者缺”的情况作用都不相同。我们经常通过把焦点集中在从非免疫因子(暴露过敏原)到产出结果(例如特应性或哮喘)来解释完整的路径。毫无疑问的是简单的单因素统计分析不能确定在几个研究变量中和不能测到的后台免疫机制的如此多内部关系;同时的多参数检测需要多因素统计学技术。知道统计分析最基本的一步是在概念框架中设定明晰假设。概念框架展现年打算的关注的研究变量中的内部关系和确定一些大的影响数值后台免疫学机制。概念框架应详细和明晰的。

另外两个本文不重点谈到重要免疫学数据是:

免疫参数测定的重现性

重现性(reproducibility )是反映在同一个实验室和样本的情况下,我们获得同样结果的频率。在任何检测中变异是意料之中的,并且统计学分析必须考虑变异的程度。虽然免疫学检测的重现性已经确定,但是这些诊断检测目的的,例如与疫苗保护相关的抗体水平(例如水平>10IU/mL乙肝疫苗的应答),表现型特征(CD4数量或评价HIV 免疫状态的CD4/DC8比率),对很多免疫学参数来讲重现性是很难确定的。这与自成一体另外的但很重要的问题--重复性无关:在多中心研究中不同中心,在不同实验室检测相同的免疫学参数,或者是在不同的研究中检测相同的参数研究,也就是重复性(repeatability )。

多重检测

由于可以检测的免疫学参数增加和研究者在同样研究数据中处理的大量统计学检测,关于免疫学研究的相关多重检测问题增多。在统计学中特别关注是从那些泛音真正生物学关系(系统性变异,常假设为因果关系)区分机会性发生(由于随机变异或噪音)。大多数研究者用统计显著性水平(类型1错误,例如P=0.05)来确定分析结果是否是因为偶然性。处理多重假设检测应该导致接下来的类型1错误的扩大(依赖于检测的相关程度)。例如,P

免疫研究的研究目标

通常免疫研究目标可以分组为四类

1) 没有任何假设的因果关系的免疫参数之间关联的调查模式,(因此,与因变量一

样dependent variables 不分类研究变量(例如产出)),和自变量independent

variables (例如说明变量或协同变量)covariates) 。

典型的这类研究问题如下:

评价不同细胞因子的相关强度或定量细胞因子表达不同水平的平衡。例如,研

究的问题应该测量发炎前和抗炎细胞因子之间相关(例如TNF-αand IL-10)或

者,定量检测发炎前和抗炎的细胞因子之间平衡(例如计算TNF-α/IL-10比率)

鉴别高度相关的细胞因子并且把它们放入组中,能够反映出无法观察到的后台

机制。例如,Th1有关的免疫应答例如IFN-γand TNF-α可以介导炎症疾病。根

据已研究过的问题,最合适的是首先应用统计分析方法去“减少数据”,也就是

集合相关Th1的细胞因子形成一个反应后台机制(例如Th1的免疫应答)“概要

变量”,并且在分析中用概要变量而不是用表示原始细胞因子水平的所有变量。

鉴别具有免疫参数相似特点的个体和使其入组(也叫聚类)。例如,病人根据皮

试判断的特异性和非特异性过敏;研究目标的特别感染可以划分组(例如活动

性,慢性,曾经的)并依据总体的升高(例如IgE ,IgA ,IgM ,IgG ,分为亚组)。

然而,在同一病人组内,明晰的聚类或重叠的特点应该区分,且以后的分析可

以显出不同聚类和疾病的关系。

2) 研究目标的第二组研究因果关系,在一个或更多免疫指标之间(例如不同细胞

因子,或概括性测量)和其他研究变量(例如或一个结果如哮喘)。原因研究最

重要的是必须研究一个原因和结果的模型。这将得到合适的变量定义,也就是,

定义什么变量是因变量(产出),中间变量(调节效果),自变量(暴露,致混

淆因素,效应修饰因子)并且将确定统计方法。

可能的研究因果性包括:

确定免疫侧面的决定性因素。目标应该比较两个或更多的暴露组细胞因子的表

达情况,例如感染或没有感染寄生虫人群,疫苗试验中接种和未接种人群(假

设疫苗暴露可以影响免疫参数并可以测量)。例如,问题可以确定如果BCG 接

种过影响单核细胞在体外由支原体抗原刺激IFN-γ分泌水平。免疫指标是结果

或依赖性变量。

鉴别临床后免疫特征(作为风险因子的免疫)或者换句话说,在免疫参数和临

床结果之间确定联系。例如,免疫学家喜欢通过测定细胞因子水平来预测疾病

发生的可能性。例如,TNF-α水平跟活动性风湿性关节炎有关么?这里免疫学

参数是风险因子(常叫做暴露"exposure" )或,自变量。

3) 第三组包括很多复杂研究问题,包括上述的两个或更多目标。如折现问题应检

测细胞椅子在大的因果结构中的作用,包括不止一个风险因子,和结果;其间

的关系。例如研究在早期生命感染,模式识别受体(Nods ),致炎症细胞因子

(IFN-γand TNF-α),和炎症性肠疾病。

4) 硅免疫领域(计算机分析联合信息学或免疫信息)是一个发展和扩大领域并且

用于发表几个研究问题类型,例如

从微生物基因组对免疫原性序列预测来疫苗候选。

预测在治疗性抗体与不良反应有关的的蛋白序列

在固有免疫系统中鉴别调节分子。

这些方法对大量数据集合具有高通量的分析(例如,微生物基因组,人类基因组等)用可能的软件(例如,EpiMatrix )既可以运算或验证假设,又能分析详细分析数据。

硅分析利用很多多变量分析技术将在后面讨论(聚类分析)。这是特别专业领域尤其涉及计算机,本文不讨论。

分析免疫数据的统计方法

研究目标,数据收集类型,数据假设是否实现,样本量是否重发,如何选择统计学方法:

探索性数据分析

在分析免疫数据重要的第一步是探索和描述数据。研究者应首先探索显示概括性统计表中数据(平均数,标准差),应用图形性,bar 图,直方图,须箱图,散点图。多变量数据,散点图是检测几个免疫参数联系的有力工具。

数据假设

研究者还要考虑当选择一个统计学方法是否数据符合数据假设的量。第一个假设就是数据测量的范围,也就是是否是归属范畴(也就是那女分组),次序(分组逻辑顺序,例如生日顺序),或连续(度量,规定刻度)。可用的统计方法。当研究者处理数据时,验证第二假设是否数量遵循理论分布(常规分布)。分布假设可以通过特征曲线图形验证,或用由统计学与理论分布比较检测。当原始数据不能符合分布假设,需要特殊的统计学技术(常规用t-test ),普通方法转换数据符合假设。例如用log 值。免疫指标用了不同的数据变换后仍然不能符合数据假设。更适合选择替代的需要很少假设的统计学方法(例如用非参数的Wilcoxon test instead of a t-test)。另外的不能实现分布假设连续变量是通过生物学有意义的cut-off values分类测量(e.g. level >= 2.5: "positive", level

样本容量内容

第二主要内容,免疫学家常面对且影响统计方法估计的合适样本量。

免疫学数据的现代统计分析指南

与统计分析相关的免疫学研究特殊方面

免疫数据结构

免疫学数据通常不是有规则的分布,研究者要么进行数据转换(例如log 转换使偏斜数据向有规则分布),要么选择不以严格数据假设为基础的统计学技术(例如用不要求有规则分布的非参数统计学方法)。另外一个重要的方面是不同的免疫学数据在同一个研究中呈高度的相关(多重共线性)。因此,在观察中设定为独立性的统计技术应用通常是无效的,基因上述原因,在考虑因通常“后台”生物学机制导致的研究变量的前提下,采取一种方法。后台的生物学机制不能直接观察到,但是却影响不止一种的免疫学变量:“免疫成熟”,“下调”或者“Th2转换”。

免疫学中关系的复杂性

免疫参数之间的关系会变,例如(细胞因子)在不同细胞群中,在不同那个的时间以及其他免疫参数“有或者缺”的情况作用都不相同。我们经常通过把焦点集中在从非免疫因子(暴露过敏原)到产出结果(例如特应性或哮喘)来解释完整的路径。毫无疑问的是简单的单因素统计分析不能确定在几个研究变量中和不能测到的后台免疫机制的如此多内部关系;同时的多参数检测需要多因素统计学技术。知道统计分析最基本的一步是在概念框架中设定明晰假设。概念框架展现年打算的关注的研究变量中的内部关系和确定一些大的影响数值后台免疫学机制。概念框架应详细和明晰的。

另外两个本文不重点谈到重要免疫学数据是:

免疫参数测定的重现性

重现性(reproducibility )是反映在同一个实验室和样本的情况下,我们获得同样结果的频率。在任何检测中变异是意料之中的,并且统计学分析必须考虑变异的程度。虽然免疫学检测的重现性已经确定,但是这些诊断检测目的的,例如与疫苗保护相关的抗体水平(例如水平>10IU/mL乙肝疫苗的应答),表现型特征(CD4数量或评价HIV 免疫状态的CD4/DC8比率),对很多免疫学参数来讲重现性是很难确定的。这与自成一体另外的但很重要的问题--重复性无关:在多中心研究中不同中心,在不同实验室检测相同的免疫学参数,或者是在不同的研究中检测相同的参数研究,也就是重复性(repeatability )。

多重检测

由于可以检测的免疫学参数增加和研究者在同样研究数据中处理的大量统计学检测,关于免疫学研究的相关多重检测问题增多。在统计学中特别关注是从那些泛音真正生物学关系(系统性变异,常假设为因果关系)区分机会性发生(由于随机变异或噪音)。大多数研究者用统计显著性水平(类型1错误,例如P=0.05)来确定分析结果是否是因为偶然性。处理多重假设检测应该导致接下来的类型1错误的扩大(依赖于检测的相关程度)。例如,P

免疫研究的研究目标

通常免疫研究目标可以分组为四类

1) 没有任何假设的因果关系的免疫参数之间关联的调查模式,(因此,与因变量一

样dependent variables 不分类研究变量(例如产出)),和自变量independent

variables (例如说明变量或协同变量)covariates) 。

典型的这类研究问题如下:

评价不同细胞因子的相关强度或定量细胞因子表达不同水平的平衡。例如,研

究的问题应该测量发炎前和抗炎细胞因子之间相关(例如TNF-αand IL-10)或

者,定量检测发炎前和抗炎的细胞因子之间平衡(例如计算TNF-α/IL-10比率)

鉴别高度相关的细胞因子并且把它们放入组中,能够反映出无法观察到的后台

机制。例如,Th1有关的免疫应答例如IFN-γand TNF-α可以介导炎症疾病。根

据已研究过的问题,最合适的是首先应用统计分析方法去“减少数据”,也就是

集合相关Th1的细胞因子形成一个反应后台机制(例如Th1的免疫应答)“概要

变量”,并且在分析中用概要变量而不是用表示原始细胞因子水平的所有变量。

鉴别具有免疫参数相似特点的个体和使其入组(也叫聚类)。例如,病人根据皮

试判断的特异性和非特异性过敏;研究目标的特别感染可以划分组(例如活动

性,慢性,曾经的)并依据总体的升高(例如IgE ,IgA ,IgM ,IgG ,分为亚组)。

然而,在同一病人组内,明晰的聚类或重叠的特点应该区分,且以后的分析可

以显出不同聚类和疾病的关系。

2) 研究目标的第二组研究因果关系,在一个或更多免疫指标之间(例如不同细胞

因子,或概括性测量)和其他研究变量(例如或一个结果如哮喘)。原因研究最

重要的是必须研究一个原因和结果的模型。这将得到合适的变量定义,也就是,

定义什么变量是因变量(产出),中间变量(调节效果),自变量(暴露,致混

淆因素,效应修饰因子)并且将确定统计方法。

可能的研究因果性包括:

确定免疫侧面的决定性因素。目标应该比较两个或更多的暴露组细胞因子的表

达情况,例如感染或没有感染寄生虫人群,疫苗试验中接种和未接种人群(假

设疫苗暴露可以影响免疫参数并可以测量)。例如,问题可以确定如果BCG 接

种过影响单核细胞在体外由支原体抗原刺激IFN-γ分泌水平。免疫指标是结果

或依赖性变量。

鉴别临床后免疫特征(作为风险因子的免疫)或者换句话说,在免疫参数和临

床结果之间确定联系。例如,免疫学家喜欢通过测定细胞因子水平来预测疾病

发生的可能性。例如,TNF-α水平跟活动性风湿性关节炎有关么?这里免疫学

参数是风险因子(常叫做暴露"exposure" )或,自变量。

3) 第三组包括很多复杂研究问题,包括上述的两个或更多目标。如折现问题应检

测细胞椅子在大的因果结构中的作用,包括不止一个风险因子,和结果;其间

的关系。例如研究在早期生命感染,模式识别受体(Nods ),致炎症细胞因子

(IFN-γand TNF-α),和炎症性肠疾病。

4) 硅免疫领域(计算机分析联合信息学或免疫信息)是一个发展和扩大领域并且

用于发表几个研究问题类型,例如

从微生物基因组对免疫原性序列预测来疫苗候选。

预测在治疗性抗体与不良反应有关的的蛋白序列

在固有免疫系统中鉴别调节分子。

这些方法对大量数据集合具有高通量的分析(例如,微生物基因组,人类基因组等)用可能的软件(例如,EpiMatrix )既可以运算或验证假设,又能分析详细分析数据。

硅分析利用很多多变量分析技术将在后面讨论(聚类分析)。这是特别专业领域尤其涉及计算机,本文不讨论。

分析免疫数据的统计方法

研究目标,数据收集类型,数据假设是否实现,样本量是否重发,如何选择统计学方法:

探索性数据分析

在分析免疫数据重要的第一步是探索和描述数据。研究者应首先探索显示概括性统计表中数据(平均数,标准差),应用图形性,bar 图,直方图,须箱图,散点图。多变量数据,散点图是检测几个免疫参数联系的有力工具。

数据假设

研究者还要考虑当选择一个统计学方法是否数据符合数据假设的量。第一个假设就是数据测量的范围,也就是是否是归属范畴(也就是那女分组),次序(分组逻辑顺序,例如生日顺序),或连续(度量,规定刻度)。可用的统计方法。当研究者处理数据时,验证第二假设是否数量遵循理论分布(常规分布)。分布假设可以通过特征曲线图形验证,或用由统计学与理论分布比较检测。当原始数据不能符合分布假设,需要特殊的统计学技术(常规用t-test ),普通方法转换数据符合假设。例如用log 值。免疫指标用了不同的数据变换后仍然不能符合数据假设。更适合选择替代的需要很少假设的统计学方法(例如用非参数的Wilcoxon test instead of a t-test)。另外的不能实现分布假设连续变量是通过生物学有意义的cut-off values分类测量(e.g. level >= 2.5: "positive", level

样本容量内容

第二主要内容,免疫学家常面对且影响统计方法估计的合适样本量。


相关文章

  • 2015-2017年湖南省自然科学基金项目申报指南
  • 2015-2017年湖南省自然科学基金 项目申报指南 根据<湖南省"十二五"科学技术发展规划>和<创新型湖南建设纲要>的工作部署,结合我省推进"四化两型".实现"两个 ...查看


  • 丙型肝炎防治指南解读(上)
  • ((<中国临床医生>%""'年第.-卷第-期(总%!$) %. !!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!! ・地坛抗疫课堂・ 丙型肝炎防治指南解读(上) 张为 ...查看


  • [医药工业发展规划指南]
  • 医药工业发展规划指南 医药工业是关系国计民生的重要产业,是中国制造2025和战略性新兴产业的重点领域,是推进健康中国建设的重要保障."十三五"时期是全面建成小康社会决胜阶段,也是我国医药工业整体跃升的关键时期.为加快医药 ...查看


  • 中国免疫规划信息管理系统操作指南
  • 中国疾控中心免疫规划信息管理系统 操作指南 2013年9月 中国软件与技术服务股份有限公司 目 录 第一章 运行环境要求 ----------------------------------------------------------- ...查看


  • 中国丙型肝炎防治指南
  • 中华内科杂志,11G年0月第G.卷第0期!#B6ALIAM8NAO8K,L4PQ,11G,$RPG.,(R&0・==%・ ・标准与讨论・ 丙型肝炎防治指南 中华医学会肝病学分会.中华医学会传染病与寄生虫病学分会 !!丙型肝炎是一种主 ...查看


  • 湘雅临床大数据调研报告
  • 湘雅大数据调研报告 -湘雅二医院 调研项目 : 指导老师 : 二级学院 : 软件学院 专业名称 : 软件工程 班 级 : 调研报告人 : 中南大学 2014年4月30日 摘 要 本文在下面章节描述了湘雅大数据调研的详细过程,并对大数据及艾滋 ...查看


  • 开发安全的人类多能干细胞治疗策略
  • 开发安全的人类多能干细胞治疗策略 翻译:何君贤 原文作者:Melissa K Carpenter, Joyce Frey-Vasconcell and Mahendra S Rao 原文检索: Carpenter, M.K., J. Fre ...查看


  • 食品营养与检测教学解决方案
  • 食品营养与检测教学 全面解决方案 王士软件 目 录 录 概述 . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . ...查看


  • CFDA:[血液透析及相关治疗用水]等90项器械标准调整
  • 近期,国家食品药品监督管理总局 2015 年第 8 号公告发布了 YY 0572-2015<血液透析及相关治疗用水>等 90 项医疗器械行业标准,其中包括 14 项强制性标准和 76 项推荐性标准,涉及外科植入物.医用电器设备. ...查看


热门内容