遵ISS付NHEREDITAs(Beijing.)2008年-.120253-9772
WWWchinagenecn月,3。‘12):164。一1646
.
.
技术与方法及小习万灞
DOI:lO.3724,SP.J.1005.2008.01640
基因芯片筛选差异表达基因方法比较
单文娟,童春发,施季森
南京林业大学国家林业局、江苏省林木遗传和基因工程重点实验室,南京210037
摘要:使用计算机模拟数据和真实的芯片数据,对8种筛选差异表达基因的方法进行了比较分析,旨在比较不同方法对基因芯片数据的筛选效果.模拟数据分析表明,所使用的8种方法对均匀分布的差异表达基因有很好
的识别、检出作用。算法方面,SAM和Wilcoxon秩和检验方法较好;数据分布方面,正态分布的识别效果较好,
卡方分布和指数分布的识别效果较差。杨树cDNA芯片分析表明,SAM、Samroc和回归模型方法相近,而
Wilcoxon秩和检验方法与它们有较大差异.
关键词:基因芯片;杨树;差异表达
Comparisonofstatisticalmethodsfordetectingdifferentialexpres-
sioninmicroarraydata
SHAN
Wen—Juan,TONGChun-Fa,SHIJi—Sen
EngineedngoftheStateAdministrationandJiangsuProvince,NanfingForestryUniver-
TheKeyLaboratoryofForestGeneticsandGene
Jl砂,Na可mg210037,ChinaAbstract:DNAm/croarrayis
a
newtoolinbiotechnology,whichallowssimultaneouslymonimdngthousandsofgene
to
expressionincells.Thegoalofdifferentialgeneexpressionanalysisis
pressionlevels
detectgeneswithsignificantchangeofgene
to
ex・
arisingfromexperimentalconditions.Althoughvariousstatisticalmethodshavebeensuggested
a
confirm
differentialgeneexpression,only
fewstudies
comparedperformanceofthestatisticalmethods.Thispaperpresented
comparisonofstatisticalmethodsforfindingdifferentiallyexpressedgenes(DEGs)fromthemicroarraydata.Usingsimu—
latedandreal
datasets(PopuluscDNAmicroarrayOat.),wecomparedeightmethodsofidentifyingdifferentialgene
ex-
pression.ThesimulatedOatasetsincludedfourdifferentialdistributions(nomlaIbufion,andexponentialdistribution).TheresultsofsimulatedOatasetsanalysis
distributionandexponentialdistribution.Ofthese
coxon
distribution,uniformdistribution,X2disai—
showedthattheeightmethods
not
Weremore
preferablewiththemicroarraydataofuniformdistributionthannormaldistribution.Theywerepreferablewithtlle矿
eightmethods。SAM(Significancemodelingapproach.Wflcoxon
better
Analysisof
Microarrays)andWil—
ranksum
test
performedwell
modeling
inmostcases.TheresultsofrealcDNAmicroarraydataofPopulusshowedthatthere
rank
WasmuchsimilarityofSAM,Samroc,andregressionSamrocandregression
approachwere
sumtestWaSdifferentfromthem.
similarintheeightmethods.Forbothsimulatedandrealoatasets,SAM,
thanothermethods.
Samroe,andregressionmodelingapproachperformed
Keywords:microarray;Populus;differentialexpression
收稿日期:2008--03—19;修回日期:2008--08—31
基金项目:江苏省自然科学基金“重要模式树种(杨树和杉木功能基因组学研究)”项目(编号:BK2003213)资助[Supportedby
FoundationofJiangsu
theNaturalScience
Province(No.BK2003213)】
作者简介:单文娟(1982一)'女,硕士研究生,专业方向:生物信息学。E.mail:fanzi03@163.com
通讯作者:旅季森(1952-)。男,教授,博士生导师.研究方向:林木遗传育种、林木基因组学等研究。E・mail."jshj@njfu.edu.cn
第12期
单文娟等:基因芯片筛选差异表达基因方法比较
1641
基因芯片技术是随着“人类基因组计划”(Human
genome
project,HGP)发展起来的一项新技术,可广
泛应用于基因序列分析、基因突变检测和多态性分析以及疾病的基因诊断等领域。基因芯片技术可以同时检测生物样本成千上万个基因的表达水平,从而得到基因组水平的基因表达谱数据。通过对这些数据的分析,能够了解基因的功能甚至基因之间的相互作用。为了达到这一目的,最关键的步骤是从表达谱中筛选出潜在的差异表达基因…,常用的是两种不同实验条件下差异表达基因的筛选。不同的实验条件包括:不同的生物组织、不同的试剂或药物处理、不同的发育时期、不同的实验处理等。
基因表达数据可以在3个层次上加以分析:(1)单基因水平,即分析基因在两种实验条件之间的差异;(2)分析功能相似的基因及基因之间的相互作用、共调控等;(3)基于基因网络及蛋白质网络的研究【2】。本文只进行第一层次上单基因水平差异表达基因的研究。差异表达通常指一个基因在两种试验条件下表达水平值在排除实验、检测等因素后达到一定的差异,具有统计学意义,同时也具有生物学意义【3】。常用的统计方法包括参数方法和非参数方法两类。Newton等【41提出了用于分析差异表达的贝叶斯模型;Baldi和Long等【21使用了贝叶斯模型方案分析正态分布的数据;Lonnstedt和Speed【51使用了参数贝叶斯方法分析芯片数据,Smyth等【6】在此基础上提出了更加实用的系统模型。以上的参数方法都假设基因芯片数据服从正态分布,这种假设与实际情况存在差异。非参数方法直接估计检验统计量的分布情况,不对数据的分布做任何假设,在这一点上优于参数方法。非参数方法包括Tusher等f7】提出的SAM,Dudoit等‘8J提出的调整P值的■检验及Pan等191提出的混合模型方法(MMM)等。
Nykter等【10J指出由于目前缺乏生物学背景的准确信息,无法对各种算法进行有效的评价,因此使用已知样本数据特征的计算机模拟数据(Simulateddatasets)可以解决以上难题。计算机模拟数据根据实验的需要进行设计,是检测基因芯片数据分析方法的常用手段。模拟数据包括两部分:差异表达基因的模拟表达值和非差异表达基因的模拟表达值,具有两种或两种以上的实验条件(组织样本)及,1个仰≥3)生物学重复。差异表达基因一般占基因总数的
5%。根据Kim等㈣、Perelman等‘121和Shaik等1131
等的设计思想,以正态分布为例,非差异表达基因
在不同实验条件下其基因表达值的均值和方差都没有差异:而差异表达基因的均值都存在差异,方差可以相同也可以不同。
目前芯片模拟数据一般只考虑正态分布的情况,
如kim等…J比较了T.检验、B一统计量(B—statistic)、
贝叶斯T-检验3种参数方法和SAM、Samroc、
Zhao.Pan
3种非参数方法对正态分布的筛选效果。
Hunter等㈣、Thomas等【15】、Pan等¨引、Craig等㈣、
Giles等[181、Liu等‘191、Zhao和Pan等‘201指出,即使基因芯片表达数据经过预处理后仍然不满足正态分布。Neuhauser等[211使用了均匀分布、卡方分布、柯西分布和指数分布的数据对弘检验、Wilcoxon秩和检验、FP检验(Fisher-Pitman
permutation
test)、B检
验(Baumgartner-Wei13-Schindlertest)4种统计方法进行了分析。本文使用8种筛选差异表达基因方法(详见1.3)分别对4种分布的计算机模拟数据以及真实的芯片数据进行分析。参照Neuhauser所采用的数据分布,本文的芯片模拟数据包括正态分布、均匀分布、卡方分布和指数分布,以便全面分析各种方法对不同分布数据差异表达基因的识别情况。
1材料和方法
1.1模拟数据
使用R软件【22】生成模拟数据,包括4种分布:正态分布、均匀分布、卡方分布和指数分布。以正态分布为例,非差异表达基因的表达值设定3种方案,差异表达基因的表达值在对照样本和实验样本中也分别设定3种方案,详细方案见表l。我们产生10000个基因的表达数据,其中9500个为非差异表达基因数据,500个为差异表达基因数据。每个非差异表达基因的表达数据从已设定的3种方案中任取一种产生,共产生12个数据,前6个数据为实验(样本)数据,后6个为对照(样本)数据(说明:使用R软件模拟数据时为一次性同时产生6个符合条件的数据集,即一次性产生实验数据集或对照数据集)。同样,每个差异表达基因的表达数据从已设定的3对方案中任取一对,用表1实验栏中的分布产生6个数据作为实验数据,用表1对照栏中的分布产生6个数据作为对照数据。如果一个基因的12个数据占据一行,那么这120000个数据构成一个10000行12列的数据表格或矩阵,其中每列数据表示一个芯片上10000个基因的表达数据。该实验方案的生物学重复数为6。采用不同的统计方法对此分析,并记录分析结果。
1642
遗锫HEREDITAS(Beijing)2008
第30卷
表1模拟数据
Table1
Simulationdata
非差异表达基因
差异表达基因
genes
分布
Distribution
Non—differentiallyexpressedDifferentiallyexpressedgenes
实验
Experimentmean=-8,sd=0.4mean=一10。sd=0.8mean=-12。sd=1.0min=0。max-1.5min=1.5,max=2.5df=5。ncp=0
对照
Control
mean=-8,sd=0.4mean=-10,sd=0.8mean=-12,sd=1.0=in=0,max=1.5=in=I・5,max=2・5df=5,ncp=0dr=3,ncp=0df=5,ncp=0.5df=3,ncp=0.5rate=l
mte=lrate=1
实验
Experimentmean=一6,sd=0.2mean=一8,sd=0.4mean=-10,sd=0.8
对照
Control
mean=-6.1,sd=0.2mean=一8.5,sd=0-5mean=-1l,sd=1.0
正态分布’
Normaldistribution
I
咖Ⅱ:嚣嚣8m’
卡方分布
Z2distribution
r慧誓瓷ri.
mInilnn=:uo,.5,m::;.0
df=5。ncp=0df=5,ncp=0df-5,ncp=0
mi~n=0,maaxx“=1.;mi.n=0~.5,mmaaxx_2.=2.;
小耵m筐一篇生,只文
m
II
mirainn=:21.o'.u,淼三;;
户FF
df=3,ncp=Odf=5,ncp=0.5dr=3,ncp=0.5
指数分布
ExponentiMdistribu“on
rate=l
m昙|暑|II
盎;{”晒
注:‘正态分布数据的方案设计参照Kim等“11。
Note:’ThenormaldistributionsimulationdatabasedonKimetaL[111
以上所作的模拟相当于一次实际实验,所得结论不具有统计学意义,我们将以上模拟重复了500次,对每种分析方法统计500次并分析结果,以鉴别不同分析方法的优劣性。1.2真实芯片数据
出【7,1l】。SAM是非参数的统计方法,与P检验相似,为
了避免T-检验中由于方差太小而误判某基因为差异表达基因的不足,SAM在分母上增加了一个较小的正值;(4)Zhao和Pan方法∞I,非参数的统计方法,其关键在于估计检验统计量的零分布(NuUdistribution)Z。,
本文采用的真实芯片数据为Andersson等【23】发
表文章中的杨树cDNA芯片数据。该实验研究了杨树秋天叶片衰老的机制,芯片的13490个克隆是由7个cDNA文库中的36354个杨树EST序列拼接而成,其中有12376(92%)个功能已知。实验材料为瑞典北部生长期超过30年的雄性白杨树Aspen
(Populustremula)叶片,对照样本和实验样本的生物
并直接构建了零统计量(Nullstatistic)z,。非参数方法
的早期研究包括Efron的经典贝叶斯方法瞄J、Tusher的SAM[71、Pan的MMM方法191,Zhao和Pan指出它
们存在的一个共同问题是Z,及z,的分子与分母之间
都是非独立的,因此提出了新的Z,、Z,计算方法,详见参考文献[20l;(5)Samroc方法,由Brober91261提出,使用这一统计量的R语言软件是SAG网址http://home.swipnet.se/pibroberg;(6)回归模型方法
(Regressionmodelingapproach),Thomas等【D1于2001
学重复数分别为3和4。1.3差异表达基因筛选方法
使用以下8种筛选差异表达基因的方法:(1)T-检验(T-test)l¨】,是较常用的统计方法,用于判断某一基因在两个样本中其表达是否有显著性差异,不要求等方差;(2)贝叶斯弘检验(BayesT-test)伫・24],这种方法的最大优点是结合了一个基因样本间的差异和部分基因之间的差异信息,即对于某一基因方差的估计,既考虑到了基因本身样本间差异又利用了具有相似表达水平的部分基因(定义为邻近基因,Neighborhoodgene)的合并方差,且两者之间使用加权值,R语言开发的Cyber-T软件实现了这一统计量的应用,网址hap://www.genomics.uci.edu/;(3)SAM(Significanceana
lysisofmicroarrays)。由Tusher、Tibshirani和Chu提
年提出了这种鉴定两种不同实验条件差异表达基因的方法,其给出的回归方程不仅包括筛选差异表达基因部分,还包括数据的预处理部分,本文只讨论筛选差异表达基因部分;(7)PaGEt27'嘲,是使用perl语言编写的用于分析基因芯片表达谱数据的生物学软件,最初由Manduchi等提出【291,其界面简单,使用方便,该算法经过了不断改进,使用FDR估计置信水平,并对FDR的估计方法也给予了修改,使其估计值更加准确;(8)Wilcoxon秩和检验(Wilcoxon
ranksum
test),又称
Mann.Whitney检验口01,也是一种非参数的检验方法,该方法要比L检验更加稳健,更适合非正态分布的数据,要求两样本数据分布相同。
第12期单文娟等:基因芯片筛选差异表达基因方法比较
1643
2结果与分析
2.1模拟数据结果分析
由于模拟数据产生时差异表达基因占基因总数的5%’即10000个基因中有500个基因为差异表达基因,因此判断某一方法检测差异基因的有效性主要取决于:按统计量值排序后前500个基因中检测出的差异表达基因的个数和平均秩。表2中每项包含两个数据,如对应于正态分布和T-检验的数据为136.90、202.43,第一个数据表示按统计量(从大到小)排序,位于前500个基因中的差异表达基因总数,第二个数据表示这些差异表达基因的平均秩。例如F检验在分析正态分布的某个模拟样本数据时,按统计量值排序后前500个基因中差异表达基因检测到137个,这样分析500个模拟样本数据后得到的平均值为136.90;“202.43”表示500个模拟样本数据检测到的差异表达基因的平均秩的平均值为202.43,平均秩是指排在前500个基因中差异表达基因的秩和除以差异表达基因个数。筛选出的差异表达基因个数越多越好:而平均秩越低,则说明差异表达基因的排位越靠前,使用相应的检测方法筛选出差异表达基因的可能性越大。
对于正态分布,SAM和BayesT-test两种方法最佳,在前500个基因中都检测到了157个以上的差异表达基因,平均秩也较低。其次为Wilcoxon秩和检验、回归模型方法、弘检验和Samroe。PaGE的平均秩最小,但其检测到的差异表达基因个数较少。
对于均匀分布,所有方法的平均秩都在200左
表2模拟数据差异表达基因筛选结果
Table2
Screeningofdifferentiallyexpressedgenesin
右,差异不大,因此可以不考虑此值对检测效果带来的影响。SAM和PaGE两种方法最佳,在前500个基因中都检测到了较多的差异表达基因,约占差异表达基因总数的80%。其次为BayesT-test和Wilcoxon秩和检验,再次为回归模型方法、正检验和Samroc。
对于卡方分布,SAM最佳,检测到的差异表达基因数量较多且平均秩较低。其次为Wilcoxon秩和检验和BayesT-test。Wilcoxon秩和检验检测到的差异表达基因数量最多但平均秩最高;BayesT-test检测到的差异表达基因数量较少但其平均秩较低。再次为Samroe、回归模型方法和■检验。
对于指数分布,SAM最佳,检测到的差异表达基因数量最多且平均秩较低。Wilcoxon秩和检验检测到的差异表达基因数量也较多,但不足的是平均秩最高。PaGE的平均秩非常低,检测到的差异表达
基因数目与T-test、Samroc和回归模型方法相近,说
明PaGE要优于它们。与SAM相比较,PaGE的不足是检测到的差异表达基因偏少,这或许与其检测到的差异表达基因数目少有一定关系。
从整体上看,均匀分布的检测结果最好,Zhao—Pan检测到的差异表达基因最少,却也检测到了286个。占全部差异表达基因的57.2%。其次为正态分布,其余两种分布的检测结果都不佳,检测到的差异表达基因都不超过100个。为了充分考察筛选差异表达基因的各种方法,本文在设计模拟数据时差异表达基因与非差异表达基因的区别较小,但以上结果一定程度的说明八种差异表达基因筛选方
simulationdata
1644
遵付HEREDITAS(Beijing)2008
第30卷
法对均匀分布有很好的识别、检出作用,对正态分布识别效果较好,而对卡方分布和指数分布识别效果较差。
从检测方法来看,SAM最好,其次为Wilcoxon秩和检验。不足的是其平均秩有时较高。回归模型和T.检验对正态分布和均匀分布的检测结果非常相近。回归模型和Samroc对卡方分布和指数分布的检测结果非常相近,且这两种方法比较稳定,具有较好的检测结果。BayesT-test比较适合检测正态分布和均匀分布的数据。PaGE不适合检测卡方分布的数据。Zhao—Pan的检测结果平均秩一般较高,检测到的差异表达基因数目也较少。
2.2杨树cDNA芯片数据结果分析
Andersson等使用SAM对杨树cDNA芯片数据进行了差异表达基因的筛选,共得到874个差异表达基因。本文根据模拟数据分析的结果,采用了Wilcoxon秩和检验、回归模型和Samroc3种比较稳定的方法,对其3792个有显著表达的基因再次做了筛选分析。我们发现3种分析得到的差异表达基因个数都很多,均在2000个以上,于是我们根据统计量分别选取了排在前面的874个基因。结果表明,回归模型与SAM都检测为差异表达的基因共有649个;Samroc与SAM都检测为差异表达的基因共有687个:Wilcoxon秩和检验与SAM都检测为差异表达的基因共有381个;SAM、Samroc和回归模型3种方法都检测为差异表达的基因共有622个,占总数的7l%:SAM、Samroc、Wilcoxon秩和检验及回归模型4种方法都检测为差异表达的基因共有305个。以上结果说明SAM、Samroc和回归模型方法有较多的共同点,而Wilcoxon秩和检验方法与它们有较大的差异。
表3为SAM筛选到的排在前20位的基因在Samroc、Wilcoxon秩和检验和回归模型3种方法检测结果中的统计量值或P值及其秩。从表3可以看出,Wilcoxon秩和检验方法有一个缺点,由于它本身依靠排秩的方法来筛选基因,使得某些基因的统计量值相同,无法进一步区分它们。另外,Samroc和回归模型方法具有更大的相似性,例如它们都将
A024P46(clone
ID)排在了第一位,将1027P15排在
了第6位,还将F065P41、1004P59、1059P90都排在了百位之后。
3讨论
Kim等111J对模拟数据做分析时指出,在其研究的所有情况下SAM和Samroc表现最好,而且当样本数较小时Samroc比SAM更好。在本研究中SAM表现好再次得到证实,但其要明显好于Samroe,这或许与使用的生物学重复数不同有关,因为Kim所使用的小样本重复数为4,本文使用的重复数为6。Neuhauser等【2¨指出当生物学重复数为6及以上时,其所研究的4种方法才能够较好的筛选差异表达基因,这也正是本文生物学重复数为6的原因。另外,Kim只对正态分布的情况做了分析。他还指出,
Bayes
T-test在检测小样本数据时表现最好,弘检验
筛选差异表达基因的效果也不错。本文得出正态分布数据的分析结果与其相似,只是SAM的筛选结果
比BayesT-test更好。我们发现BayesT-test不稳定,
对卡方和指数分布的数据不敏感,对这两种分布数据的检测结果不太理想。
SAM、Samroc和回归模型方法在分析真实芯片数据时得到了比较理想的结果,但在分析卡方分布及指数分布的模拟数据时表现不佳,其原因应该与真实芯片数据的分布特征有关,因此对芯片数据的分布特征做一个简单的检测,再有针对性地选择适合相应分布的分析方法,或许有利于提高筛选差异表达基因的准确率。另外,SAM在4种分布中除了卡方分布的筛选结果没有达到最大外,其余3种分布均筛选到最多的差异表达基因,这可能与SAM通过调整A(SAM的一个统计量)的值来控制FDR以得到更准确的结果有关,并且可能与SAM算法的不断改进有关。根据Zimmerman等1311以及Blair等【32】的报道,Wilcoxon秩和检验方法要好于n检验,本文的结果与其相同,而且Wilcoxon秩和检验方法还是一种比较稳定的筛选方法。
本文研究发现,基因芯片数据经过分析后得到的差异表达基因的数量有时较多,这使得生物学家无法从分析结果中挑选自己感兴趣的基因,最简单的方法是根据统计量筛选适量的基因进行后续分析。另外可以使用多种方法分析,结果取其交集,这样可以一定程度上避免假阳性基因带给后期验证分析的麻烦。此外,研究数据分析方法的特点有助于做好数据挖掘工作,改进模拟数据方案有利于充分检验算法的特征,并推进基因芯片数据分析的发展。
n僻
一盆_州n
媳椒=《嫩椒u∞呈譬∞
堪椒剥鼙E匾
飨据积雷函埔
窆《∞Ⅱo昌口o求靶单钆
ogo∽
稻趸
l
∞暑写≯钆榉趸
_
鑫薹
榉羞_鑫薹
榉星
_
—m《N∞心o..。苗一王∞一一.N”●昏o毫口∞寸一●.幽卜N.一一峙硭寸口o蛤昏瓤h寸西.8●z6一山卜N寸一.田一●.∞寸心.No山。西o.崎乜6《田∞n●.一寸口n山口o卜.—研●
∞o‘寸n山U一∞≥
寸”;.穹
口夏寸N《No_∞‘n。苗_●《∞n山∞.蓦《
一n卜寸.一一●一寸山”口o£8小..●‰
口2
西n£I山寸o∞直N‘●._II口n寸厶寸【。钫一}.《∞N【●∞甘山n西一【●心厶∞n一
口n.∞●卜n口山∞n卜N心口‘●.—小心口∞_小口o.●∞≥.n£I寸卜山n。苗一王
《o∞一函山口o∞n£d寸NoH。西乱西n璺三j量莹量莹莹量§小oq.善蓉善詈e昏q.g夏虿景
摹8葛器兽8磊昌瓮当口一.寸^.口寸
.N
n寸.n∞卜∞西2=£12=:2=
∞口h寸.卜∞a一o£口田誊’.西●竺
o()0.0卜∞口8I
卜n
卜寸.—研●∞。
窭.∞∞c.卜nH气,昌
西∞o.oh_
卜n.,寸直器口.n导器.宝墨墨&罱8兰磊昌荨高2t"q
器譬器器霉器薯薯兽薯薯薯薯露罨兽
兽器留
兽
第12期
单文娟等:基因芯片筛选差异表达基因方法比较
1645万方数据
1646
遵付HEREDITAS(Beijing)2008
第30卷
参考文献(References):
【1】BrentR.Oenomicbiology.COZL2000,100(1):169一183.【2】BaldiP’LongAD.ABayesianframeworkfortheanalysis
ofmicroarrayexpressiondata:regularized
t-test
andsta—
tisticalinferencesofgene
changes.Bioinformatics,2001,
17(6):509-5l9.
【3】SUNXiao.TheApplicationofRLanguageandBiocon-
ductorintheAnalysisofGenome.Beijing:Science
Press。
2006.115-131.
孙啸编著.R语言及Bioconductor在基因组分析中的应用.北京:科学出版社,2006,115一13t.
【4】NewtonMA,KendziorskiCM,RichmondCS.BlatmerFR,
Tsui
KW.Ondifferentialvariabilityofexpressionratios:im-
provingstatisticaliⅡferenceaboutgeneexpressionchangesfrommicroarraydata.JComput
Biol,2001,80):37—52.
【5】LonnstedtI,SpeedTP.Replicatedmicroarraydata.Stat
Sin,2002,12:3l-46.
【6】SmythGK.Linearmodelsandempiricalbayesmethods
forassessing
differential
expression
in
microarray
ex—
periments.StatApplGenet11401Biol,2004,3:Article3.
【7】TusherVGTibshiraniR,ChuGSignificanceanalysisofmi—
croarraysapplied
to
transcriptionalresponses
to
ionizingm-
diation.P坩cNatlAcadSciUSA,2001,98:5116--5121.【8】DudoitS,YangYH,SpeedTP,CallowMJ.Statistical
methodsfor
identifyingdifferentiallyexpressedgenesin
replicatedcDNAmicroarrayexperiments.StatSin,2002,12:lll-139.
【9】Pan、Ⅳ’Lin
J,LeC.AmixturemodeIapproach
to
detect・
ingdifferentiallyexpressedgeneswith
microarraydata.
FunctIntegr
Genemies,2003,3(3):117-124.
0】N『ykterM。AhoT'Ahdesm自ikiM,RuusuvuoriP'Lehmussola
A.Yli-Haria0.Simulationofmicroarraydatawithrealisticcharacteristics.BMCBioinformatics,2006,7:349.
SY'LeeJW,SohnIS.Comparisonofvariousstatis—
ticalmethodsforidentifyingdifferentialgeneexpressioninreplicatednficroarraydata.Stat
MethodsMedRes,2006,
15(11:3-20.
2】PerelmanE,PlonerA,CalzaS,PawitanY.Detectingdif-
ferentialexpressioninmicroarraydata:comparisonofop-timal
procedures.BMCBioinformatics。2007,8:28.
JS,YeasinM.Aunifiedframeworkforfindingdif-
ferentiallyexpressedgenesfrommicroarrayexperiments.
BMCBioinformatics,2007,8:347.
L,TaylorRC,LeachSM,SimonR.GEST:agene
expressionsearchtool
based
onanovel
Bayesiansimilarity
metric.Bioinformatics,2001,17(Suppl.1):S115-S122.
JGOlsonJM,TapscottSJ,ZhaoLP.Anefficient
androbuststatisticalmodelingapproach
to
discoverdif-
ferentiallyexpressedgenesusinggenomicexpressionpro-files.GenomeRes,200l,ll(7):1227-1236.
comparativereviewofstatisticalmethodsfor
discoveringdifferentiallyexpressedgenesinrepficatedmi-croarray
experiments.Bioinformatics,2002,18(4):546-554.
【17】CraigBA,BlackMA,DoergeRW.Geneexpressiondata:
thetechnologyandstatisticalanalysis.JAgricBiolEnvi・
ron
Stat。2003。8:1-28.
【18】GilesPJ。KiplingD.Normalityofoligonucleotidemi・
croarraydataandimplicationsforparametricstatistical
analyses.Bioinformatics。2003。19(17):2254—2262.
[19】LiuL,HawkinsDM,GhoshS,YoungSS.Robustsingular
valuedecompositionanalysisofmicroarraydata.Proc
NatlAcadScf
U趴,2003,100(23):13167-13172.
[20】ZhaoYPanW.Modifiednonparametricapproaches
to
de-
tectingdifferentiallyexpressedgenesinreplicatedmicroarray
experiments.Bioinformatics,2003,19(9):1046一1054.【21】NeuhauserM,SenskeR.111eBaumgartner-Weip—Schindler
test
forthedetectionofdifferentially
expressedgenesin
replicated
microarray
experiments.Bioinformatics,2004,
20(18):3553-3564.
【22】http:Hwww.r-project.ore,/.
【23】AnderssonA,KeskitaloJ,Sj6dinA,BhaleraoR,SterkyF'
WisselK,TandreK,AspeborgH,MoyleR,OhmiyaY'
BhaleraoR,BrunnerA,GustafssonP'KarlssonJ.Lunde-bergJ,NilssonO,Sandberg
GStraussS,SundbergB,
Uhlen
M,JanssonS,NilssonP.Atranscriptionaltimetable
ofautumnsenescence.GenomeBiol,2004,5(4):R24.【24】BaldiP,WesleyHG.DNAMicroarraysandGeneExpres—
sion:FromExperiments
to
DataAnalysis
and
Modeling.
UK:CambridgeUniversityPress,2002,125—143.
[25】EfronB,TibshiraniR,StreyJD,Tusherv.Empirical
Bayesanalysis
of
a
microarray
experiment.JAmStat
Assoc,200l,96:1151-1160.
BrobergP.Statisticalmethodsfor
rankingdifferentially
expressedgenes.GenomeBiology,2003.4(6):R41.
GR,LiuJM,StoeckertCJ.Apracticalfalsediscov-
cry
rate
approach
to
identifyingpatternsofdifferential
expressionin
microarray
data.Bioinformatics。2005,
21(11):2684-2690.
GR,LiuJM。StoeckertJrCJ.PaGE5.1Technical
Manual.2004.http://www.cbil.upenn.edu/PaGE/doc/perl/
PaGE——5.1_documentation.html.
E,GrantGR,McKenzieSE,OvertonGC,Sur-
myS,StoeckertCJ.Generationofpatternsfromgeneex—pressiondatabyassigningconfidenceto
differentially
ex—
pressed
genes.Bioinformatics,2000,16(8):685-698.
WitE,McClureJ.StatisticsforMicroarrays:Design,
Analysis,and
Inference.England:JohnWiley&Sons,Ltd
Press,2004,189—190.
l】ZimmermanDW,ZumboBD.TheRelativePowerofPa-
rametricandNonparametricStatisticalMethods.In:Keren
GLewisC,eds.AHandbookforDataAnalysisinthe
Behavioral
Sciences:MethodologicalIssues.Lawrence
ErlhaumAssociates,Hillsdale,NJ,1993,481-517.
RC,HigginsJJ.AcomparisonofthepowerofWil-
coxon’s
rank.samstatistic
tothatofStudent’ststatistic
undervariousnon-normaldistributions.EduStat,1980,
5(4):309—335.
[261【l【ll】Kim【27】Grant【28】Grant【l【29】Manduchi【13】Shaik1301
[14】Hunter【3【15】Thomas【32】Blair【16】Pan、Ⅳ.A
基因芯片筛选差异表达基因方法比较
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
单文娟, 童春发, 施季森, SHAN Wen-Juan, TONG Chun-Fa, SHI Ji-Sen南京林业大学国家林业局、江苏省林木遗传和基因工程重点实验室,南京,210037遗传
HEREDITAS 2008,30(12)0次
参考文献(32条)
1. Brent R Genomic biology 2000(01)
2. Baldi P. Long AD A Bayesian framework for the analysis of microarray expression data:regularized t-tost and statistical inferences of gene changes 2001(06)3. 孙啸 R语言及Bioconductor在基因组分析中的应用 2006
4. Newton MA. Kendziorski CM. Richmond CS. Blattner FR Tsui KW On differential variability of expressionratios:improving statistical inference about gene expression changes from microarray data 2001(01)5. Lonnstedt I. Speed TP Replicated microarray data 2002
6. Smyth GK Linear models and empirical bayes methods for assessing differential expression inmicroarray experiments 2004
7. Tusher VG. Tibshirani R. Chu G Significance analysis of microarrays applied to transcriptionalresponses to ionizing radiation 2001
8. Dudoit S. Yang YH. Speed TP. Callow MJ Statistical methods for identifying differentially expressedgenes in replicated cDNA microarray experiments 2002
9. Pan W. Lin J. Le C A mixture model approach to detecting differentially expressed genes withmicroarray data 2003(03)
10. Nykter M. Aho T. Ahdesmaiki M. Ruusuvuori P Lehmussola A Yli-Harja O Simulation of microarray datawith realistic characteristics 2006
11. Kim SY. Lee JW. Sohn IS Comparison of various statistical methods for identifying differential geneexpression in replicated microarray data 2006(01)
12. Perelman E. Ploner A. Calza S. Pawitan Y Detecting differential expression in microarraydata:comparison of optimal procedures 2007
13. Shaik JS. Yeasin M A unified framework for finding differentially expressed genes from microarrayexperiments 2007
14. Hunter L. Taylor RC. Leach SM. Simon R GEST:a gene expression search tool based on a novel Bayesiansimilarity metric 2001(Suppl.1)
15. Thomas JG. Olson JM. Tapscott SJ. Zhao LP An efficient and robust statistical modeling approach todiscover differentially expressed genes using genomic expression profiles 2001(07)
16. Pan W A comparative review of statistical methods for discovering differentially expressed genesin replicated microarray experiments 2002(04)
17. Craig BA. Black MA. Doerge RW Gene expression data:the technology and statistical analysis 200318. Giles PJ. Kipling D Normality of oligonucleotide microarray data and implications for parametric
statistical analyses 2003(17)
19. Liu L. Hawkins DM. Ghosh S. Young SS Robust singular value decomposition analysis of microarray data 2003(23)
20. Zhao Y. Pan W Modified nonparametric approaches to detecting differentially expressed genes inreplicated microarray experiments 2003(09)
21. Neuhauser M. Senske R The Baumgartner-Wei β-Schindler test for the detection of differentiallyexpressed genes in replicated microarray experiments 2004(18)22. 查看详情
23. Andersson A. Keskitalo J. Sjrdin A. Bhalerao R,Sterky F,Wissel K,Tandre K,Aspeborg H,Moyle R,OhmiyaY,Bhalerao R,Brunner A,Gustafsson P,Karlsson J,Lundeberg J,Nilsson O,Sandberg G,Strauss S,SundbergB,Uhlen M,Jansson S,Nilsson P A transcriptional timetable of autumn senescence 2004(04)24. Baldi P. Wesley HG DNA Microarrays and Gene Expression:From Experiments to Data Analysis andModeling 2002
25. Efron B. Tibshirani R. Strey JD. Tusher V Empirical Bayes analysis of a microarray experiment 200126. Broberg P Statistical methods for ranking differentially expressed genes 2003(06)
27. Grant GR. Liu JM. Stoeckert CJ A practical false discovery rate approach to identifying patterns ofdifferential expression in microarray data 2005(11)
28. Grant GR. Liu JM. Stoeckert Jr CJ PaGE 5.1 Technical Manual 2004
29. Manduchi E. Grant GR. McKenzie SE. Overton GC Surrey S Stoeckert CJ Generation of patterns from geneexpression data by assigning confidence to differentially expressed genes 2000(08)30. Wit E. McClure J Statistics for Microarrays:Design,Analysis,and Inference 2004
31. Zimmerman DW. Zumbo BD The Relative Power of Parametric and Nonparametric Statistical Methods 199332. Blair RC. Higgins JJ A comparison of the power of Wilcoxon's rank-sum statistic to that ofStudent's t statistic under various non-normal distributions 1980(04)
相似文献(10条)
1.学位论文 张雯 过氧化氢在合作杨株间伤信号传导中作用的研究 2006
本研究以合作杨(P.simonii×P.pyramidalis‘Opera 8288')为实验材料,采用杨扇舟蛾幼虫取食、茉莉酸甲酯熏蒸以及用抑制剂处理昆虫取食叶片三种方式,检测了受伤植株及受伤邻近健康植株中过氧化氢含量、相关防御性酶活性及基因的变化情况,主要分析了在虫害诱导的抗性防御反应中,过氧化氢作为植株间伤信号分子在信息传导中的作用.
结果表明:昆虫取食后,虫咬叶、虫咬植株上的完整叶、邻近健康植株上的熏蒸叶中过氧化氢的含量均有明显的升高,相应的酶活性也可被系统性的诱导,说明在植株内部及植株间存在传递抗性信息的信号转导途径;用质膜NADPH氧化酶抑制剂DPI处理虫咬叶片后,可以显著抑制虫咬诱导的过氧化氢进发,与之相关的抗氧化酶类活性也随之下降,说明过氧化氢作为第二信使在植株间的伤信息传递中起着作用.
茉莉酸信号传导途径在植物防御反应中有着重要的作用,对植株用茉莉酸甲酯熏蒸后,可诱导植株产生与昆虫取食类似的反应一叶片过氧化氢含量有明显的提高,同时对POD、PPO、PAL等直接防御物质有显著的诱导作用,进而证明了茉莉酸甲酯是伤信息在植株间传递的报警信号分子之一.
本研究首次运用含有杨树全基因组序列探针的Affymetrix GeneChipPoplar Arrav芯片,检测合作杨叶片在杨扇舟蛾幼虫取食1h前后的基因表达变化.昆虫取食后,共有334个基因诱导上调,569个基因诱导下调,根据功能注释结果对诱导表达的基因进行分类,主要包括新陈代谢相关基因、光合电子传递相关基因、转运调控基因、信号传导相关基因、氧化胁迫相关基因、次生代谢相关基因及大量的功能未知基因.它们通过复杂的相互作用激发植物的防御反应,从而表现为抗性.本研究从全基因组的角度去研究虫害诱导的杨树抗性反应,为我们下一步探讨植物抗虫机制以及植物一昆虫相互作用提供了理论基础.
2.学位论文 单文娟 基因芯片数据分析方法比较 2008
本研究以比较分析基因芯片数据分析方法不同特征为目的,从三个方面进行研究:差异表达基因筛选方法的比较、p值的校正和不同相似性度量方法对聚类分析的影响。
计算机模拟数据分析结果表明所使用的八种差异表达基因筛选方法对均匀和正态分布数据中的差异表达基因有较好的识别作用,而对卡方和指数分布的数据识别效果较差;算法方面,SAM方法和Wilcoxon秩和检验方法比较好。杨树cDNA芯片数据分析结果表明SAM、Samroc和回归模型方法有较多的共同点。
p值校正方法中的Bonferroni法、Holm法和Benjamini & Hochberg假阳性率法过于保守,Permutation方法和Bootstrap方法则能起到减少假阳性率的目的。
马氏距离和欧式距离;在非距离矩阵方法中,Cosine相关系数方法最佳。在PAM聚类分析中,距离矩阵方法的差别不大:非距离矩阵方法(非中心化Pearson相关系数除外)的聚类结果均优于距离矩阵。
基于以上研究结果,我们建议使用SAM、Samroe、Wileoxon秩和检验或回归模型方法筛选差异表达基因:建议使用Permutation方法或Bootstrap方法校正p值;建议使用标准化欧式距离、Cosine相关系数或Pearson相关系数作为聚类分析时的相似性度量方法。
3.期刊论文 赵继兴. Zhao Jixing 从杨树基因组表达谱芯片数据中挖掘树木生长发育规律的研究 -安徽农学通报2010,16(6)
杨树是林木的模式树种,也是第1个完成全基因组测序的树种.杨树基因组计划推动了杨树基因芯片技术的不断改进和完善,通过结合统计学、信息学与传统生物学的方法与技术,对芯片数据进行深度挖掘和分析,使得基因组进化、木材形成、激素代谢、开花和休眠等研究领域进入如火如荼的发展阶段.
4.学位论文 王敏杰 毛白杨维管系统再生过程中的基因表达分析 2005
本文为研究木材形成关键发育时期的分子生物学事件,以毛白杨(Populustomentosa)为研究对象,利用大面积树皮环剥的方法建立能模拟自然的维管形成层细胞发生和分化的维管再生实验系统,并结合扣除杂交技术、基因芯片方法分析了维管再生过程中的差异基因表达谱。主要结果如下:
建立了毛白杨维管再生实验系统。愈伤形成层在剥皮后第10天开始发生,第14天左右形成,第18天已观察到形成层细胞的分化,而第22天时已经分化出完整的木质部和韧皮部。整个再生过程仅需3到4周的时间。因此,再生实验系统包括了这些关键的发育转换期,将导致基因表达发生显著的变化。 利用抑制性扣除杂交技术建立了毛白杨形成层区域vs叶片组织的扣除cDNA文库,并藉此制备了包含1,197个基因片段的cDNA芯片。然后与毛白杨剥皮后不同时期样品进行杂交、比较分析,共得到227个在维管组织不同再生阶段差异表达的基因,测序后与杨树基因组数据库和EST数据库检索分析,初步鉴定了差异表达基因的生物学功能。
在维管系统再生过程的形成层组织发生和发育期,差异表达基因包括钙调素、生长素诱导蛋白、可能与维管系统发育相关的nodulin蛋白、一些具体功能未知的转录因子和信号转导分子以及初生壁相关的细胞壁相关蛋白,如扩张蛋白、伸展蛋白、富羟脯氨酸糖蛋白、羟甲基转移酶、富脯氨酸糖蛋白等。而在维管系统再生过程到了维管形成层分化出木质部和韧皮部的关键时期,差异表达基因包括可能与形成层发育和分化相关的MYB家族等转录因子、蛋白激酶等信号转导分子。
拟南芥在诱导的情况下也能进行一定程度的次生生长,能表达木本植物木材形成相关的关键基因。利用拟南芥ATH1全基因芯片分析了毛白杨维管再生过程差异基因表达谱。通过连续样品两两比较分析,得到了差异表达的149个基因,通过序列样品比较和SOM聚类分析,得到了368个在整个维管系统再生过程中表达模式发生显著变化的基羽。
可能参与形成层发生、发育和分化以及木质部发育相关的基因,包括生长素诱导蛋白,蛋白激酶、G蛋白等信号转导相关蛋白,MYB、AP2、锌指结构域等转录因子等基因表达和调控因子的基因,也包括纤维素、果胶及其它细胞壁多糖生物合成相关基因以及扩张蛋白、伸展蛋白、富含羟脯氨酸糖蛋白等细胞壁蛋白基因。其分析结果与自制cDNA芯片杂交分析结果有一定的相似性,说明了基因芯片跨物种杂交分析同样能够获得基因特异表达的信息。 本研究找到这些可能参与木材形成的相关基因,为利用拟南芥相应基因突变体分析、单基因表达分析、以及转基因技术鉴定、分离到决定木材形成的重要基因或关键基因奠定了基础,并为材性改良的基因工程育种提供理论基础及基因资源。
5.期刊论文 郭丽霞. 宁德娟. 马群. 丁明全. 侯佩臣. 沈昕. GUO Li-xia. NING De-juan. MA Qun. DING Ming-quan. HOU Pei-chen . SHEN XI 一种适合杨树RNA提取的方法 -吉林林业科技2007,36(2)
本试验为三种杨树材料建立了一种杨树RNA提取的方法.本方法具有充分抑制材料中的多酚褐化,提高RNA产率;最大限度地去除多糖及次生代谢物质,避免与RNA共沉淀;去除蛋白质和DNA污染;提取时间短,质量高等特点.通过本方法提取的RNA OD260/OD280值在1.9~2.0之间,能够完全满足后续实验的要求,如体外翻译、cDNA文库构建、基因芯片和DDRT-PCR等.
6.学位论文 马群 胡杨根和叶基因表达谱的微阵列分析 2007
胡杨(Populus euphratiea Oliver)是一种抗逆性极强的树种,本研究以2年生胡杨实生苗为研究材料,通过微阵列分析比较胡杨根和叶的基因表达谱,为解析胡杨组织特异性表达的基因,及它们对盐胁迫的响应奠定基础.研究中,我们以NaCl溶液处理的叶和根做为对比的材料,分别制备了样本总RNA,采用Affymetrix公司的杨树表达谱芯片(Afrymetrix GeneChip Poplar Genome Array),对盐胁迫下胡杨叶片和根系的表达谱进行了微阵列分析,在微阵列数据的基础上,对胡杨根和叶中特异性表达的基因进行了统计和功能注释,旨在认识和了解胡杨基因组中组织特异性表达基因的功能,及胡杨根和叶在响应盐胁迫上的差异.实验结果显示,根和叶中转录水平相差100倍以上的基因共有23个,其中18个基因在叶中表达上调,5个基因在根中表达上调;信号值差异50至100倍的共有30个基因,在叶中表达上调的有19个基因,在根中表达上调的基因共有11个;信号值差异20至50倍的基因共有49个,在叶中表达上调的有38个,在根中表达上调的基因有11个;信号值差异10至20倍的共有57个基因,在叶中表达上调的有37个基因,在根中表达上调的基因共有20个.与光和作用相关的蛋白编码基因在叶中表达明显上调,而参与抗氧化胁迫有关的基因在根中表达上调更为显著.未发现与拟南芥根系发育相关基因的同源物.
7.期刊论文 雷平. 杨树源. 张建宁. 杨新宇. 朱涛. 雪亮. 刘辉 利用寡核苷酸基因芯片筛选人脑创伤的差异表达基因 -中华实验外科杂志2006,23(12)
目的 检测人创伤脑组织与正常脑组织凋亡相关基因表达谱的差异,筛选差异表达基因.方法 利用含325个人凋亡相关类基因的寡核苷酸基因芯片,分别检测6例创伤脑组织与正常脑组织的差异表达基因.结果 6例创伤脑组织共同差异表达的凋亡相关类基因数为5个,均表达上调.结论 基因芯片筛选出在以前的脑创伤文献中未曾报道过的凋亡相关类基因2个,对其干预有望成为脑创伤防治的新的分子生物学策略.
8.学位论文 张新叶 杨树抗黑斑病相关基因表达谱分析 2005
表达序列标签(EST)和基因芯片技术是功能基因组学中常用的高通量研究方法。本研究同时运用这两种高通量技术,从基因表达整体水平研究杨树在黑斑病菌致病过程中的抗病机制,可为杨树抗黑斑病育种提供理论依据。
本研究对2个杨树叶片cDNA文库随机挑取克隆进行5’端测序,共获得有效EST序列20023条,并递交至GenBank数据库,登录号从CX167465到
CX187487。序列经拼接后,获得10816个UniGene,其中3734个Contig,7082个Singletons。8853个具有同源性匹配序列的基因中,按照GO的分子功能、生物过程和细胞组分三个不同分类角度分类,被赋予功能的基因数累计达21100个。经对所有具有功能的基因研究发现,有两类基因的含量较高,一类是杨树叶片组织特异性相关的基因,另一类是杨树叶片受外界胁迫表达的抗逆相关基因。
在本实验从3734个Contigs中得到94个碱基替代型侯选SNP,39个插入缺失型侯选SNP。利用SSRFinder软件,从10816条一致性序列中发现713个候选SSR标记,类型达191种。
EST序列是制备cDNA芯片的良好基因资源,本实验根据EST序列的注释结果,挑取3000个克隆进行了cDNA芯片制备,并利用此cDNA芯片,对黑斑病菌诱导不同时间的杨树叶片进行了基因表达谱分析。结果表明差异表达的基因主要为参与蛋白合成、细胞防卫反应及信号传导等基因。
9.期刊论文 雷平. 张建宁. 杨新宇. 朱涛. 雪亮. 刘辉. 杨树源. LEI Ping. ZHANG Jian-ning. YANG Xin-yu. ZHU Tao. XUE Liang. LIU Hui. YANG Shu-yuan 利用基因芯片筛选人颅脑创伤皮层的差异表达基因 -中华神经外科杂志2007,23(7)
目的 检测人创伤大脑皮层与正常大脑皮层基因表达谱的差异,筛选差异表达基因,寻找脑创伤基因治疗的新靶点.方法 利用含21 329个基因的人全基因组寡核苷酸芯片,检测5例创伤大脑皮层组织与1例正常对照的差异表达基因.并随机挑选2个差异表达基因做定量聚合酶链反应(PCR)验证.结果 5例创伤脑组织共同差异表达的基因数为87个,其中上调的60个,有16个功能未知或为表达序列标签(ESTs)片段,44个分属于12类功能;下调基因27个,有20个功能未知或为EST片段,7个分属于4类功能.定量PCR验证结果提示芯片结果可信.结论 基因芯片筛选出的人创伤大脑皮层的差异表达基因大部分在以前的颅脑创伤文献中未曾报道,对其干预有望成为颅脑创伤基因治疗的新靶向.
10.学位论文 雷平 基因芯片筛选人脑创伤皮层差异表达基因的实验研究 2006
目的:检测人创伤大脑皮层与正常大脑皮层基因表达谱的差异,筛选差异表达基因,寻找脑创伤防治的新的分子生物学策略。
方法:1.收集5例我院神经外科因脑创伤后行颅内减压手术时清除的挫裂伤灶缘相当于伤灶周围水肿区的脑额叶皮层组织,显微镜下清除软膜及血管。受伤至手术取材时间均在48小时内。Trizol一步法提取组织总RNA,并用RNeasyminispincolumn过柱纯化,最后用分光光度计定量,甲醛变性胶电泳质检。正常对照的人脑皮层总RNA购自美国Ambion公司。T7promoter-Oligo(dT)15为引物,用cDNASynthesisKit合成双链cDNA,双链合成以后用
QIAquickPCRPurificationKit纯化。用T7RiboMAXRNA大量产物系统将双链cDNA进行体外转录合成cRNA。用SuperscriptⅡ反转录酶,随机引物进行反转录,再纯化。再以随机引物进行cDNA的KLENOW酶标记,创伤脑组织掺入Cy5-dCTP、正常对照脑组织掺入Cy3-dCTP。预先用芯片点样仪在75mm×25m、经过氨基修饰的载玻片上点制21,329条70mer长度的相关基因对应的探针,另外还点上人类的12个看家基因作为阳性对照,12条人工合成的与人基因没有同源性的70mer作为阴性对照,及酵母的8个基因作为基因芯片外标对照。荧光素标记的cDNA探针和芯片在杂交液中42℃杂交过夜,然后洗脱、甩干。最后用LuxScan双通道激光扫描仪扫描。采用GenePixPro4.0图像分析软件读取数据,删除弱点和坏点,用Lowess方法归一化数据及校正;将归一化和校正后的Cy-5/Cy-3值作为差异判别的ratio值,最后以ratio值大于2或小于0.5(即两倍的标准)来确定差异表达基因;
2.随机挑选4个共同差异表达的基因做荧光定量PCR验证;
3.用RT-PCR方法扩大样本验证芯片筛选出的差异表达基因spp1、cyr61、plscr1在人脑创伤皮层中的表达情况。
结果:1.T1vsN芯片上表达基因总数为8828个,T2vsN芯片上表达基因总数为9911个,T3vsN芯片上表达基因总数为9213个,T4vsN芯片上表达基因总数为9078个。按照2倍变化的判定标准,T1vsN芯片上T1与N差异表达的基因数为362个(4%),其中表达上调的为210个,下调的为152个;T2vsN芯片上T2与N差异表达的基因数为476个(5%),其中表达上调的为249个,下调的为227个;T3vsN芯片上T3与N差异表达的基因数为627个(7%),其中表达上调的为381个,下调的为246个;T4vsN芯片上T4与N差异表达的基因数为973个(11%),其中表达上调的为573个,下调的为400个;T5vsN芯片上T5与N差异表达的基因数为1757个(20%),其中表达上调的为823个,下调的为934个。在5张芯片上共同差异表达的基因数为87个,其中表达上调的为60个,下调的为27个。上调的60个基因中,16个为未知功能类或EST片段,44个为已知功能类基因,分属于12类功能基因,其中,主要为代谢类(26个),应激反应类(12个),凋亡类(9个),信号类(9个)等为主;下调的27个基因中,20个为未知功能类或EST片段,7个为已知功能类基因,分属于4类功能基因,其中,以代谢类为主(6个);
2.随机挑选的4个共同差异表达基因的荧光定量PCR值和芯片数据基本吻合;
3.RT-PCR检测发现基因芯片筛选出的表达上调的基因spp1、cyr61、plscr1在29例人脑创伤皮层中均表达明显上调。
结论:1.基因芯片能高效地筛选出人脑创伤后大脑皮层的差异表达基因,且实时定量PCR原样本验证证实了该芯片数据准确性,RT-PCR扩大样本验证证实了该芯片结果具有代表性。
2.经在pubmed上对这些共同差异表达的基因逐个检索,发现所有下调的基因在以前的脑创伤文献中未有提及,上调基因中也仅少部分被报道过,如cd44、ccl2、tieg、vegf、cd14、idha、xbp1、egr1、rgs2、fos、il-1b、timp1、gadd45a、cdknla、cnn3等。
3.本研究发现的以前脑创伤文献未报道过的基因中,通过其它研究推测在脑创伤后其表达上调可能导致脑损伤或可能起脑保护作用的基因有clic1、plscr1、cyr61、bag3、gbe1、tlr2、spp1等基因,而其它在脑创伤中表达变化的基因的意义还待进一步研究。对本研究中筛选出的以前在脑创伤中未曾关注过的基因实施干预,有望成为脑创伤防治的新的分子生物学策略。
本文链接:http://d.g.wanfangdata.com.cn/Periodical_yc200812020.aspx
授权使用:西安交通大学(xajtdx),授权号:97e91bf4-a078-4496-aa4d-9e9900adb4e7
下载时间:2011年3月1日
遵ISS付NHEREDITAs(Beijing.)2008年-.120253-9772
WWWchinagenecn月,3。‘12):164。一1646
.
.
技术与方法及小习万灞
DOI:lO.3724,SP.J.1005.2008.01640
基因芯片筛选差异表达基因方法比较
单文娟,童春发,施季森
南京林业大学国家林业局、江苏省林木遗传和基因工程重点实验室,南京210037
摘要:使用计算机模拟数据和真实的芯片数据,对8种筛选差异表达基因的方法进行了比较分析,旨在比较不同方法对基因芯片数据的筛选效果.模拟数据分析表明,所使用的8种方法对均匀分布的差异表达基因有很好
的识别、检出作用。算法方面,SAM和Wilcoxon秩和检验方法较好;数据分布方面,正态分布的识别效果较好,
卡方分布和指数分布的识别效果较差。杨树cDNA芯片分析表明,SAM、Samroc和回归模型方法相近,而
Wilcoxon秩和检验方法与它们有较大差异.
关键词:基因芯片;杨树;差异表达
Comparisonofstatisticalmethodsfordetectingdifferentialexpres-
sioninmicroarraydata
SHAN
Wen—Juan,TONGChun-Fa,SHIJi—Sen
EngineedngoftheStateAdministrationandJiangsuProvince,NanfingForestryUniver-
TheKeyLaboratoryofForestGeneticsandGene
Jl砂,Na可mg210037,ChinaAbstract:DNAm/croarrayis
a
newtoolinbiotechnology,whichallowssimultaneouslymonimdngthousandsofgene
to
expressionincells.Thegoalofdifferentialgeneexpressionanalysisis
pressionlevels
detectgeneswithsignificantchangeofgene
to
ex・
arisingfromexperimentalconditions.Althoughvariousstatisticalmethodshavebeensuggested
a
confirm
differentialgeneexpression,only
fewstudies
comparedperformanceofthestatisticalmethods.Thispaperpresented
comparisonofstatisticalmethodsforfindingdifferentiallyexpressedgenes(DEGs)fromthemicroarraydata.Usingsimu—
latedandreal
datasets(PopuluscDNAmicroarrayOat.),wecomparedeightmethodsofidentifyingdifferentialgene
ex-
pression.ThesimulatedOatasetsincludedfourdifferentialdistributions(nomlaIbufion,andexponentialdistribution).TheresultsofsimulatedOatasetsanalysis
distributionandexponentialdistribution.Ofthese
coxon
distribution,uniformdistribution,X2disai—
showedthattheeightmethods
not
Weremore
preferablewiththemicroarraydataofuniformdistributionthannormaldistribution.Theywerepreferablewithtlle矿
eightmethods。SAM(Significancemodelingapproach.Wflcoxon
better
Analysisof
Microarrays)andWil—
ranksum
test
performedwell
modeling
inmostcases.TheresultsofrealcDNAmicroarraydataofPopulusshowedthatthere
rank
WasmuchsimilarityofSAM,Samroc,andregressionSamrocandregression
approachwere
sumtestWaSdifferentfromthem.
similarintheeightmethods.Forbothsimulatedandrealoatasets,SAM,
thanothermethods.
Samroe,andregressionmodelingapproachperformed
Keywords:microarray;Populus;differentialexpression
收稿日期:2008--03—19;修回日期:2008--08—31
基金项目:江苏省自然科学基金“重要模式树种(杨树和杉木功能基因组学研究)”项目(编号:BK2003213)资助[Supportedby
FoundationofJiangsu
theNaturalScience
Province(No.BK2003213)】
作者简介:单文娟(1982一)'女,硕士研究生,专业方向:生物信息学。E.mail:fanzi03@163.com
通讯作者:旅季森(1952-)。男,教授,博士生导师.研究方向:林木遗传育种、林木基因组学等研究。E・mail."jshj@njfu.edu.cn
第12期
单文娟等:基因芯片筛选差异表达基因方法比较
1641
基因芯片技术是随着“人类基因组计划”(Human
genome
project,HGP)发展起来的一项新技术,可广
泛应用于基因序列分析、基因突变检测和多态性分析以及疾病的基因诊断等领域。基因芯片技术可以同时检测生物样本成千上万个基因的表达水平,从而得到基因组水平的基因表达谱数据。通过对这些数据的分析,能够了解基因的功能甚至基因之间的相互作用。为了达到这一目的,最关键的步骤是从表达谱中筛选出潜在的差异表达基因…,常用的是两种不同实验条件下差异表达基因的筛选。不同的实验条件包括:不同的生物组织、不同的试剂或药物处理、不同的发育时期、不同的实验处理等。
基因表达数据可以在3个层次上加以分析:(1)单基因水平,即分析基因在两种实验条件之间的差异;(2)分析功能相似的基因及基因之间的相互作用、共调控等;(3)基于基因网络及蛋白质网络的研究【2】。本文只进行第一层次上单基因水平差异表达基因的研究。差异表达通常指一个基因在两种试验条件下表达水平值在排除实验、检测等因素后达到一定的差异,具有统计学意义,同时也具有生物学意义【3】。常用的统计方法包括参数方法和非参数方法两类。Newton等【41提出了用于分析差异表达的贝叶斯模型;Baldi和Long等【21使用了贝叶斯模型方案分析正态分布的数据;Lonnstedt和Speed【51使用了参数贝叶斯方法分析芯片数据,Smyth等【6】在此基础上提出了更加实用的系统模型。以上的参数方法都假设基因芯片数据服从正态分布,这种假设与实际情况存在差异。非参数方法直接估计检验统计量的分布情况,不对数据的分布做任何假设,在这一点上优于参数方法。非参数方法包括Tusher等f7】提出的SAM,Dudoit等‘8J提出的调整P值的■检验及Pan等191提出的混合模型方法(MMM)等。
Nykter等【10J指出由于目前缺乏生物学背景的准确信息,无法对各种算法进行有效的评价,因此使用已知样本数据特征的计算机模拟数据(Simulateddatasets)可以解决以上难题。计算机模拟数据根据实验的需要进行设计,是检测基因芯片数据分析方法的常用手段。模拟数据包括两部分:差异表达基因的模拟表达值和非差异表达基因的模拟表达值,具有两种或两种以上的实验条件(组织样本)及,1个仰≥3)生物学重复。差异表达基因一般占基因总数的
5%。根据Kim等㈣、Perelman等‘121和Shaik等1131
等的设计思想,以正态分布为例,非差异表达基因
在不同实验条件下其基因表达值的均值和方差都没有差异:而差异表达基因的均值都存在差异,方差可以相同也可以不同。
目前芯片模拟数据一般只考虑正态分布的情况,
如kim等…J比较了T.检验、B一统计量(B—statistic)、
贝叶斯T-检验3种参数方法和SAM、Samroc、
Zhao.Pan
3种非参数方法对正态分布的筛选效果。
Hunter等㈣、Thomas等【15】、Pan等¨引、Craig等㈣、
Giles等[181、Liu等‘191、Zhao和Pan等‘201指出,即使基因芯片表达数据经过预处理后仍然不满足正态分布。Neuhauser等[211使用了均匀分布、卡方分布、柯西分布和指数分布的数据对弘检验、Wilcoxon秩和检验、FP检验(Fisher-Pitman
permutation
test)、B检
验(Baumgartner-Wei13-Schindlertest)4种统计方法进行了分析。本文使用8种筛选差异表达基因方法(详见1.3)分别对4种分布的计算机模拟数据以及真实的芯片数据进行分析。参照Neuhauser所采用的数据分布,本文的芯片模拟数据包括正态分布、均匀分布、卡方分布和指数分布,以便全面分析各种方法对不同分布数据差异表达基因的识别情况。
1材料和方法
1.1模拟数据
使用R软件【22】生成模拟数据,包括4种分布:正态分布、均匀分布、卡方分布和指数分布。以正态分布为例,非差异表达基因的表达值设定3种方案,差异表达基因的表达值在对照样本和实验样本中也分别设定3种方案,详细方案见表l。我们产生10000个基因的表达数据,其中9500个为非差异表达基因数据,500个为差异表达基因数据。每个非差异表达基因的表达数据从已设定的3种方案中任取一种产生,共产生12个数据,前6个数据为实验(样本)数据,后6个为对照(样本)数据(说明:使用R软件模拟数据时为一次性同时产生6个符合条件的数据集,即一次性产生实验数据集或对照数据集)。同样,每个差异表达基因的表达数据从已设定的3对方案中任取一对,用表1实验栏中的分布产生6个数据作为实验数据,用表1对照栏中的分布产生6个数据作为对照数据。如果一个基因的12个数据占据一行,那么这120000个数据构成一个10000行12列的数据表格或矩阵,其中每列数据表示一个芯片上10000个基因的表达数据。该实验方案的生物学重复数为6。采用不同的统计方法对此分析,并记录分析结果。
1642
遗锫HEREDITAS(Beijing)2008
第30卷
表1模拟数据
Table1
Simulationdata
非差异表达基因
差异表达基因
genes
分布
Distribution
Non—differentiallyexpressedDifferentiallyexpressedgenes
实验
Experimentmean=-8,sd=0.4mean=一10。sd=0.8mean=-12。sd=1.0min=0。max-1.5min=1.5,max=2.5df=5。ncp=0
对照
Control
mean=-8,sd=0.4mean=-10,sd=0.8mean=-12,sd=1.0=in=0,max=1.5=in=I・5,max=2・5df=5,ncp=0dr=3,ncp=0df=5,ncp=0.5df=3,ncp=0.5rate=l
mte=lrate=1
实验
Experimentmean=一6,sd=0.2mean=一8,sd=0.4mean=-10,sd=0.8
对照
Control
mean=-6.1,sd=0.2mean=一8.5,sd=0-5mean=-1l,sd=1.0
正态分布’
Normaldistribution
I
咖Ⅱ:嚣嚣8m’
卡方分布
Z2distribution
r慧誓瓷ri.
mInilnn=:uo,.5,m::;.0
df=5。ncp=0df=5,ncp=0df-5,ncp=0
mi~n=0,maaxx“=1.;mi.n=0~.5,mmaaxx_2.=2.;
小耵m筐一篇生,只文
m
II
mirainn=:21.o'.u,淼三;;
户FF
df=3,ncp=Odf=5,ncp=0.5dr=3,ncp=0.5
指数分布
ExponentiMdistribu“on
rate=l
m昙|暑|II
盎;{”晒
注:‘正态分布数据的方案设计参照Kim等“11。
Note:’ThenormaldistributionsimulationdatabasedonKimetaL[111
以上所作的模拟相当于一次实际实验,所得结论不具有统计学意义,我们将以上模拟重复了500次,对每种分析方法统计500次并分析结果,以鉴别不同分析方法的优劣性。1.2真实芯片数据
出【7,1l】。SAM是非参数的统计方法,与P检验相似,为
了避免T-检验中由于方差太小而误判某基因为差异表达基因的不足,SAM在分母上增加了一个较小的正值;(4)Zhao和Pan方法∞I,非参数的统计方法,其关键在于估计检验统计量的零分布(NuUdistribution)Z。,
本文采用的真实芯片数据为Andersson等【23】发
表文章中的杨树cDNA芯片数据。该实验研究了杨树秋天叶片衰老的机制,芯片的13490个克隆是由7个cDNA文库中的36354个杨树EST序列拼接而成,其中有12376(92%)个功能已知。实验材料为瑞典北部生长期超过30年的雄性白杨树Aspen
(Populustremula)叶片,对照样本和实验样本的生物
并直接构建了零统计量(Nullstatistic)z,。非参数方法
的早期研究包括Efron的经典贝叶斯方法瞄J、Tusher的SAM[71、Pan的MMM方法191,Zhao和Pan指出它
们存在的一个共同问题是Z,及z,的分子与分母之间
都是非独立的,因此提出了新的Z,、Z,计算方法,详见参考文献[20l;(5)Samroc方法,由Brober91261提出,使用这一统计量的R语言软件是SAG网址http://home.swipnet.se/pibroberg;(6)回归模型方法
(Regressionmodelingapproach),Thomas等【D1于2001
学重复数分别为3和4。1.3差异表达基因筛选方法
使用以下8种筛选差异表达基因的方法:(1)T-检验(T-test)l¨】,是较常用的统计方法,用于判断某一基因在两个样本中其表达是否有显著性差异,不要求等方差;(2)贝叶斯弘检验(BayesT-test)伫・24],这种方法的最大优点是结合了一个基因样本间的差异和部分基因之间的差异信息,即对于某一基因方差的估计,既考虑到了基因本身样本间差异又利用了具有相似表达水平的部分基因(定义为邻近基因,Neighborhoodgene)的合并方差,且两者之间使用加权值,R语言开发的Cyber-T软件实现了这一统计量的应用,网址hap://www.genomics.uci.edu/;(3)SAM(Significanceana
lysisofmicroarrays)。由Tusher、Tibshirani和Chu提
年提出了这种鉴定两种不同实验条件差异表达基因的方法,其给出的回归方程不仅包括筛选差异表达基因部分,还包括数据的预处理部分,本文只讨论筛选差异表达基因部分;(7)PaGEt27'嘲,是使用perl语言编写的用于分析基因芯片表达谱数据的生物学软件,最初由Manduchi等提出【291,其界面简单,使用方便,该算法经过了不断改进,使用FDR估计置信水平,并对FDR的估计方法也给予了修改,使其估计值更加准确;(8)Wilcoxon秩和检验(Wilcoxon
ranksum
test),又称
Mann.Whitney检验口01,也是一种非参数的检验方法,该方法要比L检验更加稳健,更适合非正态分布的数据,要求两样本数据分布相同。
第12期单文娟等:基因芯片筛选差异表达基因方法比较
1643
2结果与分析
2.1模拟数据结果分析
由于模拟数据产生时差异表达基因占基因总数的5%’即10000个基因中有500个基因为差异表达基因,因此判断某一方法检测差异基因的有效性主要取决于:按统计量值排序后前500个基因中检测出的差异表达基因的个数和平均秩。表2中每项包含两个数据,如对应于正态分布和T-检验的数据为136.90、202.43,第一个数据表示按统计量(从大到小)排序,位于前500个基因中的差异表达基因总数,第二个数据表示这些差异表达基因的平均秩。例如F检验在分析正态分布的某个模拟样本数据时,按统计量值排序后前500个基因中差异表达基因检测到137个,这样分析500个模拟样本数据后得到的平均值为136.90;“202.43”表示500个模拟样本数据检测到的差异表达基因的平均秩的平均值为202.43,平均秩是指排在前500个基因中差异表达基因的秩和除以差异表达基因个数。筛选出的差异表达基因个数越多越好:而平均秩越低,则说明差异表达基因的排位越靠前,使用相应的检测方法筛选出差异表达基因的可能性越大。
对于正态分布,SAM和BayesT-test两种方法最佳,在前500个基因中都检测到了157个以上的差异表达基因,平均秩也较低。其次为Wilcoxon秩和检验、回归模型方法、弘检验和Samroe。PaGE的平均秩最小,但其检测到的差异表达基因个数较少。
对于均匀分布,所有方法的平均秩都在200左
表2模拟数据差异表达基因筛选结果
Table2
Screeningofdifferentiallyexpressedgenesin
右,差异不大,因此可以不考虑此值对检测效果带来的影响。SAM和PaGE两种方法最佳,在前500个基因中都检测到了较多的差异表达基因,约占差异表达基因总数的80%。其次为BayesT-test和Wilcoxon秩和检验,再次为回归模型方法、正检验和Samroc。
对于卡方分布,SAM最佳,检测到的差异表达基因数量较多且平均秩较低。其次为Wilcoxon秩和检验和BayesT-test。Wilcoxon秩和检验检测到的差异表达基因数量最多但平均秩最高;BayesT-test检测到的差异表达基因数量较少但其平均秩较低。再次为Samroe、回归模型方法和■检验。
对于指数分布,SAM最佳,检测到的差异表达基因数量最多且平均秩较低。Wilcoxon秩和检验检测到的差异表达基因数量也较多,但不足的是平均秩最高。PaGE的平均秩非常低,检测到的差异表达
基因数目与T-test、Samroc和回归模型方法相近,说
明PaGE要优于它们。与SAM相比较,PaGE的不足是检测到的差异表达基因偏少,这或许与其检测到的差异表达基因数目少有一定关系。
从整体上看,均匀分布的检测结果最好,Zhao—Pan检测到的差异表达基因最少,却也检测到了286个。占全部差异表达基因的57.2%。其次为正态分布,其余两种分布的检测结果都不佳,检测到的差异表达基因都不超过100个。为了充分考察筛选差异表达基因的各种方法,本文在设计模拟数据时差异表达基因与非差异表达基因的区别较小,但以上结果一定程度的说明八种差异表达基因筛选方
simulationdata
1644
遵付HEREDITAS(Beijing)2008
第30卷
法对均匀分布有很好的识别、检出作用,对正态分布识别效果较好,而对卡方分布和指数分布识别效果较差。
从检测方法来看,SAM最好,其次为Wilcoxon秩和检验。不足的是其平均秩有时较高。回归模型和T.检验对正态分布和均匀分布的检测结果非常相近。回归模型和Samroc对卡方分布和指数分布的检测结果非常相近,且这两种方法比较稳定,具有较好的检测结果。BayesT-test比较适合检测正态分布和均匀分布的数据。PaGE不适合检测卡方分布的数据。Zhao—Pan的检测结果平均秩一般较高,检测到的差异表达基因数目也较少。
2.2杨树cDNA芯片数据结果分析
Andersson等使用SAM对杨树cDNA芯片数据进行了差异表达基因的筛选,共得到874个差异表达基因。本文根据模拟数据分析的结果,采用了Wilcoxon秩和检验、回归模型和Samroc3种比较稳定的方法,对其3792个有显著表达的基因再次做了筛选分析。我们发现3种分析得到的差异表达基因个数都很多,均在2000个以上,于是我们根据统计量分别选取了排在前面的874个基因。结果表明,回归模型与SAM都检测为差异表达的基因共有649个;Samroc与SAM都检测为差异表达的基因共有687个:Wilcoxon秩和检验与SAM都检测为差异表达的基因共有381个;SAM、Samroc和回归模型3种方法都检测为差异表达的基因共有622个,占总数的7l%:SAM、Samroc、Wilcoxon秩和检验及回归模型4种方法都检测为差异表达的基因共有305个。以上结果说明SAM、Samroc和回归模型方法有较多的共同点,而Wilcoxon秩和检验方法与它们有较大的差异。
表3为SAM筛选到的排在前20位的基因在Samroc、Wilcoxon秩和检验和回归模型3种方法检测结果中的统计量值或P值及其秩。从表3可以看出,Wilcoxon秩和检验方法有一个缺点,由于它本身依靠排秩的方法来筛选基因,使得某些基因的统计量值相同,无法进一步区分它们。另外,Samroc和回归模型方法具有更大的相似性,例如它们都将
A024P46(clone
ID)排在了第一位,将1027P15排在
了第6位,还将F065P41、1004P59、1059P90都排在了百位之后。
3讨论
Kim等111J对模拟数据做分析时指出,在其研究的所有情况下SAM和Samroc表现最好,而且当样本数较小时Samroc比SAM更好。在本研究中SAM表现好再次得到证实,但其要明显好于Samroe,这或许与使用的生物学重复数不同有关,因为Kim所使用的小样本重复数为4,本文使用的重复数为6。Neuhauser等【2¨指出当生物学重复数为6及以上时,其所研究的4种方法才能够较好的筛选差异表达基因,这也正是本文生物学重复数为6的原因。另外,Kim只对正态分布的情况做了分析。他还指出,
Bayes
T-test在检测小样本数据时表现最好,弘检验
筛选差异表达基因的效果也不错。本文得出正态分布数据的分析结果与其相似,只是SAM的筛选结果
比BayesT-test更好。我们发现BayesT-test不稳定,
对卡方和指数分布的数据不敏感,对这两种分布数据的检测结果不太理想。
SAM、Samroc和回归模型方法在分析真实芯片数据时得到了比较理想的结果,但在分析卡方分布及指数分布的模拟数据时表现不佳,其原因应该与真实芯片数据的分布特征有关,因此对芯片数据的分布特征做一个简单的检测,再有针对性地选择适合相应分布的分析方法,或许有利于提高筛选差异表达基因的准确率。另外,SAM在4种分布中除了卡方分布的筛选结果没有达到最大外,其余3种分布均筛选到最多的差异表达基因,这可能与SAM通过调整A(SAM的一个统计量)的值来控制FDR以得到更准确的结果有关,并且可能与SAM算法的不断改进有关。根据Zimmerman等1311以及Blair等【32】的报道,Wilcoxon秩和检验方法要好于n检验,本文的结果与其相同,而且Wilcoxon秩和检验方法还是一种比较稳定的筛选方法。
本文研究发现,基因芯片数据经过分析后得到的差异表达基因的数量有时较多,这使得生物学家无法从分析结果中挑选自己感兴趣的基因,最简单的方法是根据统计量筛选适量的基因进行后续分析。另外可以使用多种方法分析,结果取其交集,这样可以一定程度上避免假阳性基因带给后期验证分析的麻烦。此外,研究数据分析方法的特点有助于做好数据挖掘工作,改进模拟数据方案有利于充分检验算法的特征,并推进基因芯片数据分析的发展。
n僻
一盆_州n
媳椒=《嫩椒u∞呈譬∞
堪椒剥鼙E匾
飨据积雷函埔
窆《∞Ⅱo昌口o求靶单钆
ogo∽
稻趸
l
∞暑写≯钆榉趸
_
鑫薹
榉羞_鑫薹
榉星
_
—m《N∞心o..。苗一王∞一一.N”●昏o毫口∞寸一●.幽卜N.一一峙硭寸口o蛤昏瓤h寸西.8●z6一山卜N寸一.田一●.∞寸心.No山。西o.崎乜6《田∞n●.一寸口n山口o卜.—研●
∞o‘寸n山U一∞≥
寸”;.穹
口夏寸N《No_∞‘n。苗_●《∞n山∞.蓦《
一n卜寸.一一●一寸山”口o£8小..●‰
口2
西n£I山寸o∞直N‘●._II口n寸厶寸【。钫一}.《∞N【●∞甘山n西一【●心厶∞n一
口n.∞●卜n口山∞n卜N心口‘●.—小心口∞_小口o.●∞≥.n£I寸卜山n。苗一王
《o∞一函山口o∞n£d寸NoH。西乱西n璺三j量莹量莹莹量§小oq.善蓉善詈e昏q.g夏虿景
摹8葛器兽8磊昌瓮当口一.寸^.口寸
.N
n寸.n∞卜∞西2=£12=:2=
∞口h寸.卜∞a一o£口田誊’.西●竺
o()0.0卜∞口8I
卜n
卜寸.—研●∞。
窭.∞∞c.卜nH气,昌
西∞o.oh_
卜n.,寸直器口.n导器.宝墨墨&罱8兰磊昌荨高2t"q
器譬器器霉器薯薯兽薯薯薯薯露罨兽
兽器留
兽
第12期
单文娟等:基因芯片筛选差异表达基因方法比较
1645万方数据
1646
遵付HEREDITAS(Beijing)2008
第30卷
参考文献(References):
【1】BrentR.Oenomicbiology.COZL2000,100(1):169一183.【2】BaldiP’LongAD.ABayesianframeworkfortheanalysis
ofmicroarrayexpressiondata:regularized
t-test
andsta—
tisticalinferencesofgene
changes.Bioinformatics,2001,
17(6):509-5l9.
【3】SUNXiao.TheApplicationofRLanguageandBiocon-
ductorintheAnalysisofGenome.Beijing:Science
Press。
2006.115-131.
孙啸编著.R语言及Bioconductor在基因组分析中的应用.北京:科学出版社,2006,115一13t.
【4】NewtonMA,KendziorskiCM,RichmondCS.BlatmerFR,
Tsui
KW.Ondifferentialvariabilityofexpressionratios:im-
provingstatisticaliⅡferenceaboutgeneexpressionchangesfrommicroarraydata.JComput
Biol,2001,80):37—52.
【5】LonnstedtI,SpeedTP.Replicatedmicroarraydata.Stat
Sin,2002,12:3l-46.
【6】SmythGK.Linearmodelsandempiricalbayesmethods
forassessing
differential
expression
in
microarray
ex—
periments.StatApplGenet11401Biol,2004,3:Article3.
【7】TusherVGTibshiraniR,ChuGSignificanceanalysisofmi—
croarraysapplied
to
transcriptionalresponses
to
ionizingm-
diation.P坩cNatlAcadSciUSA,2001,98:5116--5121.【8】DudoitS,YangYH,SpeedTP,CallowMJ.Statistical
methodsfor
identifyingdifferentiallyexpressedgenesin
replicatedcDNAmicroarrayexperiments.StatSin,2002,12:lll-139.
【9】Pan、Ⅳ’Lin
J,LeC.AmixturemodeIapproach
to
detect・
ingdifferentiallyexpressedgeneswith
microarraydata.
FunctIntegr
Genemies,2003,3(3):117-124.
0】N『ykterM。AhoT'Ahdesm自ikiM,RuusuvuoriP'Lehmussola
A.Yli-Haria0.Simulationofmicroarraydatawithrealisticcharacteristics.BMCBioinformatics,2006,7:349.
SY'LeeJW,SohnIS.Comparisonofvariousstatis—
ticalmethodsforidentifyingdifferentialgeneexpressioninreplicatednficroarraydata.Stat
MethodsMedRes,2006,
15(11:3-20.
2】PerelmanE,PlonerA,CalzaS,PawitanY.Detectingdif-
ferentialexpressioninmicroarraydata:comparisonofop-timal
procedures.BMCBioinformatics。2007,8:28.
JS,YeasinM.Aunifiedframeworkforfindingdif-
ferentiallyexpressedgenesfrommicroarrayexperiments.
BMCBioinformatics,2007,8:347.
L,TaylorRC,LeachSM,SimonR.GEST:agene
expressionsearchtool
based
onanovel
Bayesiansimilarity
metric.Bioinformatics,2001,17(Suppl.1):S115-S122.
JGOlsonJM,TapscottSJ,ZhaoLP.Anefficient
androbuststatisticalmodelingapproach
to
discoverdif-
ferentiallyexpressedgenesusinggenomicexpressionpro-files.GenomeRes,200l,ll(7):1227-1236.
comparativereviewofstatisticalmethodsfor
discoveringdifferentiallyexpressedgenesinrepficatedmi-croarray
experiments.Bioinformatics,2002,18(4):546-554.
【17】CraigBA,BlackMA,DoergeRW.Geneexpressiondata:
thetechnologyandstatisticalanalysis.JAgricBiolEnvi・
ron
Stat。2003。8:1-28.
【18】GilesPJ。KiplingD.Normalityofoligonucleotidemi・
croarraydataandimplicationsforparametricstatistical
analyses.Bioinformatics。2003。19(17):2254—2262.
[19】LiuL,HawkinsDM,GhoshS,YoungSS.Robustsingular
valuedecompositionanalysisofmicroarraydata.Proc
NatlAcadScf
U趴,2003,100(23):13167-13172.
[20】ZhaoYPanW.Modifiednonparametricapproaches
to
de-
tectingdifferentiallyexpressedgenesinreplicatedmicroarray
experiments.Bioinformatics,2003,19(9):1046一1054.【21】NeuhauserM,SenskeR.111eBaumgartner-Weip—Schindler
test
forthedetectionofdifferentially
expressedgenesin
replicated
microarray
experiments.Bioinformatics,2004,
20(18):3553-3564.
【22】http:Hwww.r-project.ore,/.
【23】AnderssonA,KeskitaloJ,Sj6dinA,BhaleraoR,SterkyF'
WisselK,TandreK,AspeborgH,MoyleR,OhmiyaY'
BhaleraoR,BrunnerA,GustafssonP'KarlssonJ.Lunde-bergJ,NilssonO,Sandberg
GStraussS,SundbergB,
Uhlen
M,JanssonS,NilssonP.Atranscriptionaltimetable
ofautumnsenescence.GenomeBiol,2004,5(4):R24.【24】BaldiP,WesleyHG.DNAMicroarraysandGeneExpres—
sion:FromExperiments
to
DataAnalysis
and
Modeling.
UK:CambridgeUniversityPress,2002,125—143.
[25】EfronB,TibshiraniR,StreyJD,Tusherv.Empirical
Bayesanalysis
of
a
microarray
experiment.JAmStat
Assoc,200l,96:1151-1160.
BrobergP.Statisticalmethodsfor
rankingdifferentially
expressedgenes.GenomeBiology,2003.4(6):R41.
GR,LiuJM,StoeckertCJ.Apracticalfalsediscov-
cry
rate
approach
to
identifyingpatternsofdifferential
expressionin
microarray
data.Bioinformatics。2005,
21(11):2684-2690.
GR,LiuJM。StoeckertJrCJ.PaGE5.1Technical
Manual.2004.http://www.cbil.upenn.edu/PaGE/doc/perl/
PaGE——5.1_documentation.html.
E,GrantGR,McKenzieSE,OvertonGC,Sur-
myS,StoeckertCJ.Generationofpatternsfromgeneex—pressiondatabyassigningconfidenceto
differentially
ex—
pressed
genes.Bioinformatics,2000,16(8):685-698.
WitE,McClureJ.StatisticsforMicroarrays:Design,
Analysis,and
Inference.England:JohnWiley&Sons,Ltd
Press,2004,189—190.
l】ZimmermanDW,ZumboBD.TheRelativePowerofPa-
rametricandNonparametricStatisticalMethods.In:Keren
GLewisC,eds.AHandbookforDataAnalysisinthe
Behavioral
Sciences:MethodologicalIssues.Lawrence
ErlhaumAssociates,Hillsdale,NJ,1993,481-517.
RC,HigginsJJ.AcomparisonofthepowerofWil-
coxon’s
rank.samstatistic
tothatofStudent’ststatistic
undervariousnon-normaldistributions.EduStat,1980,
5(4):309—335.
[261【l【ll】Kim【27】Grant【28】Grant【l【29】Manduchi【13】Shaik1301
[14】Hunter【3【15】Thomas【32】Blair【16】Pan、Ⅳ.A
基因芯片筛选差异表达基因方法比较
作者:作者单位:刊名:英文刊名:年,卷(期):被引用次数:
单文娟, 童春发, 施季森, SHAN Wen-Juan, TONG Chun-Fa, SHI Ji-Sen南京林业大学国家林业局、江苏省林木遗传和基因工程重点实验室,南京,210037遗传
HEREDITAS 2008,30(12)0次
参考文献(32条)
1. Brent R Genomic biology 2000(01)
2. Baldi P. Long AD A Bayesian framework for the analysis of microarray expression data:regularized t-tost and statistical inferences of gene changes 2001(06)3. 孙啸 R语言及Bioconductor在基因组分析中的应用 2006
4. Newton MA. Kendziorski CM. Richmond CS. Blattner FR Tsui KW On differential variability of expressionratios:improving statistical inference about gene expression changes from microarray data 2001(01)5. Lonnstedt I. Speed TP Replicated microarray data 2002
6. Smyth GK Linear models and empirical bayes methods for assessing differential expression inmicroarray experiments 2004
7. Tusher VG. Tibshirani R. Chu G Significance analysis of microarrays applied to transcriptionalresponses to ionizing radiation 2001
8. Dudoit S. Yang YH. Speed TP. Callow MJ Statistical methods for identifying differentially expressedgenes in replicated cDNA microarray experiments 2002
9. Pan W. Lin J. Le C A mixture model approach to detecting differentially expressed genes withmicroarray data 2003(03)
10. Nykter M. Aho T. Ahdesmaiki M. Ruusuvuori P Lehmussola A Yli-Harja O Simulation of microarray datawith realistic characteristics 2006
11. Kim SY. Lee JW. Sohn IS Comparison of various statistical methods for identifying differential geneexpression in replicated microarray data 2006(01)
12. Perelman E. Ploner A. Calza S. Pawitan Y Detecting differential expression in microarraydata:comparison of optimal procedures 2007
13. Shaik JS. Yeasin M A unified framework for finding differentially expressed genes from microarrayexperiments 2007
14. Hunter L. Taylor RC. Leach SM. Simon R GEST:a gene expression search tool based on a novel Bayesiansimilarity metric 2001(Suppl.1)
15. Thomas JG. Olson JM. Tapscott SJ. Zhao LP An efficient and robust statistical modeling approach todiscover differentially expressed genes using genomic expression profiles 2001(07)
16. Pan W A comparative review of statistical methods for discovering differentially expressed genesin replicated microarray experiments 2002(04)
17. Craig BA. Black MA. Doerge RW Gene expression data:the technology and statistical analysis 200318. Giles PJ. Kipling D Normality of oligonucleotide microarray data and implications for parametric
statistical analyses 2003(17)
19. Liu L. Hawkins DM. Ghosh S. Young SS Robust singular value decomposition analysis of microarray data 2003(23)
20. Zhao Y. Pan W Modified nonparametric approaches to detecting differentially expressed genes inreplicated microarray experiments 2003(09)
21. Neuhauser M. Senske R The Baumgartner-Wei β-Schindler test for the detection of differentiallyexpressed genes in replicated microarray experiments 2004(18)22. 查看详情
23. Andersson A. Keskitalo J. Sjrdin A. Bhalerao R,Sterky F,Wissel K,Tandre K,Aspeborg H,Moyle R,OhmiyaY,Bhalerao R,Brunner A,Gustafsson P,Karlsson J,Lundeberg J,Nilsson O,Sandberg G,Strauss S,SundbergB,Uhlen M,Jansson S,Nilsson P A transcriptional timetable of autumn senescence 2004(04)24. Baldi P. Wesley HG DNA Microarrays and Gene Expression:From Experiments to Data Analysis andModeling 2002
25. Efron B. Tibshirani R. Strey JD. Tusher V Empirical Bayes analysis of a microarray experiment 200126. Broberg P Statistical methods for ranking differentially expressed genes 2003(06)
27. Grant GR. Liu JM. Stoeckert CJ A practical false discovery rate approach to identifying patterns ofdifferential expression in microarray data 2005(11)
28. Grant GR. Liu JM. Stoeckert Jr CJ PaGE 5.1 Technical Manual 2004
29. Manduchi E. Grant GR. McKenzie SE. Overton GC Surrey S Stoeckert CJ Generation of patterns from geneexpression data by assigning confidence to differentially expressed genes 2000(08)30. Wit E. McClure J Statistics for Microarrays:Design,Analysis,and Inference 2004
31. Zimmerman DW. Zumbo BD The Relative Power of Parametric and Nonparametric Statistical Methods 199332. Blair RC. Higgins JJ A comparison of the power of Wilcoxon's rank-sum statistic to that ofStudent's t statistic under various non-normal distributions 1980(04)
相似文献(10条)
1.学位论文 张雯 过氧化氢在合作杨株间伤信号传导中作用的研究 2006
本研究以合作杨(P.simonii×P.pyramidalis‘Opera 8288')为实验材料,采用杨扇舟蛾幼虫取食、茉莉酸甲酯熏蒸以及用抑制剂处理昆虫取食叶片三种方式,检测了受伤植株及受伤邻近健康植株中过氧化氢含量、相关防御性酶活性及基因的变化情况,主要分析了在虫害诱导的抗性防御反应中,过氧化氢作为植株间伤信号分子在信息传导中的作用.
结果表明:昆虫取食后,虫咬叶、虫咬植株上的完整叶、邻近健康植株上的熏蒸叶中过氧化氢的含量均有明显的升高,相应的酶活性也可被系统性的诱导,说明在植株内部及植株间存在传递抗性信息的信号转导途径;用质膜NADPH氧化酶抑制剂DPI处理虫咬叶片后,可以显著抑制虫咬诱导的过氧化氢进发,与之相关的抗氧化酶类活性也随之下降,说明过氧化氢作为第二信使在植株间的伤信息传递中起着作用.
茉莉酸信号传导途径在植物防御反应中有着重要的作用,对植株用茉莉酸甲酯熏蒸后,可诱导植株产生与昆虫取食类似的反应一叶片过氧化氢含量有明显的提高,同时对POD、PPO、PAL等直接防御物质有显著的诱导作用,进而证明了茉莉酸甲酯是伤信息在植株间传递的报警信号分子之一.
本研究首次运用含有杨树全基因组序列探针的Affymetrix GeneChipPoplar Arrav芯片,检测合作杨叶片在杨扇舟蛾幼虫取食1h前后的基因表达变化.昆虫取食后,共有334个基因诱导上调,569个基因诱导下调,根据功能注释结果对诱导表达的基因进行分类,主要包括新陈代谢相关基因、光合电子传递相关基因、转运调控基因、信号传导相关基因、氧化胁迫相关基因、次生代谢相关基因及大量的功能未知基因.它们通过复杂的相互作用激发植物的防御反应,从而表现为抗性.本研究从全基因组的角度去研究虫害诱导的杨树抗性反应,为我们下一步探讨植物抗虫机制以及植物一昆虫相互作用提供了理论基础.
2.学位论文 单文娟 基因芯片数据分析方法比较 2008
本研究以比较分析基因芯片数据分析方法不同特征为目的,从三个方面进行研究:差异表达基因筛选方法的比较、p值的校正和不同相似性度量方法对聚类分析的影响。
计算机模拟数据分析结果表明所使用的八种差异表达基因筛选方法对均匀和正态分布数据中的差异表达基因有较好的识别作用,而对卡方和指数分布的数据识别效果较差;算法方面,SAM方法和Wilcoxon秩和检验方法比较好。杨树cDNA芯片数据分析结果表明SAM、Samroc和回归模型方法有较多的共同点。
p值校正方法中的Bonferroni法、Holm法和Benjamini & Hochberg假阳性率法过于保守,Permutation方法和Bootstrap方法则能起到减少假阳性率的目的。
马氏距离和欧式距离;在非距离矩阵方法中,Cosine相关系数方法最佳。在PAM聚类分析中,距离矩阵方法的差别不大:非距离矩阵方法(非中心化Pearson相关系数除外)的聚类结果均优于距离矩阵。
基于以上研究结果,我们建议使用SAM、Samroe、Wileoxon秩和检验或回归模型方法筛选差异表达基因:建议使用Permutation方法或Bootstrap方法校正p值;建议使用标准化欧式距离、Cosine相关系数或Pearson相关系数作为聚类分析时的相似性度量方法。
3.期刊论文 赵继兴. Zhao Jixing 从杨树基因组表达谱芯片数据中挖掘树木生长发育规律的研究 -安徽农学通报2010,16(6)
杨树是林木的模式树种,也是第1个完成全基因组测序的树种.杨树基因组计划推动了杨树基因芯片技术的不断改进和完善,通过结合统计学、信息学与传统生物学的方法与技术,对芯片数据进行深度挖掘和分析,使得基因组进化、木材形成、激素代谢、开花和休眠等研究领域进入如火如荼的发展阶段.
4.学位论文 王敏杰 毛白杨维管系统再生过程中的基因表达分析 2005
本文为研究木材形成关键发育时期的分子生物学事件,以毛白杨(Populustomentosa)为研究对象,利用大面积树皮环剥的方法建立能模拟自然的维管形成层细胞发生和分化的维管再生实验系统,并结合扣除杂交技术、基因芯片方法分析了维管再生过程中的差异基因表达谱。主要结果如下:
建立了毛白杨维管再生实验系统。愈伤形成层在剥皮后第10天开始发生,第14天左右形成,第18天已观察到形成层细胞的分化,而第22天时已经分化出完整的木质部和韧皮部。整个再生过程仅需3到4周的时间。因此,再生实验系统包括了这些关键的发育转换期,将导致基因表达发生显著的变化。 利用抑制性扣除杂交技术建立了毛白杨形成层区域vs叶片组织的扣除cDNA文库,并藉此制备了包含1,197个基因片段的cDNA芯片。然后与毛白杨剥皮后不同时期样品进行杂交、比较分析,共得到227个在维管组织不同再生阶段差异表达的基因,测序后与杨树基因组数据库和EST数据库检索分析,初步鉴定了差异表达基因的生物学功能。
在维管系统再生过程的形成层组织发生和发育期,差异表达基因包括钙调素、生长素诱导蛋白、可能与维管系统发育相关的nodulin蛋白、一些具体功能未知的转录因子和信号转导分子以及初生壁相关的细胞壁相关蛋白,如扩张蛋白、伸展蛋白、富羟脯氨酸糖蛋白、羟甲基转移酶、富脯氨酸糖蛋白等。而在维管系统再生过程到了维管形成层分化出木质部和韧皮部的关键时期,差异表达基因包括可能与形成层发育和分化相关的MYB家族等转录因子、蛋白激酶等信号转导分子。
拟南芥在诱导的情况下也能进行一定程度的次生生长,能表达木本植物木材形成相关的关键基因。利用拟南芥ATH1全基因芯片分析了毛白杨维管再生过程差异基因表达谱。通过连续样品两两比较分析,得到了差异表达的149个基因,通过序列样品比较和SOM聚类分析,得到了368个在整个维管系统再生过程中表达模式发生显著变化的基羽。
可能参与形成层发生、发育和分化以及木质部发育相关的基因,包括生长素诱导蛋白,蛋白激酶、G蛋白等信号转导相关蛋白,MYB、AP2、锌指结构域等转录因子等基因表达和调控因子的基因,也包括纤维素、果胶及其它细胞壁多糖生物合成相关基因以及扩张蛋白、伸展蛋白、富含羟脯氨酸糖蛋白等细胞壁蛋白基因。其分析结果与自制cDNA芯片杂交分析结果有一定的相似性,说明了基因芯片跨物种杂交分析同样能够获得基因特异表达的信息。 本研究找到这些可能参与木材形成的相关基因,为利用拟南芥相应基因突变体分析、单基因表达分析、以及转基因技术鉴定、分离到决定木材形成的重要基因或关键基因奠定了基础,并为材性改良的基因工程育种提供理论基础及基因资源。
5.期刊论文 郭丽霞. 宁德娟. 马群. 丁明全. 侯佩臣. 沈昕. GUO Li-xia. NING De-juan. MA Qun. DING Ming-quan. HOU Pei-chen . SHEN XI 一种适合杨树RNA提取的方法 -吉林林业科技2007,36(2)
本试验为三种杨树材料建立了一种杨树RNA提取的方法.本方法具有充分抑制材料中的多酚褐化,提高RNA产率;最大限度地去除多糖及次生代谢物质,避免与RNA共沉淀;去除蛋白质和DNA污染;提取时间短,质量高等特点.通过本方法提取的RNA OD260/OD280值在1.9~2.0之间,能够完全满足后续实验的要求,如体外翻译、cDNA文库构建、基因芯片和DDRT-PCR等.
6.学位论文 马群 胡杨根和叶基因表达谱的微阵列分析 2007
胡杨(Populus euphratiea Oliver)是一种抗逆性极强的树种,本研究以2年生胡杨实生苗为研究材料,通过微阵列分析比较胡杨根和叶的基因表达谱,为解析胡杨组织特异性表达的基因,及它们对盐胁迫的响应奠定基础.研究中,我们以NaCl溶液处理的叶和根做为对比的材料,分别制备了样本总RNA,采用Affymetrix公司的杨树表达谱芯片(Afrymetrix GeneChip Poplar Genome Array),对盐胁迫下胡杨叶片和根系的表达谱进行了微阵列分析,在微阵列数据的基础上,对胡杨根和叶中特异性表达的基因进行了统计和功能注释,旨在认识和了解胡杨基因组中组织特异性表达基因的功能,及胡杨根和叶在响应盐胁迫上的差异.实验结果显示,根和叶中转录水平相差100倍以上的基因共有23个,其中18个基因在叶中表达上调,5个基因在根中表达上调;信号值差异50至100倍的共有30个基因,在叶中表达上调的有19个基因,在根中表达上调的基因共有11个;信号值差异20至50倍的基因共有49个,在叶中表达上调的有38个,在根中表达上调的基因有11个;信号值差异10至20倍的共有57个基因,在叶中表达上调的有37个基因,在根中表达上调的基因共有20个.与光和作用相关的蛋白编码基因在叶中表达明显上调,而参与抗氧化胁迫有关的基因在根中表达上调更为显著.未发现与拟南芥根系发育相关基因的同源物.
7.期刊论文 雷平. 杨树源. 张建宁. 杨新宇. 朱涛. 雪亮. 刘辉 利用寡核苷酸基因芯片筛选人脑创伤的差异表达基因 -中华实验外科杂志2006,23(12)
目的 检测人创伤脑组织与正常脑组织凋亡相关基因表达谱的差异,筛选差异表达基因.方法 利用含325个人凋亡相关类基因的寡核苷酸基因芯片,分别检测6例创伤脑组织与正常脑组织的差异表达基因.结果 6例创伤脑组织共同差异表达的凋亡相关类基因数为5个,均表达上调.结论 基因芯片筛选出在以前的脑创伤文献中未曾报道过的凋亡相关类基因2个,对其干预有望成为脑创伤防治的新的分子生物学策略.
8.学位论文 张新叶 杨树抗黑斑病相关基因表达谱分析 2005
表达序列标签(EST)和基因芯片技术是功能基因组学中常用的高通量研究方法。本研究同时运用这两种高通量技术,从基因表达整体水平研究杨树在黑斑病菌致病过程中的抗病机制,可为杨树抗黑斑病育种提供理论依据。
本研究对2个杨树叶片cDNA文库随机挑取克隆进行5’端测序,共获得有效EST序列20023条,并递交至GenBank数据库,登录号从CX167465到
CX187487。序列经拼接后,获得10816个UniGene,其中3734个Contig,7082个Singletons。8853个具有同源性匹配序列的基因中,按照GO的分子功能、生物过程和细胞组分三个不同分类角度分类,被赋予功能的基因数累计达21100个。经对所有具有功能的基因研究发现,有两类基因的含量较高,一类是杨树叶片组织特异性相关的基因,另一类是杨树叶片受外界胁迫表达的抗逆相关基因。
在本实验从3734个Contigs中得到94个碱基替代型侯选SNP,39个插入缺失型侯选SNP。利用SSRFinder软件,从10816条一致性序列中发现713个候选SSR标记,类型达191种。
EST序列是制备cDNA芯片的良好基因资源,本实验根据EST序列的注释结果,挑取3000个克隆进行了cDNA芯片制备,并利用此cDNA芯片,对黑斑病菌诱导不同时间的杨树叶片进行了基因表达谱分析。结果表明差异表达的基因主要为参与蛋白合成、细胞防卫反应及信号传导等基因。
9.期刊论文 雷平. 张建宁. 杨新宇. 朱涛. 雪亮. 刘辉. 杨树源. LEI Ping. ZHANG Jian-ning. YANG Xin-yu. ZHU Tao. XUE Liang. LIU Hui. YANG Shu-yuan 利用基因芯片筛选人颅脑创伤皮层的差异表达基因 -中华神经外科杂志2007,23(7)
目的 检测人创伤大脑皮层与正常大脑皮层基因表达谱的差异,筛选差异表达基因,寻找脑创伤基因治疗的新靶点.方法 利用含21 329个基因的人全基因组寡核苷酸芯片,检测5例创伤大脑皮层组织与1例正常对照的差异表达基因.并随机挑选2个差异表达基因做定量聚合酶链反应(PCR)验证.结果 5例创伤脑组织共同差异表达的基因数为87个,其中上调的60个,有16个功能未知或为表达序列标签(ESTs)片段,44个分属于12类功能;下调基因27个,有20个功能未知或为EST片段,7个分属于4类功能.定量PCR验证结果提示芯片结果可信.结论 基因芯片筛选出的人创伤大脑皮层的差异表达基因大部分在以前的颅脑创伤文献中未曾报道,对其干预有望成为颅脑创伤基因治疗的新靶向.
10.学位论文 雷平 基因芯片筛选人脑创伤皮层差异表达基因的实验研究 2006
目的:检测人创伤大脑皮层与正常大脑皮层基因表达谱的差异,筛选差异表达基因,寻找脑创伤防治的新的分子生物学策略。
方法:1.收集5例我院神经外科因脑创伤后行颅内减压手术时清除的挫裂伤灶缘相当于伤灶周围水肿区的脑额叶皮层组织,显微镜下清除软膜及血管。受伤至手术取材时间均在48小时内。Trizol一步法提取组织总RNA,并用RNeasyminispincolumn过柱纯化,最后用分光光度计定量,甲醛变性胶电泳质检。正常对照的人脑皮层总RNA购自美国Ambion公司。T7promoter-Oligo(dT)15为引物,用cDNASynthesisKit合成双链cDNA,双链合成以后用
QIAquickPCRPurificationKit纯化。用T7RiboMAXRNA大量产物系统将双链cDNA进行体外转录合成cRNA。用SuperscriptⅡ反转录酶,随机引物进行反转录,再纯化。再以随机引物进行cDNA的KLENOW酶标记,创伤脑组织掺入Cy5-dCTP、正常对照脑组织掺入Cy3-dCTP。预先用芯片点样仪在75mm×25m、经过氨基修饰的载玻片上点制21,329条70mer长度的相关基因对应的探针,另外还点上人类的12个看家基因作为阳性对照,12条人工合成的与人基因没有同源性的70mer作为阴性对照,及酵母的8个基因作为基因芯片外标对照。荧光素标记的cDNA探针和芯片在杂交液中42℃杂交过夜,然后洗脱、甩干。最后用LuxScan双通道激光扫描仪扫描。采用GenePixPro4.0图像分析软件读取数据,删除弱点和坏点,用Lowess方法归一化数据及校正;将归一化和校正后的Cy-5/Cy-3值作为差异判别的ratio值,最后以ratio值大于2或小于0.5(即两倍的标准)来确定差异表达基因;
2.随机挑选4个共同差异表达的基因做荧光定量PCR验证;
3.用RT-PCR方法扩大样本验证芯片筛选出的差异表达基因spp1、cyr61、plscr1在人脑创伤皮层中的表达情况。
结果:1.T1vsN芯片上表达基因总数为8828个,T2vsN芯片上表达基因总数为9911个,T3vsN芯片上表达基因总数为9213个,T4vsN芯片上表达基因总数为9078个。按照2倍变化的判定标准,T1vsN芯片上T1与N差异表达的基因数为362个(4%),其中表达上调的为210个,下调的为152个;T2vsN芯片上T2与N差异表达的基因数为476个(5%),其中表达上调的为249个,下调的为227个;T3vsN芯片上T3与N差异表达的基因数为627个(7%),其中表达上调的为381个,下调的为246个;T4vsN芯片上T4与N差异表达的基因数为973个(11%),其中表达上调的为573个,下调的为400个;T5vsN芯片上T5与N差异表达的基因数为1757个(20%),其中表达上调的为823个,下调的为934个。在5张芯片上共同差异表达的基因数为87个,其中表达上调的为60个,下调的为27个。上调的60个基因中,16个为未知功能类或EST片段,44个为已知功能类基因,分属于12类功能基因,其中,主要为代谢类(26个),应激反应类(12个),凋亡类(9个),信号类(9个)等为主;下调的27个基因中,20个为未知功能类或EST片段,7个为已知功能类基因,分属于4类功能基因,其中,以代谢类为主(6个);
2.随机挑选的4个共同差异表达基因的荧光定量PCR值和芯片数据基本吻合;
3.RT-PCR检测发现基因芯片筛选出的表达上调的基因spp1、cyr61、plscr1在29例人脑创伤皮层中均表达明显上调。
结论:1.基因芯片能高效地筛选出人脑创伤后大脑皮层的差异表达基因,且实时定量PCR原样本验证证实了该芯片数据准确性,RT-PCR扩大样本验证证实了该芯片结果具有代表性。
2.经在pubmed上对这些共同差异表达的基因逐个检索,发现所有下调的基因在以前的脑创伤文献中未有提及,上调基因中也仅少部分被报道过,如cd44、ccl2、tieg、vegf、cd14、idha、xbp1、egr1、rgs2、fos、il-1b、timp1、gadd45a、cdknla、cnn3等。
3.本研究发现的以前脑创伤文献未报道过的基因中,通过其它研究推测在脑创伤后其表达上调可能导致脑损伤或可能起脑保护作用的基因有clic1、plscr1、cyr61、bag3、gbe1、tlr2、spp1等基因,而其它在脑创伤中表达变化的基因的意义还待进一步研究。对本研究中筛选出的以前在脑创伤中未曾关注过的基因实施干预,有望成为脑创伤防治的新的分子生物学策略。
本文链接:http://d.g.wanfangdata.com.cn/Periodical_yc200812020.aspx
授权使用:西安交通大学(xajtdx),授权号:97e91bf4-a078-4496-aa4d-9e9900adb4e7
下载时间:2011年3月1日