第23卷第2期
Vol.23No.2周口师范学院学报JournalofZhoukouNormalUniversity2006年3月Mar.2006
基因调控网络数据分析方法研究
曹祥红,11,2
(1.郑州轻工业学院2.华中科技大学,430074)
摘 要:DNA,为基因调控网络的研究提供了技术支持,基因表达数
.利用数学模型和人工智能技术,研究分析基因表达数据之间
的关系,,从中发现生物学规律,进而认识生命现象的本
质,.本文介绍了基因调控网络构建中常用的基因表达数据分析方法以及
最新的研究进展.
关键词:基因调控网络;聚类分析;统计学;随机作图;基因回路;系统生物学
中图分类号:TN911.72 文献标识码: A 文章编号: 1671-9476(2006)02-0089-06
随着人类基因组计划的实施,通过基因组测序、蛋白质序列测定结构解析等实验以及DNA微芯片技术的应用,分子生物学家提供了大量的基因组数据,并已载入公共数据库.一系列由基因组数据所不能说明的问题也随之被提了出来,如基因表达的产物是否出现,何时出现;基因表达产物的定量程度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的;基因敲除或基因过度表达的影响是什么;多基因差异表
[1]达与表现型关系如何等等.
上述问题的实质是,知道了核酸序列和基因,人们依然不知道它们是如何发挥功能的,即它们是如何按照特定的时间、空间进行基因表达的,表达量有多少,基因相互之间在表达时的调控关系如何?为了解释和理解这些数据,需要利用现代计算技术对这些原始数据进行收集、整理、管理以便于检索使用.还需要对数据进行比对、分析,建立计算模型,进行仿真、预测与验证.此种情况下生物信息学应运而生.生物信息学是综合运用生物学、信息学、数学以及计算机科学等诸多学科的理论和方法处理和分析大规模复杂生物信息的交叉学科.如何利用数学模型和人工智能技术,研究分析基因组数据之间的关系,解读生物遗传密码,从中发现生物学规律,进而认识生命的本质,是人类基因组计划所面临的新挑战,也是生物信息学所面
[2]临的问题.
基因以及基因产物并非是单独起作用的,而是参与在复杂的、相互联系的通路、网络和分子系统中.它
[3]们的相互作用、相互影响,从而产生了细胞、组织、器官和有机体的机理.也即生命信息的各基因并不是
孤立地发挥作用,而是通过形成“基因网络”这样一个复杂系统来推动演化的,基因表达和调控过程可看作是由它们之间的调控网络所决定的.确认这些系统和它们的特性及相互作用对于理解其生物系统如何运行具有决定性意义,也是生物信息的重要研究内容.一些科学家已经开始利用系统学的手段来研究基因
[4]调控网络,并且也取得了较好的效果.
1 基因调控网络数据分析方法
基因表达数据之中隐含基因之间的相互作用关系,因而可以通过分析基因表达数据,构建基因调控网收稿日期:2005-10-12
基金项目:国家自然科学基金资助项目(No:60373089)
作者简介:曹祥红(1972-),河南南阳人,郑州轻工业学院电气信息工程学院硕士研究生,研究方向为智能信息和信号处理;崔光照(1958-),男,河南洛宁人,华中科技大学在读博士研究生,郑州轻工业学院电气信息工程学院教授,硕士生导师,研究方向为数字信号处理和DNA计算.E-mail:[email protected].
90 周口师范学院学报2006年3月络.基因表达数据分析的主要目的是为了建立相应的基因调控网络模型,分析基因之间以及基因与启动子之间的调控关系.基因调控网络的建模方法很多,分类方法也不尽相同.有离散型和连续型、随机型和确定型、定性和定量型等模型,如布尔网络、线性关系网络、权值矩阵网络、微分方程、互信息关联网络等模型.同一种分析方法可以建立不同的模型,而同一个模型也可以采用不同的分析方法.目前对基因表达数据的
[5]处理主要是进行聚类分析.其他常用的还有统计学、随机作图、模糊逻辑、神经网络、微分方程、数字信
号处理、图论以及综合方法等..
1.1 聚类分析方法
聚类分析方法是将表达规律相似的基因聚为一类,,.利用聚类分析的结果可以研究基因的启动子,,通过多重序列比对操作,、主元分析、模式识别、自组织特征映射和反向推断技术等方法.
,用相关系数描述基,.该方法通过计算基因向量genei=(gi1,gi2,…,gin)和j1,j2gjn)之间的相关系数
rij=nρgikgjk2nn(1)2
=1gikρgjkk=1
对基因之间的表达趋势进行两两比较,找到那些在表达变化上具有相似趋势、相反趋势、以及变化趋势间
[6]有相互关联的基因.通过分析发现,相关系数是构建基因调控网络的一个有效的工具.但不同的算法有
其各自的特点,应根据不同情况采用不同的算法.常采用的有梯度下降法、模拟退火和遗传算法等.其中遗传算法又是在基因调控网络中应用较广的一种算法.遗传算法是通过控制竞争和变异来改进学习系统的表现,通过进化的方式进行迭代,直至形成最理想的解决方案.遗传算法由通用的搜索算法组成,强调适应不同环境的稳健性,缺点是人们对进化过程的技能缺乏了解.相关分析法便于在电脑上实现,已有相关的软件研制成功.但由于该方法是对基因进行两两比较,计算量很大,因此对硬件的计算速度要求较高.
利用主元分析可以在多维数据集合中确定关键变量的特点,分析在不同条件下基因响应的规律和特征,进一步的分析还可以探索基因的转录调节网络,发现基因在环境或药物作用下表达模式的变化,阐明
[7]一些基因对另一些基因的调节作用.
模式识别方法是通过推理被寻找基因与目标基因之间的表达相似性的关系,从而推理出大量的、被发现的、与目标基因具有相同或相似功能的基因.该方法用于对18个酵母调控基因和它们的目标基因分析,
[8]从中发现了267个新的调控关系,其中有36.1%与调控基因的已知目标基因具有相同或相似的功能.
该方法可以推理出目标和目标基因之间的调控关系,尤其适合于推理在调控基因和目标基因的表达上具有时间延迟的调控关系.
自组织图是一种进行聚类分析的人工神经网络方法,是一种非监督的知识适应性机器学习方法.它可以将高维数据空间映射到低维空间,将相似的数据映射到相邻的神经元中.它的学习过程是竞争和非监督的.可以以一种神经网络组织图表示,每个节点代表输入信号的模式.输入信号可以用输入向量x(t)表示.对于基因表达谱来说,就是基因向量.组织图上的节点包含一个模型向量m(t).模型向量和输入向量同维.每个输入向量都和所有的模型向量比较,距离最近的模型向量胜出.根据学习原理,组织图上该模型向量的节点和它相邻的节点向输入向量移动.学习过程就是对于每个输入向量胜出的模型向量节点和它的相邻节点都向输入向量移动,在学习过程中,个别变化可能互相矛盾,但当网络输出后,有序的模型向量就出现在组织图上.如果输入向量有限,就必须重复输入学习.自组织图的优点在于可以很图形化的表示一个类的质量好坏,并且计算资源的耗费较小;缺点是必须设置很多参数,且由于算法中存在随机化过程,
[9]可能需要重复计算多次寻找最佳结果.
给定大量基因表达数据,对于未知或隐含的调控网络可以推断出什么?反向工程是从基因表达的数
[10,11]据反向推断未知的或隐含的基因网络拓扑结构的技术.它需要选定合适的参数模型(如布尔网络模
型和神经网络模型等),并用适当的算法(如遗传算法等)推断网络参数,确定输入输出规则,预测网络对
第23卷第2期曹祥红,等:基因调控网络数据分析方法研究 91时间的变化.其中基于离散网络模型的逆向工程方法得到了广泛的应用.离散网络模型的优点是比连续的网络更直观,而且可以认为是对真实网络的一个很好的近似.在基于布尔网络模型的逆向工程算法中,基因表达被离散化为只有两个确定的状态,要么存在,要么不存在.对一个给定的已经离散化为一个二进制数据集合的实验数据集合,即一个给定的状态转换集合,该算法为网络的每个结点找到一个布尔函数,使用尽可能少的变量确定从输入到输出的最优关系.该算法通过列举方法找到一个尽可能稀疏的与数据一致的布尔网络.布尔网络模型的一个缺点是需要对真实的表达数据离散化为一个开/,这会造成大量信息的丢失.为改变这个不足,发展了多状态离散模型和混合模型.2002年,水平中也使用反向工程方法,和Schlitt介绍了一个混合模型框架,[12]年,Brazma.等人把基因调控网络描述成一个离散时间的、多状态的、,数目的假设[14].,而无需采用列举的方法.,采用给定的算法,能够准确预测出44个基因连接中的3713个丢失的基因连接.逆向工程方法的一个优点就是可以系统的研究适.进一步的工作还在研究中.
聚类分析将基因与最相关的表达谱聚在一起,分析的基础是总基因组的线性相关.生物系统的有序性意味着聚类分析方法将揭示出生物行为的有趣特征[15].虽然聚类方法是基因表达数据分析的基础,但是,目前这类方法只能找出基因之间简单的、线性的关系,等级聚类并不能很好的解释转录因子的表达时段和它们的作用对象之间复杂的、非线性的关系.聚类方法有两个显著的局限;一是聚类结果要明确就需分离度很好的数据,虽然几乎所有现存的算法都是从互相区别不重叠的类数据中产生的聚类,但由于不同的算法取样的点并不完全一样,这样选择不同的聚类方法将产生单一的信息,即使采用同样的数据也有可能出现不同结果.最后还需要检验可信度,通过序列比对来解释聚类结果.第二个局限由线性相关产生.所有的聚类方法分析仅是简单的一对一的关系,大大减少了计算量,但忽视了生物系统多因素和非线性的特点.
1.2 统计学方法
统计学方法是建立在基因调控网络的随机动态特性基础上的,能够很好的反映基因调控网络的动态特性,因而近来被广泛的应用于基因表达数据的分析和基因调控网络模型的建立.基于统计学方法建立起来的基因调控网络模型主要有贝叶斯网络模型、隐马尔科夫模型以及互信息关联模型
模型中常用到的数据分析方法做一介绍.
EM算法即期望最大化算法,是参数估计的一种很重要的算法,是一种当观测数据为不完全数据时求[16]等.下面就这些解最大似然估计的迭代算法.该算法的思想是通过对一个量求取其最大条件期望从而迭代的估计另外一个量[17].其具体算法是:
(1)设置初值;
(2)取条件期望:对n≥0,令
X^(n)
^(n)=Eθn(X|Y);(2) (3)取条件期望最大值:取θn+1使之满足logf(θn+1,X)=maxlogf(θ,X^(n)).(3)
EM算法在基因调控网络分析的贝叶斯网络、隐马尔科夫网络等模型中,是一种有效的分析工具,可以利用少量的基因表达数据推断出整个基因调控网络的结构,大大降低算法的复杂度,简化分析过程.缺点是作为一种参数估计的算法,所取的抽样数据是不完全的,而目前基因表达阵列测量中,基因数远大于时间抽样点数,因而无法唯一地确定网络参数,且不可避免地带来了估计的准确度问题.如增加取样点数,则会增加算法的复杂度.如何在复杂度与准确度之间取得平衡,是一个需要进一步探讨的问题.
两个分布的相对熵表达它们之间的差别———相对熵是非负的,而当它们相等时相对熵为0,两个分布的差别越大,相对熵越大.在由基因芯片的癌症与正常样本的基因表达数据中,要选择相关基因时,可以考
92 周口师范学院学报2006年3月虑利用每个基因中癌症与正常样本分布的相对熵的大小来衡量其与癌症的相关性.在基因发现中利用最小熵的原则,可以逐次得到重要的位点及其分布.最小熵方法是建立互信息关联基因调控网络模型的基
[18]础.
统计学方法中使用最广泛的是贝叶斯网络.其基本思想是使用简单的局部概率乘积来近似复杂的高
[19]维概率分布.贝叶斯网络是N结点有向无循环图,每个结点代表一个随机变量.在基因调控网络中,这
个随机变量可以代表基因或蛋白质.贝叶斯网络中马尔可夫独立假设是给定一个结点的最直接父结点状态,这个结点就独立于所有的非最直接的父结点状态
N
P(X1,X2,…,XN)=
-∏P(Xi=1i|j:-i)).(4)其中N(i)代表结点i的所有父结点.调控网络结构和参数.
,但并不能很好的预测转录因子的表达,.支撑向量机(S).SVM是一种建立在统计学习理论基础上的、有监督的机器学习方法,,由此构造出的分类器可以最大化类与类的间隔,具有较好的推广性能和较高的分类准确率.SVM算法主要是通过用内积函数定义的非线性变换
[22]将输入空间变换到一个高维空间,在这个空间中求最优分类面.SVM分类函数形式上类似于一个神经
网络,输出是中间节点的线性组合,每个中间节点对应一个支撑向量.SVM的一个重要的优点就是可以处理线性不可分的情况,在基因调控网络转录起始位点识别方面有着广泛应用.SVM提供一种层级的方法来分析芯片数据.首先,对每个基因,应询问最近的邻居与它们的关系是否具有生物学意义.其次,对已知共调控基因,询问它们的表达类型是否相似,若是,还有哪些其他的基因有相同类型.第三,通过无监督的学习方法进行基因分类,并询问是否聚类包括外围基因在内的有生物学意义的基因.最后,类可通过每个无监督的类的核心基因训练支持向量机的方法来检测和优化.
神经网络作为一种机器学习方法,在基因调控网络分析中也得到了广泛的应用.但采用神经网络方法,当样本集较小时,单个神经网络的分类效果比较好;当样本集巨大时,单个神经网络的学习时间显著增加,并且可能学习不收敛,通过多种策略将多个神经网络组合在一起,可以较好地解决问题,但增加了算法的复杂度.采用支撑向量机算法对巨大训练样本集的多类别分类问题进行研究,尤其适合于对基因调控网络中大量基因表达数据的分析,可以获得较好的结果.SVM方法正在成为继神经网络之后机器学习的新热点,并将推动机器学习理论和技术的重大进展.
通过支撑向量机的学习算法,可以有效预测出转录因子与它的调控目标之间的关系.文献[23]中采用支撑向量机方法,通过对啤酒酵母36个调控因子的研究,预测到它们一共调控着3419个调控目标;一个转录因子调控着将近93个目标基因,而一个目标基因受到1.8个转录因子的控制.一个转录因子调控着如此多的目标基因,由此可以看到研究它们之间关系的重要性.
1.3 随机作图和基因回路图方法[21][20]
在特定条件下,特定基因表达的启动或停止、增强或抑制,是细胞完成基本生命活动及对外界刺激作出应答的分子基础.基因表达和调控过程可看作是由一个基因和基因与基因之间相互作用关系所构成的网络决定的.1960年,数学家P.Erdǒs和A.Rnyi提出用随机作图理论分析网络的拓扑复杂性,该网络被称为“ER模型”.ER模型建立在随机过程上,一定数量的节点彼此随机地连接在一起,每个节点具有相同数量的连接.近年随着大量数据的产生和计算机的应用,发现在基因调控网络中,基因之间的连接也可以用一个ER模型来表示,但它既不是概率为0的绝对规则连接的网络,也不是概率为1的完全随机连接的网络,而介于两者之间.该网络被称为“小世界网络”.在小世界网络中,任一个节点可以和其最邻近的两个节点相连.少数节点的连接数还可以远高于平均节点连接数.在此基础上,基因调控网络可以用一个加权有向图来表示.通过把图论与ER模型结合,控制λ噬菌体的溶原/裂解活性的调控网络的数学模型已经构建出来.
[26]基因回路图是一种新的基因调控网络模型,但由于它的形式类似于电子回路图,分析的方法类似[25][24]
第23卷第2期曹祥红,等:基因调控网络数据分析方法研究 93于电路中的模块化的方法,而不同于前面的数学方法,因此在这里也作为一种数据处理的方法加以简单介绍.在回路图中,每个功能相同或相似的基因组成一个个的模块,每个模块或者调控基因与目标基因的结合位点看作是电路图中的一个节点,它们之间的作用视为连线,在每个连线交叉处放置具有计算功能的小晶体管.信息从回路图的左边向右边流动.回路图的右边输出产物,对应于调控后输出结果.回路图的输出信息相当于发起转录基因的信号,这种信号能控制基因的转录时间、地点以及转录数量[27].参考回路图能够更好了解不同模块和结合位点之间的相互作用,且通过晶体管的计算功能以及简单的计算机程序就能定量预测整个基因组表达的调控过程..但这种方法是一种新的方法,目前只有DAVIDSON在海胆胚胎的,理论上还不成熟,其潜在的功能尚需进一步的研究和验证.
1.4 数字信号处理方法
,其在基因,每个基因-基,[28].可采用功率谱分析、相位变换、.采用这种方法可以提高探测可能被其他方法忽略掉.多重相变不仅可以探测到短期,也可以探测到长期表达的基因-基因间的相互作用.本方法的缺点是每个基因的时间点数据少,限制了分析的信息量,尤其是噪声对少量数据的影响会非常明显.另外,数字信号处理要求数据的采样时间间隔是固定的,而基因表达数据的时间间隔却可能是不相等的,但这一缺点可通过数据拟合和插值解决.如把数字信号处理方法和其他诸如自组织图、决策树、相关分析等聚类工具综合应用,用于观察基因敲除后的细微变化会具有较好的效果.
采用小波变换分析基因表达数据,可以充分挖掘基因表达数据的时间特征,对其进行正确的聚类,从而构建基因调控网络模型.具体算法如下:
(1)对数据进行预处理,归一化方差和零均值;
(2)对数据进行离散傅里叶变换,挖掘起整体的频域特征;从其功率谱找到最大的能量分布的时间[16]点,删除其他的点;
(3)计算上步中筛选过的数据的自相关函数,用于对于表达差异的点的观测;
(4)选择最佳的正交基,对自相关函数做一位连续小波包分解,采用信息熵分析;
(5)采用k-均值聚类方法用于不同的包含有小波包系数的时间序列向量,加强局部行为,得到聚类结果.
如何利用数字信号处理方法分析时间序列分析特点,来分析基因表达时间序列数据,从而构建基因调控网络,是一个值得进一步研究的方向.
1.5 组合方法与系统生物学方法
从已有资料可以看到,绝大部分的基因调控网络分析都使用了一种以上的学习方法,如隐神经网络,进化神经网络,模糊逻辑神经网络模型、布尔网络与微分方程结合的方法以及图论与概率统计方法结合的概率图模型方法等.将不同的方法进行组合,形成更好的学习方法,有利于克服单个方法的缺陷,取得的效果会更好.这不仅是基因调控网络研究也是生物信息学研究发展的一个趋势.
系统生物学是一个新的生物学领域,它在系统的水平上理解生物系统.它需要对新的分析方法、测量技术、实验方法、软件工具以及对待生物系统的新观念的全面理解.随着基因组测序工作的完成,大量的工作急需完成:系统的结构,如基因网络的结构和物理结构;系统的动力学分析;控制系统的方法;根据期望的特性改进和调整系统的方法[29].前面所介绍的分析和建模方法都是从单一的角度来解决某一个方面的问题,更侧重于数学和算法分析方面.而系统生物学则是从全局的角度出发,全面的解决问题,是一种综合了生物学方法与数学以及计算机分析与建模方法的综合分析方法.在系统水平上阐述和理解生命系统,建立系统生物学的框架,以便更准确地描述基因与基因之间,蛋白质与蛋白质之间,以及基因与蛋白质之间的交互作用,更有效地处理生物系统的复杂性问题,不仅成为生物学家的艰巨任务,也是系统与控制科学家面临的机遇和挑战[30].
94 周口师范学院学报2006年3月2 结论
基因调控网络研究是一个新兴领域,是数学、信息学、计算机科学向分子生物学渗透形成的交叉点,对许多学科的研究工具有很好的兼容性.各种模型不断涌现,各种数学工具不断引进,使得其发展空间不断扩大.这里已经介绍了应用于基因调控网络数据分析的大部分方法,其他常用的还有决策树、回归分析、规则归纳及状态空间等方法,新方法也正在不断涌现.但是对于形形色色的数据处理方法,哪一些更好?这个问题很难回答.就像上面已经介绍的那样,,也都有它们适用的情况.问题的关键是,.,也有算法本身的问题,,试图找出这些结果的交集作为所谓的正确的结果.性、预测性来判断这个方法的可靠性[31].,的评估方案.,在分析的同时就考虑对分析结果的评估.
,已有的建模方法在建立高效仿真的模型而导致参数集规,使模型复杂到难以处理的程度或不得不缩小建模范围而使模型反映的网络范围狭小[32].目前,只是对少数模式生物和少量基因进行基
[33]因网络研究的尝试,希望能将其中得出的有关结论用于更大规模的基因网络之中.但是,在理解这些巨
量的生物学数据,以便建立预测性模型及分析结果的生物学解释方面也存在一些问题.但随着非线性技术的不断完善、计算机运算速度的不断提高和建模与数据分析方法的不断改进,该方面的研究将得到突破,并最终在后基因组学研究中发挥重要作用.
参考文献:
[1]郝柏林,张淑誉.信息生物学手册[M].上海:上海科学技术出版社,2000:242-244.
[2]科技部农村与社会发展司和中国生物技术发展中心.中国生物技术发展报告(2004)[M].北京:中国农业出版社,
2005.
[3]CollinsFS,GreenED,GuttmacherAE,etal.Avisionforthefutureofgenomicsresearch:ablueprintforthegenomicera
[J].Nature,2003,422:835-847.
[4]Dassowg,Meice,Muocoem,etal.Thesegementpolaritynetworkisarobustdevelopmentmodule[J].Nature,2000,406
(13):188-192.
[5]孙啸.生物信息学讲义[M].南京:东南大学出版社,2004.
[6]易东,杨梦苏,李辉智,等.相关分析在建立基因调控网络中的应用[J].中国卫生统计,2003,20(3):144-146.
[7]RaymondJW.AreviewofstructureΟbasedbiodegradationestimationmethods[J].JournalofHazardousMaterials,2001,B84
:189-215.
[8]WeiHR,YiannisK.InferringgeneregulatoryrelationshipsbycombiningtargetΟtargetpatternrecognitionandregulatorΟspecif2
icmotifexamination[J].BiotechnologyandBioengineering,2004,89(1):53-77.
[9]KimJH,MoonBR.NewusageofSOMforgeneticalgorithms[J].Gecco,2003,16:1101-1111.
[10]WahdeM,HertzJ.CoarseΟgrainedreverseengineeringofgeneticregulatorynetworks[J].Biosystems,2000,55:129-136.
[11]AlbertR,OthmerHG.Thetopologyoftheregulatoryinteractionspredictstheexpressionpatternofthesegmentpolaritygenes
indrosophilamelanogaster[J].J.Theor.Biol.,2003,223:1-18.
[12]YMKStephen,TegnerJ,CollinsJJ.Reverseengineeringgenenetworksusingsingularvaluedecompositionandrobustre2
gression[J].Proc.NatlAcad.Sci,2002,99:6163-6168.
[13]MehraS.ABooleanalgorithmforreconstructingthestructureofregulatorynetworks[J].MetabolicEngineering,2004,6
(4):326-339.
[14]LaubenbacherR,StiglerB.Acomputationalalgebraapproachtothereverseengineeringofgeneregulatorynetworks[J].
JournalofTheoreticalBiology,2004,229:523-537.
[15]潘金灯,郭腾冲,涂序彦.生物信息学中的智能模型[J].计算机工程与应用,2003,28:81-84.
[16]JongHd.Modelingandsimulationofgeneticregulatorysystems:aliteraturereview[J].JournalofComputationalBiology,
2002,9(1):67-103.
第23卷第2期曹祥红,等:基因调控网络数据分析方法研究 95
[17]龚光鲁,钱敏平.应用随机过程教程及在算法和智能计算中的随机模型[M].北京:清华大学出版社,2004:393-395.
[18]SteuerR,KurthsJ,DaubCO,etal.Themutualinformation:detectingandevaluatingdependenciesbetweenvariables[J].
Bioinformatics,2002,18:16-25.
[19]PatrikD.Reconstructionggenenetworksfromlargescalegeneexpressiondata[M].UMIMicroform,2000:37-40.
[20]WyrickJJ,YoungRA.Decipheringgeneexpressionregulatorynetworks[J].Curr.Opin.Genet.Dev.,2002,12:130-
136.
[21]VapnikV.StatisticalLearningTheory[M].NewYork:Wiley,1998:768.
[22]MadsK.Theengineeringofgeneregulatorynetworks[J].Annu.Rev.Bi2003:179-[23]QianJ,LinJ,LuscombeNM,etal.PredictionofregulatorynetwΟwideptionfactortar2
getsfromgeneexpressiondata[J].Bioinformatics,2003,19(15)-[24]WattsDJ,StrogatzSH.Collectivedynamicsof‘s393(6684):409-10.
[25]张玉萍.,http://www.cbi.pku.edu.cn/chi2
nese/documents/papers/,[26]MalcolmA,CaDics,proteomicsandbioinformatics[M].PearsonEducationInc.,2003:
1-352.
[27]LittleJW,DP,ertDW.Robustnessofageneregulatorycircuit[J].EMBOJournal,1999,18(15):4299-
4307.
[28]ButteAJ,BaoL,ReisBY.ComparingthesimilarityoftimeΟseriesgeneexpressionusingsignalprocessingmetrics[J].
JournalofBiomedicalInformatics,2001,34:396-405.
[29]HoodL,HeathJR,PhelpsHoodME,etal.Systemsbiologyandnewtechnologiesenablepredictiveandpreventativemedi2
cine[J].Science,2004,306(5696):640-643.
[30]KitanoH.Lookingbeyondthedetails:ariseinsystemΟorientedapproachesingeneticsandmolecularbiology[J].CurrGen2
et,2002,41(1):1-10.
[31]吴昕,罗静初,李伍举.基因调控元件的计算机识别和基因调控网络构建[EB/OL].http://www.cbi.pku.edu.cn/chi2
nese/documents/papers/WuX.pdf,2004-12-07.
[32]雷耀山,史定华,王翼飞.基因调控网络的生物信息学研究[J].自然杂志,2004,26(1):7-12.
[33]彭华正,潘建伟,朱睦元.基因网络研究进展[J].生物化学与生物物理进展,2001,28(6):815-818.
ResearchondataAnalysismethodsofgeneregulatorynetworks
CAOXiangΟhong,CUIGuangΟzhao11,2
(1.SchoolofElectricalandInformationEngineering,ZhengzhouInstituteofLightIndustry,
Zhengzhou450002,China;2.DepartmentofControlScienceandEngineering,
CentralChinaUniversityofScienceandTechnology,Wuhan430074,China)
Abstract:AlargescaleofgeneexpressiondatahavebeenobtainedbecauseofapplicationofDNAmicroarraytechniques,whichprovidesthetechiniquesupportforresearchaboutgeneregulatorynetworks.Ithasbecometheimportantcontentsofbioinfor2maticstofocusontherelationshipbetweengeneexpressiondataandconstructgeneregulatorynetworksinordertosimulatetheac2tionsofbiologysystems,findtheruleofbiologyandunderstandtheessenceoflifebythemethodsofmathematicalmodelsandartifi2cialintelligenttechniques.Weintroducethegeneralanalysisalgorithmandmethodsofgeneexpressiondatainthispaper.Newre2searchdevelopmentsarealsomentioned.
Keywords:generegulatorynetworks;clusteringanalysis;statisticsmethods;randomgraphandgeneticcircuit;systembiolo2gy
第23卷第2期
Vol.23No.2周口师范学院学报JournalofZhoukouNormalUniversity2006年3月Mar.2006
基因调控网络数据分析方法研究
曹祥红,11,2
(1.郑州轻工业学院2.华中科技大学,430074)
摘 要:DNA,为基因调控网络的研究提供了技术支持,基因表达数
.利用数学模型和人工智能技术,研究分析基因表达数据之间
的关系,,从中发现生物学规律,进而认识生命现象的本
质,.本文介绍了基因调控网络构建中常用的基因表达数据分析方法以及
最新的研究进展.
关键词:基因调控网络;聚类分析;统计学;随机作图;基因回路;系统生物学
中图分类号:TN911.72 文献标识码: A 文章编号: 1671-9476(2006)02-0089-06
随着人类基因组计划的实施,通过基因组测序、蛋白质序列测定结构解析等实验以及DNA微芯片技术的应用,分子生物学家提供了大量的基因组数据,并已载入公共数据库.一系列由基因组数据所不能说明的问题也随之被提了出来,如基因表达的产物是否出现,何时出现;基因表达产物的定量程度是多少;是否存在翻译后的修饰过程,若存在是如何修饰的;基因敲除或基因过度表达的影响是什么;多基因差异表
[1]达与表现型关系如何等等.
上述问题的实质是,知道了核酸序列和基因,人们依然不知道它们是如何发挥功能的,即它们是如何按照特定的时间、空间进行基因表达的,表达量有多少,基因相互之间在表达时的调控关系如何?为了解释和理解这些数据,需要利用现代计算技术对这些原始数据进行收集、整理、管理以便于检索使用.还需要对数据进行比对、分析,建立计算模型,进行仿真、预测与验证.此种情况下生物信息学应运而生.生物信息学是综合运用生物学、信息学、数学以及计算机科学等诸多学科的理论和方法处理和分析大规模复杂生物信息的交叉学科.如何利用数学模型和人工智能技术,研究分析基因组数据之间的关系,解读生物遗传密码,从中发现生物学规律,进而认识生命的本质,是人类基因组计划所面临的新挑战,也是生物信息学所面
[2]临的问题.
基因以及基因产物并非是单独起作用的,而是参与在复杂的、相互联系的通路、网络和分子系统中.它
[3]们的相互作用、相互影响,从而产生了细胞、组织、器官和有机体的机理.也即生命信息的各基因并不是
孤立地发挥作用,而是通过形成“基因网络”这样一个复杂系统来推动演化的,基因表达和调控过程可看作是由它们之间的调控网络所决定的.确认这些系统和它们的特性及相互作用对于理解其生物系统如何运行具有决定性意义,也是生物信息的重要研究内容.一些科学家已经开始利用系统学的手段来研究基因
[4]调控网络,并且也取得了较好的效果.
1 基因调控网络数据分析方法
基因表达数据之中隐含基因之间的相互作用关系,因而可以通过分析基因表达数据,构建基因调控网收稿日期:2005-10-12
基金项目:国家自然科学基金资助项目(No:60373089)
作者简介:曹祥红(1972-),河南南阳人,郑州轻工业学院电气信息工程学院硕士研究生,研究方向为智能信息和信号处理;崔光照(1958-),男,河南洛宁人,华中科技大学在读博士研究生,郑州轻工业学院电气信息工程学院教授,硕士生导师,研究方向为数字信号处理和DNA计算.E-mail:[email protected].
90 周口师范学院学报2006年3月络.基因表达数据分析的主要目的是为了建立相应的基因调控网络模型,分析基因之间以及基因与启动子之间的调控关系.基因调控网络的建模方法很多,分类方法也不尽相同.有离散型和连续型、随机型和确定型、定性和定量型等模型,如布尔网络、线性关系网络、权值矩阵网络、微分方程、互信息关联网络等模型.同一种分析方法可以建立不同的模型,而同一个模型也可以采用不同的分析方法.目前对基因表达数据的
[5]处理主要是进行聚类分析.其他常用的还有统计学、随机作图、模糊逻辑、神经网络、微分方程、数字信
号处理、图论以及综合方法等..
1.1 聚类分析方法
聚类分析方法是将表达规律相似的基因聚为一类,,.利用聚类分析的结果可以研究基因的启动子,,通过多重序列比对操作,、主元分析、模式识别、自组织特征映射和反向推断技术等方法.
,用相关系数描述基,.该方法通过计算基因向量genei=(gi1,gi2,…,gin)和j1,j2gjn)之间的相关系数
rij=nρgikgjk2nn(1)2
=1gikρgjkk=1
对基因之间的表达趋势进行两两比较,找到那些在表达变化上具有相似趋势、相反趋势、以及变化趋势间
[6]有相互关联的基因.通过分析发现,相关系数是构建基因调控网络的一个有效的工具.但不同的算法有
其各自的特点,应根据不同情况采用不同的算法.常采用的有梯度下降法、模拟退火和遗传算法等.其中遗传算法又是在基因调控网络中应用较广的一种算法.遗传算法是通过控制竞争和变异来改进学习系统的表现,通过进化的方式进行迭代,直至形成最理想的解决方案.遗传算法由通用的搜索算法组成,强调适应不同环境的稳健性,缺点是人们对进化过程的技能缺乏了解.相关分析法便于在电脑上实现,已有相关的软件研制成功.但由于该方法是对基因进行两两比较,计算量很大,因此对硬件的计算速度要求较高.
利用主元分析可以在多维数据集合中确定关键变量的特点,分析在不同条件下基因响应的规律和特征,进一步的分析还可以探索基因的转录调节网络,发现基因在环境或药物作用下表达模式的变化,阐明
[7]一些基因对另一些基因的调节作用.
模式识别方法是通过推理被寻找基因与目标基因之间的表达相似性的关系,从而推理出大量的、被发现的、与目标基因具有相同或相似功能的基因.该方法用于对18个酵母调控基因和它们的目标基因分析,
[8]从中发现了267个新的调控关系,其中有36.1%与调控基因的已知目标基因具有相同或相似的功能.
该方法可以推理出目标和目标基因之间的调控关系,尤其适合于推理在调控基因和目标基因的表达上具有时间延迟的调控关系.
自组织图是一种进行聚类分析的人工神经网络方法,是一种非监督的知识适应性机器学习方法.它可以将高维数据空间映射到低维空间,将相似的数据映射到相邻的神经元中.它的学习过程是竞争和非监督的.可以以一种神经网络组织图表示,每个节点代表输入信号的模式.输入信号可以用输入向量x(t)表示.对于基因表达谱来说,就是基因向量.组织图上的节点包含一个模型向量m(t).模型向量和输入向量同维.每个输入向量都和所有的模型向量比较,距离最近的模型向量胜出.根据学习原理,组织图上该模型向量的节点和它相邻的节点向输入向量移动.学习过程就是对于每个输入向量胜出的模型向量节点和它的相邻节点都向输入向量移动,在学习过程中,个别变化可能互相矛盾,但当网络输出后,有序的模型向量就出现在组织图上.如果输入向量有限,就必须重复输入学习.自组织图的优点在于可以很图形化的表示一个类的质量好坏,并且计算资源的耗费较小;缺点是必须设置很多参数,且由于算法中存在随机化过程,
[9]可能需要重复计算多次寻找最佳结果.
给定大量基因表达数据,对于未知或隐含的调控网络可以推断出什么?反向工程是从基因表达的数
[10,11]据反向推断未知的或隐含的基因网络拓扑结构的技术.它需要选定合适的参数模型(如布尔网络模
型和神经网络模型等),并用适当的算法(如遗传算法等)推断网络参数,确定输入输出规则,预测网络对
第23卷第2期曹祥红,等:基因调控网络数据分析方法研究 91时间的变化.其中基于离散网络模型的逆向工程方法得到了广泛的应用.离散网络模型的优点是比连续的网络更直观,而且可以认为是对真实网络的一个很好的近似.在基于布尔网络模型的逆向工程算法中,基因表达被离散化为只有两个确定的状态,要么存在,要么不存在.对一个给定的已经离散化为一个二进制数据集合的实验数据集合,即一个给定的状态转换集合,该算法为网络的每个结点找到一个布尔函数,使用尽可能少的变量确定从输入到输出的最优关系.该算法通过列举方法找到一个尽可能稀疏的与数据一致的布尔网络.布尔网络模型的一个缺点是需要对真实的表达数据离散化为一个开/,这会造成大量信息的丢失.为改变这个不足,发展了多状态离散模型和混合模型.2002年,水平中也使用反向工程方法,和Schlitt介绍了一个混合模型框架,[12]年,Brazma.等人把基因调控网络描述成一个离散时间的、多状态的、,数目的假设[14].,而无需采用列举的方法.,采用给定的算法,能够准确预测出44个基因连接中的3713个丢失的基因连接.逆向工程方法的一个优点就是可以系统的研究适.进一步的工作还在研究中.
聚类分析将基因与最相关的表达谱聚在一起,分析的基础是总基因组的线性相关.生物系统的有序性意味着聚类分析方法将揭示出生物行为的有趣特征[15].虽然聚类方法是基因表达数据分析的基础,但是,目前这类方法只能找出基因之间简单的、线性的关系,等级聚类并不能很好的解释转录因子的表达时段和它们的作用对象之间复杂的、非线性的关系.聚类方法有两个显著的局限;一是聚类结果要明确就需分离度很好的数据,虽然几乎所有现存的算法都是从互相区别不重叠的类数据中产生的聚类,但由于不同的算法取样的点并不完全一样,这样选择不同的聚类方法将产生单一的信息,即使采用同样的数据也有可能出现不同结果.最后还需要检验可信度,通过序列比对来解释聚类结果.第二个局限由线性相关产生.所有的聚类方法分析仅是简单的一对一的关系,大大减少了计算量,但忽视了生物系统多因素和非线性的特点.
1.2 统计学方法
统计学方法是建立在基因调控网络的随机动态特性基础上的,能够很好的反映基因调控网络的动态特性,因而近来被广泛的应用于基因表达数据的分析和基因调控网络模型的建立.基于统计学方法建立起来的基因调控网络模型主要有贝叶斯网络模型、隐马尔科夫模型以及互信息关联模型
模型中常用到的数据分析方法做一介绍.
EM算法即期望最大化算法,是参数估计的一种很重要的算法,是一种当观测数据为不完全数据时求[16]等.下面就这些解最大似然估计的迭代算法.该算法的思想是通过对一个量求取其最大条件期望从而迭代的估计另外一个量[17].其具体算法是:
(1)设置初值;
(2)取条件期望:对n≥0,令
X^(n)
^(n)=Eθn(X|Y);(2) (3)取条件期望最大值:取θn+1使之满足logf(θn+1,X)=maxlogf(θ,X^(n)).(3)
EM算法在基因调控网络分析的贝叶斯网络、隐马尔科夫网络等模型中,是一种有效的分析工具,可以利用少量的基因表达数据推断出整个基因调控网络的结构,大大降低算法的复杂度,简化分析过程.缺点是作为一种参数估计的算法,所取的抽样数据是不完全的,而目前基因表达阵列测量中,基因数远大于时间抽样点数,因而无法唯一地确定网络参数,且不可避免地带来了估计的准确度问题.如增加取样点数,则会增加算法的复杂度.如何在复杂度与准确度之间取得平衡,是一个需要进一步探讨的问题.
两个分布的相对熵表达它们之间的差别———相对熵是非负的,而当它们相等时相对熵为0,两个分布的差别越大,相对熵越大.在由基因芯片的癌症与正常样本的基因表达数据中,要选择相关基因时,可以考
92 周口师范学院学报2006年3月虑利用每个基因中癌症与正常样本分布的相对熵的大小来衡量其与癌症的相关性.在基因发现中利用最小熵的原则,可以逐次得到重要的位点及其分布.最小熵方法是建立互信息关联基因调控网络模型的基
[18]础.
统计学方法中使用最广泛的是贝叶斯网络.其基本思想是使用简单的局部概率乘积来近似复杂的高
[19]维概率分布.贝叶斯网络是N结点有向无循环图,每个结点代表一个随机变量.在基因调控网络中,这
个随机变量可以代表基因或蛋白质.贝叶斯网络中马尔可夫独立假设是给定一个结点的最直接父结点状态,这个结点就独立于所有的非最直接的父结点状态
N
P(X1,X2,…,XN)=
-∏P(Xi=1i|j:-i)).(4)其中N(i)代表结点i的所有父结点.调控网络结构和参数.
,但并不能很好的预测转录因子的表达,.支撑向量机(S).SVM是一种建立在统计学习理论基础上的、有监督的机器学习方法,,由此构造出的分类器可以最大化类与类的间隔,具有较好的推广性能和较高的分类准确率.SVM算法主要是通过用内积函数定义的非线性变换
[22]将输入空间变换到一个高维空间,在这个空间中求最优分类面.SVM分类函数形式上类似于一个神经
网络,输出是中间节点的线性组合,每个中间节点对应一个支撑向量.SVM的一个重要的优点就是可以处理线性不可分的情况,在基因调控网络转录起始位点识别方面有着广泛应用.SVM提供一种层级的方法来分析芯片数据.首先,对每个基因,应询问最近的邻居与它们的关系是否具有生物学意义.其次,对已知共调控基因,询问它们的表达类型是否相似,若是,还有哪些其他的基因有相同类型.第三,通过无监督的学习方法进行基因分类,并询问是否聚类包括外围基因在内的有生物学意义的基因.最后,类可通过每个无监督的类的核心基因训练支持向量机的方法来检测和优化.
神经网络作为一种机器学习方法,在基因调控网络分析中也得到了广泛的应用.但采用神经网络方法,当样本集较小时,单个神经网络的分类效果比较好;当样本集巨大时,单个神经网络的学习时间显著增加,并且可能学习不收敛,通过多种策略将多个神经网络组合在一起,可以较好地解决问题,但增加了算法的复杂度.采用支撑向量机算法对巨大训练样本集的多类别分类问题进行研究,尤其适合于对基因调控网络中大量基因表达数据的分析,可以获得较好的结果.SVM方法正在成为继神经网络之后机器学习的新热点,并将推动机器学习理论和技术的重大进展.
通过支撑向量机的学习算法,可以有效预测出转录因子与它的调控目标之间的关系.文献[23]中采用支撑向量机方法,通过对啤酒酵母36个调控因子的研究,预测到它们一共调控着3419个调控目标;一个转录因子调控着将近93个目标基因,而一个目标基因受到1.8个转录因子的控制.一个转录因子调控着如此多的目标基因,由此可以看到研究它们之间关系的重要性.
1.3 随机作图和基因回路图方法[21][20]
在特定条件下,特定基因表达的启动或停止、增强或抑制,是细胞完成基本生命活动及对外界刺激作出应答的分子基础.基因表达和调控过程可看作是由一个基因和基因与基因之间相互作用关系所构成的网络决定的.1960年,数学家P.Erdǒs和A.Rnyi提出用随机作图理论分析网络的拓扑复杂性,该网络被称为“ER模型”.ER模型建立在随机过程上,一定数量的节点彼此随机地连接在一起,每个节点具有相同数量的连接.近年随着大量数据的产生和计算机的应用,发现在基因调控网络中,基因之间的连接也可以用一个ER模型来表示,但它既不是概率为0的绝对规则连接的网络,也不是概率为1的完全随机连接的网络,而介于两者之间.该网络被称为“小世界网络”.在小世界网络中,任一个节点可以和其最邻近的两个节点相连.少数节点的连接数还可以远高于平均节点连接数.在此基础上,基因调控网络可以用一个加权有向图来表示.通过把图论与ER模型结合,控制λ噬菌体的溶原/裂解活性的调控网络的数学模型已经构建出来.
[26]基因回路图是一种新的基因调控网络模型,但由于它的形式类似于电子回路图,分析的方法类似[25][24]
第23卷第2期曹祥红,等:基因调控网络数据分析方法研究 93于电路中的模块化的方法,而不同于前面的数学方法,因此在这里也作为一种数据处理的方法加以简单介绍.在回路图中,每个功能相同或相似的基因组成一个个的模块,每个模块或者调控基因与目标基因的结合位点看作是电路图中的一个节点,它们之间的作用视为连线,在每个连线交叉处放置具有计算功能的小晶体管.信息从回路图的左边向右边流动.回路图的右边输出产物,对应于调控后输出结果.回路图的输出信息相当于发起转录基因的信号,这种信号能控制基因的转录时间、地点以及转录数量[27].参考回路图能够更好了解不同模块和结合位点之间的相互作用,且通过晶体管的计算功能以及简单的计算机程序就能定量预测整个基因组表达的调控过程..但这种方法是一种新的方法,目前只有DAVIDSON在海胆胚胎的,理论上还不成熟,其潜在的功能尚需进一步的研究和验证.
1.4 数字信号处理方法
,其在基因,每个基因-基,[28].可采用功率谱分析、相位变换、.采用这种方法可以提高探测可能被其他方法忽略掉.多重相变不仅可以探测到短期,也可以探测到长期表达的基因-基因间的相互作用.本方法的缺点是每个基因的时间点数据少,限制了分析的信息量,尤其是噪声对少量数据的影响会非常明显.另外,数字信号处理要求数据的采样时间间隔是固定的,而基因表达数据的时间间隔却可能是不相等的,但这一缺点可通过数据拟合和插值解决.如把数字信号处理方法和其他诸如自组织图、决策树、相关分析等聚类工具综合应用,用于观察基因敲除后的细微变化会具有较好的效果.
采用小波变换分析基因表达数据,可以充分挖掘基因表达数据的时间特征,对其进行正确的聚类,从而构建基因调控网络模型.具体算法如下:
(1)对数据进行预处理,归一化方差和零均值;
(2)对数据进行离散傅里叶变换,挖掘起整体的频域特征;从其功率谱找到最大的能量分布的时间[16]点,删除其他的点;
(3)计算上步中筛选过的数据的自相关函数,用于对于表达差异的点的观测;
(4)选择最佳的正交基,对自相关函数做一位连续小波包分解,采用信息熵分析;
(5)采用k-均值聚类方法用于不同的包含有小波包系数的时间序列向量,加强局部行为,得到聚类结果.
如何利用数字信号处理方法分析时间序列分析特点,来分析基因表达时间序列数据,从而构建基因调控网络,是一个值得进一步研究的方向.
1.5 组合方法与系统生物学方法
从已有资料可以看到,绝大部分的基因调控网络分析都使用了一种以上的学习方法,如隐神经网络,进化神经网络,模糊逻辑神经网络模型、布尔网络与微分方程结合的方法以及图论与概率统计方法结合的概率图模型方法等.将不同的方法进行组合,形成更好的学习方法,有利于克服单个方法的缺陷,取得的效果会更好.这不仅是基因调控网络研究也是生物信息学研究发展的一个趋势.
系统生物学是一个新的生物学领域,它在系统的水平上理解生物系统.它需要对新的分析方法、测量技术、实验方法、软件工具以及对待生物系统的新观念的全面理解.随着基因组测序工作的完成,大量的工作急需完成:系统的结构,如基因网络的结构和物理结构;系统的动力学分析;控制系统的方法;根据期望的特性改进和调整系统的方法[29].前面所介绍的分析和建模方法都是从单一的角度来解决某一个方面的问题,更侧重于数学和算法分析方面.而系统生物学则是从全局的角度出发,全面的解决问题,是一种综合了生物学方法与数学以及计算机分析与建模方法的综合分析方法.在系统水平上阐述和理解生命系统,建立系统生物学的框架,以便更准确地描述基因与基因之间,蛋白质与蛋白质之间,以及基因与蛋白质之间的交互作用,更有效地处理生物系统的复杂性问题,不仅成为生物学家的艰巨任务,也是系统与控制科学家面临的机遇和挑战[30].
94 周口师范学院学报2006年3月2 结论
基因调控网络研究是一个新兴领域,是数学、信息学、计算机科学向分子生物学渗透形成的交叉点,对许多学科的研究工具有很好的兼容性.各种模型不断涌现,各种数学工具不断引进,使得其发展空间不断扩大.这里已经介绍了应用于基因调控网络数据分析的大部分方法,其他常用的还有决策树、回归分析、规则归纳及状态空间等方法,新方法也正在不断涌现.但是对于形形色色的数据处理方法,哪一些更好?这个问题很难回答.就像上面已经介绍的那样,,也都有它们适用的情况.问题的关键是,.,也有算法本身的问题,,试图找出这些结果的交集作为所谓的正确的结果.性、预测性来判断这个方法的可靠性[31].,的评估方案.,在分析的同时就考虑对分析结果的评估.
,已有的建模方法在建立高效仿真的模型而导致参数集规,使模型复杂到难以处理的程度或不得不缩小建模范围而使模型反映的网络范围狭小[32].目前,只是对少数模式生物和少量基因进行基
[33]因网络研究的尝试,希望能将其中得出的有关结论用于更大规模的基因网络之中.但是,在理解这些巨
量的生物学数据,以便建立预测性模型及分析结果的生物学解释方面也存在一些问题.但随着非线性技术的不断完善、计算机运算速度的不断提高和建模与数据分析方法的不断改进,该方面的研究将得到突破,并最终在后基因组学研究中发挥重要作用.
参考文献:
[1]郝柏林,张淑誉.信息生物学手册[M].上海:上海科学技术出版社,2000:242-244.
[2]科技部农村与社会发展司和中国生物技术发展中心.中国生物技术发展报告(2004)[M].北京:中国农业出版社,
2005.
[3]CollinsFS,GreenED,GuttmacherAE,etal.Avisionforthefutureofgenomicsresearch:ablueprintforthegenomicera
[J].Nature,2003,422:835-847.
[4]Dassowg,Meice,Muocoem,etal.Thesegementpolaritynetworkisarobustdevelopmentmodule[J].Nature,2000,406
(13):188-192.
[5]孙啸.生物信息学讲义[M].南京:东南大学出版社,2004.
[6]易东,杨梦苏,李辉智,等.相关分析在建立基因调控网络中的应用[J].中国卫生统计,2003,20(3):144-146.
[7]RaymondJW.AreviewofstructureΟbasedbiodegradationestimationmethods[J].JournalofHazardousMaterials,2001,B84
:189-215.
[8]WeiHR,YiannisK.InferringgeneregulatoryrelationshipsbycombiningtargetΟtargetpatternrecognitionandregulatorΟspecif2
icmotifexamination[J].BiotechnologyandBioengineering,2004,89(1):53-77.
[9]KimJH,MoonBR.NewusageofSOMforgeneticalgorithms[J].Gecco,2003,16:1101-1111.
[10]WahdeM,HertzJ.CoarseΟgrainedreverseengineeringofgeneticregulatorynetworks[J].Biosystems,2000,55:129-136.
[11]AlbertR,OthmerHG.Thetopologyoftheregulatoryinteractionspredictstheexpressionpatternofthesegmentpolaritygenes
indrosophilamelanogaster[J].J.Theor.Biol.,2003,223:1-18.
[12]YMKStephen,TegnerJ,CollinsJJ.Reverseengineeringgenenetworksusingsingularvaluedecompositionandrobustre2
gression[J].Proc.NatlAcad.Sci,2002,99:6163-6168.
[13]MehraS.ABooleanalgorithmforreconstructingthestructureofregulatorynetworks[J].MetabolicEngineering,2004,6
(4):326-339.
[14]LaubenbacherR,StiglerB.Acomputationalalgebraapproachtothereverseengineeringofgeneregulatorynetworks[J].
JournalofTheoreticalBiology,2004,229:523-537.
[15]潘金灯,郭腾冲,涂序彦.生物信息学中的智能模型[J].计算机工程与应用,2003,28:81-84.
[16]JongHd.Modelingandsimulationofgeneticregulatorysystems:aliteraturereview[J].JournalofComputationalBiology,
2002,9(1):67-103.
第23卷第2期曹祥红,等:基因调控网络数据分析方法研究 95
[17]龚光鲁,钱敏平.应用随机过程教程及在算法和智能计算中的随机模型[M].北京:清华大学出版社,2004:393-395.
[18]SteuerR,KurthsJ,DaubCO,etal.Themutualinformation:detectingandevaluatingdependenciesbetweenvariables[J].
Bioinformatics,2002,18:16-25.
[19]PatrikD.Reconstructionggenenetworksfromlargescalegeneexpressiondata[M].UMIMicroform,2000:37-40.
[20]WyrickJJ,YoungRA.Decipheringgeneexpressionregulatorynetworks[J].Curr.Opin.Genet.Dev.,2002,12:130-
136.
[21]VapnikV.StatisticalLearningTheory[M].NewYork:Wiley,1998:768.
[22]MadsK.Theengineeringofgeneregulatorynetworks[J].Annu.Rev.Bi2003:179-[23]QianJ,LinJ,LuscombeNM,etal.PredictionofregulatorynetwΟwideptionfactortar2
getsfromgeneexpressiondata[J].Bioinformatics,2003,19(15)-[24]WattsDJ,StrogatzSH.Collectivedynamicsof‘s393(6684):409-10.
[25]张玉萍.,http://www.cbi.pku.edu.cn/chi2
nese/documents/papers/,[26]MalcolmA,CaDics,proteomicsandbioinformatics[M].PearsonEducationInc.,2003:
1-352.
[27]LittleJW,DP,ertDW.Robustnessofageneregulatorycircuit[J].EMBOJournal,1999,18(15):4299-
4307.
[28]ButteAJ,BaoL,ReisBY.ComparingthesimilarityoftimeΟseriesgeneexpressionusingsignalprocessingmetrics[J].
JournalofBiomedicalInformatics,2001,34:396-405.
[29]HoodL,HeathJR,PhelpsHoodME,etal.Systemsbiologyandnewtechnologiesenablepredictiveandpreventativemedi2
cine[J].Science,2004,306(5696):640-643.
[30]KitanoH.Lookingbeyondthedetails:ariseinsystemΟorientedapproachesingeneticsandmolecularbiology[J].CurrGen2
et,2002,41(1):1-10.
[31]吴昕,罗静初,李伍举.基因调控元件的计算机识别和基因调控网络构建[EB/OL].http://www.cbi.pku.edu.cn/chi2
nese/documents/papers/WuX.pdf,2004-12-07.
[32]雷耀山,史定华,王翼飞.基因调控网络的生物信息学研究[J].自然杂志,2004,26(1):7-12.
[33]彭华正,潘建伟,朱睦元.基因网络研究进展[J].生物化学与生物物理进展,2001,28(6):815-818.
ResearchondataAnalysismethodsofgeneregulatorynetworks
CAOXiangΟhong,CUIGuangΟzhao11,2
(1.SchoolofElectricalandInformationEngineering,ZhengzhouInstituteofLightIndustry,
Zhengzhou450002,China;2.DepartmentofControlScienceandEngineering,
CentralChinaUniversityofScienceandTechnology,Wuhan430074,China)
Abstract:AlargescaleofgeneexpressiondatahavebeenobtainedbecauseofapplicationofDNAmicroarraytechniques,whichprovidesthetechiniquesupportforresearchaboutgeneregulatorynetworks.Ithasbecometheimportantcontentsofbioinfor2maticstofocusontherelationshipbetweengeneexpressiondataandconstructgeneregulatorynetworksinordertosimulatetheac2tionsofbiologysystems,findtheruleofbiologyandunderstandtheessenceoflifebythemethodsofmathematicalmodelsandartifi2cialintelligenttechniques.Weintroducethegeneralanalysisalgorithmandmethodsofgeneexpressiondatainthispaper.Newre2searchdevelopmentsarealsomentioned.
Keywords:generegulatorynetworks;clusteringanalysis;statisticsmethods;randomgraphandgeneticcircuit;systembiolo2gy