基因表达谱的生物信息学

军事医学学院科院刊

4554年 I 月 4第V 卷 第 6

期IP

[ ]. ./(!. ?0-#3"’ 45,56 1%4, KO =+%#( 3(#") +%> =+&(>#$D"%& *>-’$-+ (&4 :)H6 6M P 9 866/ [7] 4J%*%O%3 NQ,&3(D’*#% -,S%RO%*>%D ,!N" # /$ N? !+’&+&(#%" E’ ’,+ ( [] .%>*’O;@+>#=>+ @+$""3& ’#EE+@+>&(%#&+&’ )" *+’D"%>> *3+%)(#" $+%"3 / (P)" :657 696 58 /7. L* A $ ’T+?!’>",4565,46

4

K

"#!%&#$’(& ’!#)+(&*$ +" ",#"’)-’ .[]/ 0# *)(&+ +"1" 23,4+56,65 (47): 879 6 4 5/[4 ]6 %(+:""#; 2,%$:%@’;A%?(+"&"# :/ B-1&3’C++&%" %"@ ((D"+%$ >"%+&%>&#(’3#( ? *D% "D(()&D* ’>$ +""3 : $’(E’%%$ "#$>’3$’*- !3D@& .] [(H ):75I 9 76 /6/ #F&’$?3+ 1*"+ "G’#,4"56,566 H44[]. )%)% >./ J(F&%=%>$D"3%>!> 33+D>+> +D")%&3 +"$’%"%(@ )’,%" 1" (4%) 1:I78 177M /90? -3#"’455,,6M6 4[I] N4%+*%3D-N A?#*%@%, :,#)A #F/ (J&%$+"">"D>[% 14% K] &>%(#+3&3 #( (军事学科学院院医刊45 5 年 4I月 第 V 卷 第4 6 3期#; [ .)]( %"(#) (# +$">,+%> "%&+>->3 ’’*?&* D$"3+ $"+" /3L *. ?03-’#"1 +"

["4]H #+3U(> G+F,%)+( /Q +%3:D>*++& ’(E #&>(%$"+D"%>" 14 K% ?%$(+3) D; #() 3’(+=" $%+) $-$"#@ $($D+"’#@+&3%(@ $(’E’$% ""%+>33 $%((() *## ;[. ](4;I) $>’:3’!$/. 0 ’?’$?&+ 0?’*&’#’" ,,G 8886 78 6,64 9 668/

(本编辑

兆弘杨

)基因表达的谱生物息信

李学举

(军事医学科学伍基院础医学究研所, 京北6 5MH5)

5[要摘]WT L 微列技术是阵 继TL W组技术、重 可以同时 10 扩2技增之后的术又一重生物大术技。基于阵列实微验 ,观在察一生命某现象成中上万千个基因动的表达水态平。过去与的研模究式单即基因个表达的究研比相,分子生 学工作者物观的将由此念发巨生大改, 变使得人能够在基因们水组上以系统的平、全 局观的念去研生命究象现及本 其。质目前 微,列技阵已术用到应瘤肿型分、 瘤肿类、 分基功能因研究、基 因之间控网络构调、 建物靶药位别等识多方许面, 但是 , 从本质上, 讲通微阵列实验所过直获得的是接个一基因表谱达即(基因表矩达阵, 其行示表因, 基表列实 示样验)本, 微阵列的实际 应用就通过对是因表基达矩阵的物信息生处学来实现的,理 此因, 由在微列阵技为基础的术 子分生学物研究中 ,物信息生是其学中其重要及的环一,本 就与基因文达表谱相的关生物信学息方法一综述作。 [键关] 基因表达谱词微;列阵生物信息学 ;中[分类号图] PXV M文献标[识码L][文 章编] 号5565HH56 ;(4545)5 ;556I;5P

7

"!#$%"#’&(")* +,(-. +$# -$/ --0&-1++#$ "1&%#"2:-( -3&"-4

%&’ )((

( *J(&#&D3+&’E G %#3 $+@:#$%" $#A+($3+,$L%+*- @E ’:"#&%>-# :+@$%# A"$#(+$3,G++#Y#) 6(5M55H,1?(%) [5,+)&(*)# G%]+3@’( WT *#$L>’%>>% -+$?(&"’)-’,?+&

+Z>+33#’( "+!=" ’+E& ?’D3%@3 ’(E )(++3$%( , +’3,>+=@ +3*D"&%#+(’D3" -# 3’*+(! %>#&$D%"> "E#+ >’$+!333+ 1’/!%>+*@& ’&? +%!&3> ++%>$3? %&&!>+($’ $((+>%&#(& ’() &?++ Z!+>3#3(’ "++"= ’ ’E( )+(++&,+ !?+3+>( >&3+%>+?$!% &&+( >O"# "+ ,?%$)(+ @#)3#E($#%&(-/":’" $+D"% ,#’>’)#3" O&#""# =(+3&#%)+&&?+ " #E+!?+ ’(+(’( *(@%# & 3%(&>+ D>E’* )(’+*#$" =+" #( +-3&+3*%&$# (%@ ")’%," O-%/ & !L>++(3&,#$*’%>>%->&+ $?’"()’-? %3 +,(+ %!!"#+@& &?’ E’"+’O"(# %)!3+&$3:D*&’> 3,D&!-#),( D’*> "$3%#3E#%&$’#,(+3>%>$? +’ ()(+ +DE$(&’#(&?+, $(3&>D’$#’(& ’ >+)ED"&#%) (+&O’(C %>*’) )((+3,&++?#@+ (#&#E%&$’# ’E @(D) &%>>+& %)@ 3(’’(/ ’F+O+=>,?%&O + $%(O)+& >’* E*$>#’>>%%- Z+!+>#*(&+ #@>+&$"- #3YD3& % %&*>#Z ’E )++(+ Z>!3+#3(’ O?>++ ?+ >&O3’ %@($’ "*D3 (3&(% E’>@ +(+) %3( &#33D@3+> 3!++$#=&"-+ L""/% !"!#%$#&’(3’E * #$’>%>>%-+ !+Z>#+*(& %+>> +%"[+# @-,,#’ #E’(*%>#&3$ &+%&*>+(&’ ( )++ +Z( !>+3;#’( 3*&>#Z%/N +?>E+>+’,#,#’(’E>*&%#3$!" -%3 %=#&%" ’>"+ J(/&?# !3%+!>,&? >++"&%@+ ,#’#E’>(%*#&$3 +*?&@3 ’’> &E? +(%%-3"# 3’ E+(+) +Z>!+3#’3( >!’E"+ #>%+>+= #O++/@[ 67- #&.+4 )](++ +Z!>+3#3’ !>(’E"+#*#$>;’%>%>-,;#’#(E>*%&#’3 随着$人类基组因作工草图及多以种式模生物基因组全序 列的得,获 人们正进后入基因时代组 ,因组研究基主要

的6] [焦点经已从测转向功序能研 , 究面对各着序列种据数库提

于微阵列术,技 人可以同时们观成千上万察基因个在某一 命生现中的象表情况, 达从将基因的而动活态比较状整完地[收

日期] 稿54659 M59 4 [P基资金]助 军医全药卫科生研基项金 (目65L:P5M [)作者介简]李伍 举( 86VV 9) 男,, 江省苏沭县阳人, 士硕 ,副研究员。

供的以万计数基因序列的, 人们不要禁问 这:序些列功的能究竟 什是?在某么一体的生命具象现又中如发挥其作用?何

万方据数 4] [最近兴的微阵列起术为这技问题的解一提决了思供路。

*(

展出现, 来使人得们够能从基组整体因平水把上握生的某命些特征。目前 , 微列阵技术应已用于许方面多 ,如 !#"% 等

[&$]

军事

医学科学院刊

院’J

J’ 年& 月 第’) 卷 第B 期

性杂

交,必 对探须针行进门专设,计通常 下按条列件进行 择: 选要每个探针序求列有具相的近熔解度温, 适合长度, 的无 定稳发的结夹 ( 构/">4,% #N>9ON">9)$, 并与 他的其基序列因无

[B明( B,] 5目。前,我 已们按上 显的似相性( 相似性在 *@J以 )下

用谱利系聚类方法对酵的基母表达因谱进行分析 (’ () 个 *基因 )。果表明结, 有相具功能似基因聚的在类一簇个中 由 ,此可据一簇中某已知能的功基去推断因簇同其他中因的基[

( ]功能 利用;基因

表达谱技进行细胞术周期究,研 ,$+--/.%

条件设计述了程 序QP8>$: ,可进行寡苷酸核片的芯探设 针计

并用傅立叶变换方法找出与胞周细相关的一期些因;基 -1

[5]0 基于因表达谱基扩张将性 6巨细胞淋巴瘤 成分两" /234$ 等

"

聚类分

聚,类是 物类以聚意, 之是利用就聚类分析法方和因

基类

。别特是, 于基因基表谱的达瘤诊断已引肿广起共泛识

,)] [如 78-9: 等 据急性成髓细胞根白病与血急性淋成巴细胞

表矩阵达对以千 (万数 )计的基因与分被的析全体实样本验 进聚类行, 以对基因进行便分类样与本行分型进为。,此 必须对基 因( 样本或 之)间的似相性或离距进定行量。通常将矩阵 每一的行视为% 空维中的间一个或点一 个 %向维 (量 为%全体验实样的本数个) 并对,每个因基表达向量行进标 化 准(准标之化其后值为均J, 方差为 B ) , 设

#K$B "

血样本病基因表达谱,的 采用71+ 法算 找出用于,断诊基的[*]

集合因,并发现一些 键关因;基 如 又;"8%

基因

达表谱,采用主成分分 析 与"=4#> 判$分别析结合相法对 结肠方癌诊断进的了探行讨。果结明,表 用采* 个 成分主获可

[ ?A B& 得]?*@ 以 上的类精度分类。似的子还有许例多。 些这

分充说了明基因表达的生谱物信学息究的重研性。要前,目 因表达谱的基生信息物研学主要集中究在下列个几方面:聚 分类析、分 类究、研 视可化究研基因和达谱表数库构据等建方面 最终,的目是从物信生学息角度出发 ,用基因的利列 序据和数有的关达谱数表据来探在某一特讨生定物状学下态 基因功能的

。’ 距离 ’

K ! ( $ %# I&$ )#

KB

#"

然显 ,相系关数 与距离!’ 间存 在之 下 列关 系 ’K:’ (B !I 。)当, 然可也以采统用学中其计他相系数与距离定 关。有了上义述义之定后 便可,以构建因的基关系相矩阵数 后,然可运用谱 系法对基因方进聚行, 类其要主过程如E M%. 下: ,首先将. 个因视作 .基 个类, 从关系数矩阵相E 寻找中最 大元素即最相值的似个类,两 将它们并合成并一类, 由 此原来的 个.便转类化为 .I B 类 ,新对的. I B 类续构继 相关建数系矩阵 ,此过反复进行程,直 到后最, 有的所. 个因基在 B 类 为止在。需此出的是,指 类与类间之距离定的义有 种方式多, 比较常用有的下如) 种 方式:最短距离法、 长最离 法、 距中间离距、 重法法心 类、平均法和差平方变和, 这法在

一[&]

般的统学计本课上均有绍介目前,。 !"以#$%等 编写 谱

!

因基达谱数表据获的取

在于微基阵列实的中,验首先选 取自来同不态状样

[&的 ] 本如(常组正织与肿瘤组, 织不同发育段阶织, 组用药或之

与用药前后组织之, 等其一种称为实验中样本 ,外另一称种 为考参样)本, 在逆 录过程中转, 实样本和参考验本 样DC0分别 不同的红用 、绿荧染光去料标记 ,将并们它混,合 与微 阵列上的探序列针行杂交, 经适进的当脱洗骤与步激光描扫 仪芯对片进扫行描 获,得应于对种荧光的荧光每度图强, 像 通专用的过图分析像软,件 获可得阵列上每微个点红的、绿荧 光强度 (E5F和 E F)&, 其 值比( E F5G EF) &为该称基在因验样

实[& 本中的]达水平 表。通常情在下况 ,考 E虑5 F和EF &的值数

时,还 考虑相应的背应数景, 如果值阵列上微个基某因的E 5F EF或 数值&相比应背景数值的, 低则该基因表的达平无水 确法。为了定方便据处数, 理常数值 B 以示表该基因表达水的平, 或接直空值 (以缺省即)值表示, 在做具 体数据分析时 可, 通过低降数维办法来理缺省处值。 另外 ,了为反映某个基因表水达在实验平本样和参考 本样的中倍关数, 可以对上述系比进值以 ’行 为底的数对变 换即 H以8(

系类程序聚E -9#N$> 和R >$$"$ST 因良好表现的形式和从可网 免上费下等载因而原及普我。曾们用该利序程结对癌肠

基[B]J 因达谱进表聚行类 。在基该因表谱中达, 共 )有’ 个验

实样, 其中有 本’ ’正个常织和组 (J 个肿组瘤, 织为对这了些组 织进聚行 , 类 先首对 每个 基 进因 行 (检 验 ,并选其 ) U 择整样个 J JVBJ W的 *基个因这对组些织行聚类。进果表明,结 本基本分为 上 &:类其 两中类肿为瘤织,组一 类为正常组织 。然,显实 验样的本类聚方式随所选基因将集的合同不有而 变所化, 选择同不聚的类法也将方实对样验聚类与本因基聚类方 产生一

式定影,响 那么 ,究用竟何聚类种方法采和用何 标准选种择因集合?基前目没有还最终答的案除。去上面论述 谱系聚的方法类外, 比较常用的类方法聚还有:X 平均1 值法 X(1.$%) / 、模拟退法火自和组图 ( #法$-Y8>1

个方数据 此万, 为了外芯使上的探针片能够与相应基的进行特异

军事学医学院院科刊

’$

’ $年D 月第’ % 第卷 #期

@ &测预度的精影响。总之,可 以采统计学中的用各分种方类法如 :-I, /类等来分究基研基于因达表的谱瘤肿分问类。

题 (因样本) 或新重分配到新的类中 ,过程此反复行进,直 到最 形后成定稳 ! 的类 同,时,为 了避迭免的不代敛收 ,要需预先指定 代迭次的数。另外,此 ! 类最初随机与定的指! 个心 有关中,为了 得获较好的类, 常聚进行多常重次复算计。拟模 火退和法自组图的法思想类似 于!平"均值法方。在模拟退火 中, 法始指开定 的! 个心不中随是机的,而 通过是拟退 火过程模(通过 有参关的数降升实现来) 的确定! 中心,个然 后 基因对( 样本)或的 归与类!" 平值均法方相; 同而自图组法 方则是通在基因过( 样或本) 空间预先中定指一数目定的网格点 实来现,的 用采! "平值均的思和想定一的学习度速对格 点进行网移,动 在动一定移数次 后一般( # 在$$$ 次上)以, 格网点 将到达定的一位置 使得基因 (,样或本 形)成网格以为中点 心的类 。这 些 方法 在基 因 表 达 谱 析分中 都 到 得了应 [

$, ##,##%] 。用

"

主成分析分

于在基鉴因表达谱研究,中 及涉的基数量因很,多 且

而有

多基许之因的相间性很高关 ,为了从学数上化简这些量

[变#0]和 有关究的研化,简常使用 主分成析方法分 。主分分成

析的目

就的用是较的少综性合量变替代原众多的来相性关 变, 量这一的数步学操作其极单,简只需 出相求关数系矩 阵的特征值特征向与量 ,按并特值征百的分取比一出数定目的 征特向量构变换成矩阵,从而 原始矩将阵化为转主分成 阵矩。但其进对生行物解释学却有大难度。比如对上述较结 癌肠因基达数表分据时,析 如基因进行对,则采 用& 主个成 就可以解分原来释 ’$$$ 基个因 0的E$ 上的以信息 现在,的 点是如何解释这难 & 个“超基 ” 因

的生学意物。义

!分

类究研

用利微阵方列研法究某生些命现象时 常,常考虑因表基

#

因基达表谱序与生列物息学关信

通系过述聚类分析, 上以发现可许基多因其因表谱的达相

谱在达同不态状的变时化情, 以便况从因水基上阐明平造 这成状些态同的原因异者发现一或有待进一步些究的感研兴趣 因。基别特, 是目前用利因表达谱在肿基与正瘤常织组

[#中& 的差]对异瘤肿进行类分诊与已形成共识断 。前当肿瘤的

似而性聚类在起一。实上, 基事因达谱表只基因在某是生 命一程过中的表现已, 而基因是的型数据。如何通表过这表种 数据型揭来示基的因结与构功能系关进而示揭某些命生现 象本质是的阵微列验的实要目的主。此为 我,不们得不考 影响基虑表因的达各调控元种素与达谱的关表。系中其个

[’$一]重要 面就方序是调列区与表达谱控间之关 系。此, 为首

分技类高度术依赖病于理学工者作肿对组织的主瘤判观,断 而基微阵列技术于 ,使即一些组没织有著显化变 ,利用因基

[’]# 表达谱也以可对之做早期诊出断 另外, 特;重要别的点

一是可以据基因表根达谱变的化来区分态学形相上似肿的,瘤这样 对肿瘤型类( )(+*,( -.) 的精确/识有助于制别配套的 定最佳方案 从,而达增到加效疗、降低 毒性的目。的于基因 基达谱的肿瘤表分对肿瘤发类机生的理制以及征服这解肿 些提供瘤了要思路。但是, 重究竟用采少多个因以及基如选何 这些基择因 到,前为止目,还没有定 ;论 过, 不采用最少的 因基达到高最的测精度将预是追求目的标。[%

] 在#000 年, 在4 5/675 /发表上了于基基表达 1因+)32等

先, 基于 基因表谱进行聚达分类析, 所将的基有因行进类聚分 ,析从而 基因分将若成类; 干后然 ,对一每类因基列序别 从分列 数序 据 中库 提取 其 上游 %$$ 3 .的序 列 段片, 采并

用[’#], 寻 找基因该集合的一致列 (序 5+7"163 3

于酵鉴母与大杆菌肠的基因全序组已获列

列模式行进进步的一类聚分析 在。此 须,别指出的是特 基因表达,谱映的反各个是基因 在某生命现象一中动活状态的型数表据,基 基于表达谱因的基 因类更聚能从功能反上基映因之间的系, 关并有多且例数据表明 :同 基一的因不片段或功同能相的似基因常聚在 一。类此,因 基因表达谱给生物息信学工者提作供了一种易 识别基因调控区于式的手模。段可以预, 期基序于的模列构式 建方与基于基法因表谱达的基聚因类方法相合结将必著 促进功能显基组因学研。究

谱对白血人病行分进类文的章, 在该基表因谱达研究中 共,有% 8 & 个# 基 因 ( ,:)(5/2 *" 9-& 例 急性成 淋 巴 细胞 白 血 病 和’@ 急性成髓细例胞白血 (病:5)( /.;32:?,) 。作?者用采邻分域方法析 ( /6C;7+3,;+A+ *-2/+A62 /=/)*:6, >?) B 首先,从 D8 个本样中 ’( 例 &??>, 构建了 ::7-2?B 分)类器, 后然其对他 D 9例本样进行类分 (# $例 >??, 9 ’ ,例 结果到达 #$$了 的正E率。在确此程过中,采用了预 >B?) 强测 (度 ./,65A(

[& ]

采用了主

分分

析与 6

[#]8一 定限。最制近,我 们采 用G 6;/

基因表$达谱分析件软及关资相源除

上述于聚用分析类 K的)

万数方据达 到 @0E左 右, 并且,此 类精分已考度虑样了品分配案对方

结合的

法办, 结表果,明 需只@ H %基个因,预 测度就精可以

其他

用于基表因达谱析分软的,件见表 #

ST

表!软件名称 !"$%#& ’()* ’+&,&-& .879:’0&$ $;&& 1?5’*=%#$ 1;&)

医事学学科院院刊

MQMQ年 V月 第MS 卷 G 第

"’(4 C8&="&" A>"/0>5 -*(&)%O--*&3 A&4&) &:’&0$$5) -0’5-"O)4[-7 ]2 ( STSY ):QV HW GH 2 PG(%#’,MQ&QQR,VQ [S ]

;5"# 3+,E 5IB,+>(A(5?,!" # $2 K "&5="(#’= "($-$-=O(%5- 5O) ()=&’: ="($= $*-=$5&6’ A()* "=($$ 0&*’-%=5)-3 A &4& &:0)&’$-$5) >)5-8 [7 ](HVY)R: VHG W HV T %52-)’42 =5#0%%(5-() >&%/5"$ O5* 4’)&&& :8 [ ] 7(S) :0 &$’$-)538$&( %#*>5’ ="($$O--(%=-)52 -C%&5/)=_#-$& ,MQQ,QMY G MS WRGMTQ 2 U][?& ’5 #!K,7&O’&OA #) >((>>(’A &0-%/"&(" =&""$ ()- 3*&(’% $=() 8 []7 (GS :)YGMM WYM T G =&’$2 2?’5 =P(%" @ =*( =

Y基

表因谱达管与理析分... )/4’22-) /- 25641 BD E 1芯片 像图处理

"

展望

经已展发几十年的序了列物生息信学比相 ,因表基达

Y][? &5’,!K#, () ’3&(% $%#5>’# $[QG ]@5") ,C([X(-’P ,5%P&’%()>B ,@! #$"2 ’C5(* (%%&’0) 5O$ &4)& :&8 ’&$0$-5 )&6’&"&* 3(A="#$ %&-)’4 ()(A"-$$5 O% #5’ (>) *)5’>(" ="55) -$8 %[7 ] #$$ 0&53’*& 3A5 -"5)#4"&=5%-& *’((’$ A2 ?5’=P %" @=(( * 5? B-,&K$-’657, !" $ 2 D#%)’&0&%-)’ 0(4%%&’) 5O$ &4& &:)’&0$$-) .-%/ $&"O58’45(-)L)4- >(0$: >%&/5$ ()* (0*"0-=(-5) %% [57 ] &/>(%505&%--=* OO-&’&%-)(-5% ) ?’5= P(%2 @="( 5*-&="(*- $56=&’A .%-/ B@ P’’(A( $ [7 2 ]&!"",MQQQ,(G ) : GQMY W GH [2VG] #J4/$&+ ,E(’%K) K5,77)&5 $E,@" #!$2 b# )%-=5)("* -$5=&6A’6-( ([ ]7 G(): QY W G=>05)&-#> *O &5:0&’$$5)- ’0O-"&$ 2 !&"5,"QMQQ,GMQG S M [G2]RI )&( K,7(%BX5&+@, O0 !E!", # 2 $@$&$$>$)% 5O &%/ &$)&-%-$6-8(H Q>&)>-’’=(5’(A$ ’ [7] % A)*($0& -O-==%- 5OA "5-5)4#"&5%-=& *2P #=&-= "MM) (:M QQ,MQUR HH WM RHHT 2@ =-$* &$E ,GH][E (**(L %,B/5- ,KK&A’ &b,+ "!# 2$? ’-&>’@’(A: 4&)5’>8$&=(&"0’ ->&’ &*$4) -O5’BP@8 >=-’(5’’A (=)$%5’#=-%)5 [7 ]2 C5--)5O’(>-%$, (G) = M:QGQ,GT Y U WY 2Y [GS ](6(L5+- &,0(3""&K7 ,"! $#2 A$%(-= %&*&%>-’)( 8V) :(2 P(%; &&%),GYY,MMY%- ) 5O5 4)&&-%= &%).5’ X’=(-%/&=#%&’ []7MU W MUG 2H GT[ C&]’$) 2@ ()!&=:’&)& 4:0&’$$&5-)- ) -*(45$-$[)7] 2 P(%#&,MQQ’,Q (TSY) :RSGY W RMY2 RQ V[ G]UF -7^N-5,) 4KK2+=" ($$:#+>’5= "$$(O--(%-=) $A5%&> 3($$&* 5 )&4) (&) :M&:0 ’&$$5-)0 5’-O&"[ ]7 2C 5-)O-5’(%->$,MQQM,= G UVH WM VS 2M[ YG N]( -NN-& ,\2@ KB@@:[ 7 ]( )"(A-$ $O5 >-’5=’((’A *(( 2%C- 5)O5-’>%8 (() :S -=$M,QQG,GT SY W HHQ 2 TM[Q] C(L’>(@, -,5 "2 7;&) &:0’&&$$5-) *%( (((")A-$[$7 ] 2b9C

=& 9,!"@%$/="# 0"$-4) %’$(%&A 4O5 ’#">-0"% ("&4-)>&%) [] 2 (7HGG)V:M Q U WGM 2 ( >$("") #>&’3 5O &4) &&0’&$$:5)-0 %%&()$ #’*&) %/’&C 55&"() [ ] )7&%5’X.> 5*&" 2 (=? 0C -=55>0%#GY,YY,V: TG WMU

谱2的物生信息学仅于起处步阶段,尽 应用管诸如聚了类分析、 分分析类 主、成分析等分方法, 仍但有许问多有题待进 步研究一如。个物种每的因基组含所的因基列与基因序数目相 对固,定 这但些因基的达水表平随着发阶段不育同外部或条件 变的化变而,化如何 根据这基因些表达平水变的化构来建 在定一部外条件下这基些的调因控系关 即调(网控)络

[模MM 型]尽管目前已研?制一了些模 ,型但 不还完善 ,这问题些

对理

解复的生杂现命象非常要重。特是随别着人基类组 工因作图草多与种模生物基式因组序的测完成基因芯和片 技的术广泛用, 人们面应的是海量的对物信息生数据,并 且这 数种的增长据度速其极速迅,如 何发有效展生物的息学工 具, 信这从包含序列种结和功能信构的息数据海中洋定确某 与一特定生命现 象如生(, 长发,育 瘤发肿生) 相关等的因及 基其能功, 已成为基后组时因国代际上竞争焦的,点因为 基因 数的是有限的,量 多数据许是库公开, 的旦一某重些要因 的基能被发功现, 可就以申请利,专从 蕴而着巨藏的大机商 , 如果在生物信这息据的巨大数积和累能基因功学组究研的关键 刻时, 分充发中挥国综合分析的人特, 并长结国合内起崛的 基因片芯技术 必,将动推我的国功基因能组学究,研从而 加 速些某关领相的发域展。

参考[文]

[献 G 9]$&-)3’&4 , K(B’=%%&59 K,&N()’-$ 5,D"!# $ ?2’%5-&) #O)=%5)-- %/&) (TSUU) UM: V WUSM2 0$%58&45)->=&’ [( 7 2]P (%’#&,QQM,RQQH[M] &3B5=X !#;55*O,&"5" ?P2 BP@.> -=5(’’(’$ -A)* #’4 *$-5=6&’ ()A* [7] (#&)H 2 P(% ;&%&%) ,YGYY,GM [V ]-$9& K)C,0&"") ?,C+’.)5? Z!",#$ !"2$#&% (’("A$)- $()**-$ 8 [7] 0 (" 5OA 4&)>58&.*&-& :’&0$-$)50( %%’)$&2 ?’ 5= P%(" =(* @ ?),&$-6)& -*&%)O-- 8=(-5%)5O &=" =A"=&"’ 4#&("%* 4&&&)$5O %/ &A&$% %(#&’&(#*)+!& &!(,-.!./ ,(GM ) : # ! 3 >-=A5(’’(A’ A/3-’*-L(%-)[ 5] 2 K75" C5- "!&"",GYU,YYV MVTW VYT M2[H] "@-(*&L @/@9-$&, )C,B(6K- $E9,! #$ " B-2%$-=% )A%0& $O5* -O#$O

&

(文编本辑

杨兆

弘万

方数据

基表达谱因生的信物学

息作者:作 者单:位刊名:

英文刊: 名,年(卷期) :被用次数引 :李伍举军 事医学学科院础基医研究所,学京,北018500 事医军学科院学院 刊UBLETLNIO FT E HACAEDMYO F MLIIATY REMDCIL SCAENCISE 002226,(1 14次

)参

考文(22献条 ).Ak1usu t;TMyiao Sn;Kuarh a IdentifiScaitn oofg neeticn teowksr for m asaml lnmuber ofg ene xpreessoni pattenrsund ert e Boohela nnetwrk moodle19 9 2.9aLwerce nC;EAtlshcl uSFBo;ougsi MSk Deectitg nusbtl sequeenecsi ngalsa :ibbgssa mplig snrattgyefor ulmtpie llaingmen[外t期刊文]19 3(51913) 3.eDoucb k;CGoofdleowlP ND A Nimcraorars iy ndru dgicosevr yna dedvlopmente外文期刊[]1999 S(pul 1p ).4iseEnebrgD; Macrott eMEX;naeior sI Poreti nunftioc in ntehp sot-egonim cea[r文期外] 2000刊(678)85.P eruoC MS;erleiT ;EisneMB Mlocular peotrriast o hfmuna bearst utoumr[外s文期] 刊200(67097 6).ePour MC;eJffre yS;Sanv deRijn M Ditsictnie vene gxperssieo nattpern ins umha nmamarm ypitheelial eclls ad brnase ctacner[s文期刊外] 91991(6 )7.Xion g;MinJ L;Li J WComutaptioanl emtohds or genf expersesoi-banedst muorcla sifsciaiont 0020(06 8)G.olu bTRSlo;ni mKDT;amayo P oleMuclarcla ssficiatoin o faccernc:las dsisovcey ran dclss apedircton biy ege enpxesrios nmointornig[文外刊期 ]919(95493) .9lAiazde Ah;AEsien B;MavDsiR DEstiintctype so f idfusefl rgeaB -cle llmypoham denitfiide b gyeen exprsesoinpro ifilng外[文期刊 200](60796) 1.Spe0llan mT;SPerholk cG;Zhng MQaC mpreohneisv eidntefiiaciot nof cll cecye legrulated gnes ofet hey eats Sccaarohycme screveiisa eyb mcioarrry aybridihztiona 199(128 )11.EsienM BS;elpmaln PTBr;wonPO Cluster naaylissa dndisp la oy fgenmoe-wdi exerpessinop attens[外r期 文] 刊991(985)1 .B2azrm aAV;lio GJne eepresxisnod aat anlyaiss外文期[] 2刊000(1) 013X.i Xa;iXeZ A ADA:Maalnyis os mifrcoarar ydta[a外期文] 刊002106() 1.4Li W;JionX MM gTcals:suTmor classfiicaton siytem bassed o genn exeprsesoi pnorflie外文期[]刊2002(0 )21 .5BernsA C ance:rgnee epxersios inn dagiosnsi外[文刊期 2]000(766)9 6.Tav1aoizeS ;Huhgs eDJC;ambpel lJMSystem aticd eermtinaitn ofo gneetc inteorkw achritceure[t外期刊] 1文9990() 31.7adRdat zGD;hioeM;M eyre TF PimerArrayr:enogem-scaelprimer deigns or fDN-mAicorarar ycnosrtuticno2 01(010)18. aKne MDJ;akoetTA;Stu mfp RCA ssessmnt oef het esnstivityi ndas peifciict oyf logioncleuoidet5(0mre) imrocrrayas[外文刊期]2 000(22 1)9H.ghesuT ;RarMton MJJ;noseAR Fu ctnoina disclvoery vai camoendipu of empxrsesio pnofilrse外文期刊][2 000(1) 02.0ouYngRA Bomidecia ldscoviey wriht DNA rrays[外文期a刊] 000(210 2)1.aTmaoy ;PlSnim DoMesi;rvoJ I ntepretrnigpa terns oftg en exerpesion wist self-horgnaizin gmaps:emhodst adna ppiclaton ti heomtapoieoic tifferdneiattino1999 0()6

22A.lo Un;Bakrai ;NNttoremanDA B rao pdtteans rofg nee xerepssin reoevalde y clbutsreniga anlsis oyft muroand n oram locln toissesu prbeo bydoligonu cleoitd aerayr[外文期刊]s19 9(192

)引证文献(1

4) 条1.周淑娟 基基因表于谱的肿达瘤型发亚研现[究学位

论文硕]士2 060 2.超詹 持支向量在机因表达基据分数类中研的究[位论学文硕士]20 0 36詹.超 支向量持在基机表因达数据分类中研的究[位学论]文士 硕006 2.王4文俊基 于关的D系NA微阵列据数聚分析类学[论位文硕]士 006 25.杨 涛因表基达缺失据数充算法填研究[位论文]硕士学 20506. 翔 姬于S基V的M多病类诊断因选择基方研法究学[位论]硕士 2文050 7徐劲..旭胡初.应康.吴忠.道陈义.谢毅.守余新炳华支 睾虫成吸虫全长基因达表库的构建文和基因达谱表建的[立 刊论期文]-国人中共患病兽志杂2 04(0) 5.8劲徐胡旭..应初.康忠吴.陈道义守谢..余新毅炳 华支睾虫吸成虫长全基表达因文库构建和的因表基达的谱立建[期刊论文 -]中国兽人患共杂病志 2004() 59.映宇 崔生物息技术在基因组和信蛋质组研白究中的应用期刊[文]-生物论术 20技04(1)1 .李0道 苹论信息技对术物信息生的影学响期刊[文论]-情报杂志2 0402()11.杨 涛 小支持量机向法研算及在究基表达因据分析数的中用[应学论文]位士 2硕00412 邓庆. 山类聚分及析在其因基表数据达中的用应究研[学位论文]硕 2士0041 3过玮. 用因基片研究芯CBL理的处脂肪组猪基因的织差异达表[位学论文博士]200 44.刘丽1.玲秀荣.王化陈 DNA兰阵微与基因列达表究概况[研刊期文论]动物医学-进展2 00(3)

6本文链接

h:ttp/:/dg.wan.angdfaa.tom.ccnP/riedocila_jyxsxyyk2k0020122.0spxa

军事医学学院科院刊

4554年 I 月 4第V 卷 第 6

期IP

[ ]. ./(!. ?0-#3"’ 45,56 1%4, KO =+%#( 3(#") +%> =+&(>#$D"%& *>-’$-+ (&4 :)H6 6M P 9 866/ [7] 4J%*%O%3 NQ,&3(D’*#% -,S%RO%*>%D ,!N" # /$ N? !+’&+&(#%" E’ ’,+ ( [] .%>*’O;@+>#=>+ @+$""3& ’#EE+@+>&(%#&+&’ )" *+’D"%>> *3+%)(#" $+%"3 / (P)" :657 696 58 /7. L* A $ ’T+?!’>",4565,46

4

K

"#!%&#$’(& ’!#)+(&*$ +" ",#"’)-’ .[]/ 0# *)(&+ +"1" 23,4+56,65 (47): 879 6 4 5/[4 ]6 %(+:""#; 2,%$:%@’;A%?(+"&"# :/ B-1&3’C++&%" %"@ ((D"+%$ >"%+&%>&#(’3#( ? *D% "D(()&D* ’>$ +""3 : $’(E’%%$ "#$>’3$’*- !3D@& .] [(H ):75I 9 76 /6/ #F&’$?3+ 1*"+ "G’#,4"56,566 H44[]. )%)% >./ J(F&%=%>$D"3%>!> 33+D>+> +D")%&3 +"$’%"%(@ )’,%" 1" (4%) 1:I78 177M /90? -3#"’455,,6M6 4[I] N4%+*%3D-N A?#*%@%, :,#)A #F/ (J&%$+"">"D>[% 14% K] &>%(#+3&3 #( (军事学科学院院医刊45 5 年 4I月 第 V 卷 第4 6 3期#; [ .)]( %"(#) (# +$">,+%> "%&+>->3 ’’*?&* D$"3+ $"+" /3L *. ?03-’#"1 +"

["4]H #+3U(> G+F,%)+( /Q +%3:D>*++& ’(E #&>(%$"+D"%>" 14 K% ?%$(+3) D; #() 3’(+=" $%+) $-$"#@ $($D+"’#@+&3%(@ $(’E’$% ""%+>33 $%((() *## ;[. ](4;I) $>’:3’!$/. 0 ’?’$?&+ 0?’*&’#’" ,,G 8886 78 6,64 9 668/

(本编辑

兆弘杨

)基因表达的谱生物息信

李学举

(军事医学科学伍基院础医学究研所, 京北6 5MH5)

5[要摘]WT L 微列技术是阵 继TL W组技术、重 可以同时 10 扩2技增之后的术又一重生物大术技。基于阵列实微验 ,观在察一生命某现象成中上万千个基因动的表达水态平。过去与的研模究式单即基因个表达的究研比相,分子生 学工作者物观的将由此念发巨生大改, 变使得人能够在基因们水组上以系统的平、全 局观的念去研生命究象现及本 其。质目前 微,列技阵已术用到应瘤肿型分、 瘤肿类、 分基功能因研究、基 因之间控网络构调、 建物靶药位别等识多方许面, 但是 , 从本质上, 讲通微阵列实验所过直获得的是接个一基因表谱达即(基因表矩达阵, 其行示表因, 基表列实 示样验)本, 微阵列的实际 应用就通过对是因表基达矩阵的物信息生处学来实现的,理 此因, 由在微列阵技为基础的术 子分生学物研究中 ,物信息生是其学中其重要及的环一,本 就与基因文达表谱相的关生物信学息方法一综述作。 [键关] 基因表达谱词微;列阵生物信息学 ;中[分类号图] PXV M文献标[识码L][文 章编] 号5565HH56 ;(4545)5 ;556I;5P

7

"!#$%"#’&(")* +,(-. +$# -$/ --0&-1++#$ "1&%#"2:-( -3&"-4

%&’ )((

( *J(&#&D3+&’E G %#3 $+@:#$%" $#A+($3+,$L%+*- @E ’:"#&%>-# :+@$%# A"$#(+$3,G++#Y#) 6(5M55H,1?(%) [5,+)&(*)# G%]+3@’( WT *#$L>’%>>% -+$?(&"’)-’,?+&

+Z>+33#’( "+!=" ’+E& ?’D3%@3 ’(E )(++3$%( , +’3,>+=@ +3*D"&%#+(’D3" -# 3’*+(! %>#&$D%"> "E#+ >’$+!333+ 1’/!%>+*@& ’&? +%!&3> ++%>$3? %&&!>+($’ $((+>%&#(& ’() &?++ Z!+>3#3(’ "++"= ’ ’E( )+(++&,+ !?+3+>( >&3+%>+?$!% &&+( >O"# "+ ,?%$)(+ @#)3#E($#%&(-/":’" $+D"% ,#’>’)#3" O&#""# =(+3&#%)+&&?+ " #E+!?+ ’(+(’( *(@%# & 3%(&>+ D>E’* )(’+*#$" =+" #( +-3&+3*%&$# (%@ ")’%," O-%/ & !L>++(3&,#$*’%>>%->&+ $?’"()’-? %3 +,(+ %!!"#+@& &?’ E’"+’O"(# %)!3+&$3:D*&’> 3,D&!-#),( D’*> "$3%#3E#%&$’#,(+3>%>$? +’ ()(+ +DE$(&’#(&?+, $(3&>D’$#’(& ’ >+)ED"&#%) (+&O’(C %>*’) )((+3,&++?#@+ (#&#E%&$’# ’E @(D) &%>>+& %)@ 3(’’(/ ’F+O+=>,?%&O + $%(O)+& >’* E*$>#’>>%%- Z+!+>#*(&+ #@>+&$"- #3YD3& % %&*>#Z ’E )++(+ Z>!3+#3(’ O?>++ ?+ >&O3’ %@($’ "*D3 (3&(% E’>@ +(+) %3( &#33D@3+> 3!++$#=&"-+ L""/% !"!#%$#&’(3’E * #$’>%>>%-+ !+Z>#+*(& %+>> +%"[+# @-,,#’ #E’(*%>#&3$ &+%&*>+(&’ ( )++ +Z( !>+3;#’( 3*&>#Z%/N +?>E+>+’,#,#’(’E>*&%#3$!" -%3 %=#&%" ’>"+ J(/&?# !3%+!>,&? >++"&%@+ ,#’#E’>(%*#&$3 +*?&@3 ’’> &E? +(%%-3"# 3’ E+(+) +Z>!+3#’3( >!’E"+ #>%+>+= #O++/@[ 67- #&.+4 )](++ +Z!>+3#3’ !>(’E"+#*#$>;’%>%>-,;#’#(E>*%&#’3 随着$人类基组因作工草图及多以种式模生物基因组全序 列的得,获 人们正进后入基因时代组 ,因组研究基主要

的6] [焦点经已从测转向功序能研 , 究面对各着序列种据数库提

于微阵列术,技 人可以同时们观成千上万察基因个在某一 命生现中的象表情况, 达从将基因的而动活态比较状整完地[收

日期] 稿54659 M59 4 [P基资金]助 军医全药卫科生研基项金 (目65L:P5M [)作者介简]李伍 举( 86VV 9) 男,, 江省苏沭县阳人, 士硕 ,副研究员。

供的以万计数基因序列的, 人们不要禁问 这:序些列功的能究竟 什是?在某么一体的生命具象现又中如发挥其作用?何

万方据数 4] [最近兴的微阵列起术为这技问题的解一提决了思供路。

*(

展出现, 来使人得们够能从基组整体因平水把上握生的某命些特征。目前 , 微列阵技术应已用于许方面多 ,如 !#"% 等

[&$]

军事

医学科学院刊

院’J

J’ 年& 月 第’) 卷 第B 期

性杂

交,必 对探须针行进门专设,计通常 下按条列件进行 择: 选要每个探针序求列有具相的近熔解度温, 适合长度, 的无 定稳发的结夹 ( 构/">4,% #N>9ON">9)$, 并与 他的其基序列因无

[B明( B,] 5目。前,我 已们按上 显的似相性( 相似性在 *@J以 )下

用谱利系聚类方法对酵的基母表达因谱进行分析 (’ () 个 *基因 )。果表明结, 有相具功能似基因聚的在类一簇个中 由 ,此可据一簇中某已知能的功基去推断因簇同其他中因的基[

( ]功能 利用;基因

表达谱技进行细胞术周期究,研 ,$+--/.%

条件设计述了程 序QP8>$: ,可进行寡苷酸核片的芯探设 针计

并用傅立叶变换方法找出与胞周细相关的一期些因;基 -1

[5]0 基于因表达谱基扩张将性 6巨细胞淋巴瘤 成分两" /234$ 等

"

聚类分

聚,类是 物类以聚意, 之是利用就聚类分析法方和因

基类

。别特是, 于基因基表谱的达瘤诊断已引肿广起共泛识

,)] [如 78-9: 等 据急性成髓细胞根白病与血急性淋成巴细胞

表矩阵达对以千 (万数 )计的基因与分被的析全体实样本验 进聚类行, 以对基因进行便分类样与本行分型进为。,此 必须对基 因( 样本或 之)间的似相性或离距进定行量。通常将矩阵 每一的行视为% 空维中的间一个或点一 个 %向维 (量 为%全体验实样的本数个) 并对,每个因基表达向量行进标 化 准(准标之化其后值为均J, 方差为 B ) , 设

#K$B "

血样本病基因表达谱,的 采用71+ 法算 找出用于,断诊基的[*]

集合因,并发现一些 键关因;基 如 又;"8%

基因

达表谱,采用主成分分 析 与"=4#> 判$分别析结合相法对 结肠方癌诊断进的了探行讨。果结明,表 用采* 个 成分主获可

[ ?A B& 得]?*@ 以 上的类精度分类。似的子还有许例多。 些这

分充说了明基因表达的生谱物信学息究的重研性。要前,目 因表达谱的基生信息物研学主要集中究在下列个几方面:聚 分类析、分 类究、研 视可化究研基因和达谱表数库构据等建方面 最终,的目是从物信生学息角度出发 ,用基因的利列 序据和数有的关达谱数表据来探在某一特讨生定物状学下态 基因功能的

。’ 距离 ’

K ! ( $ %# I&$ )#

KB

#"

然显 ,相系关数 与距离!’ 间存 在之 下 列关 系 ’K:’ (B !I 。)当, 然可也以采统用学中其计他相系数与距离定 关。有了上义述义之定后 便可,以构建因的基关系相矩阵数 后,然可运用谱 系法对基因方进聚行, 类其要主过程如E M%. 下: ,首先将. 个因视作 .基 个类, 从关系数矩阵相E 寻找中最 大元素即最相值的似个类,两 将它们并合成并一类, 由 此原来的 个.便转类化为 .I B 类 ,新对的. I B 类续构继 相关建数系矩阵 ,此过反复进行程,直 到后最, 有的所. 个因基在 B 类 为止在。需此出的是,指 类与类间之距离定的义有 种方式多, 比较常用有的下如) 种 方式:最短距离法、 长最离 法、 距中间离距、 重法法心 类、平均法和差平方变和, 这法在

一[&]

般的统学计本课上均有绍介目前,。 !"以#$%等 编写 谱

!

因基达谱数表据获的取

在于微基阵列实的中,验首先选 取自来同不态状样

[&的 ] 本如(常组正织与肿瘤组, 织不同发育段阶织, 组用药或之

与用药前后组织之, 等其一种称为实验中样本 ,外另一称种 为考参样)本, 在逆 录过程中转, 实样本和参考验本 样DC0分别 不同的红用 、绿荧染光去料标记 ,将并们它混,合 与微 阵列上的探序列针行杂交, 经适进的当脱洗骤与步激光描扫 仪芯对片进扫行描 获,得应于对种荧光的荧光每度图强, 像 通专用的过图分析像软,件 获可得阵列上每微个点红的、绿荧 光强度 (E5F和 E F)&, 其 值比( E F5G EF) &为该称基在因验样

实[& 本中的]达水平 表。通常情在下况 ,考 E虑5 F和EF &的值数

时,还 考虑相应的背应数景, 如果值阵列上微个基某因的E 5F EF或 数值&相比应背景数值的, 低则该基因表的达平无水 确法。为了定方便据处数, 理常数值 B 以示表该基因表达水的平, 或接直空值 (以缺省即)值表示, 在做具 体数据分析时 可, 通过低降数维办法来理缺省处值。 另外 ,了为反映某个基因表水达在实验平本样和参考 本样的中倍关数, 可以对上述系比进值以 ’行 为底的数对变 换即 H以8(

系类程序聚E -9#N$> 和R >$$"$ST 因良好表现的形式和从可网 免上费下等载因而原及普我。曾们用该利序程结对癌肠

基[B]J 因达谱进表聚行类 。在基该因表谱中达, 共 )有’ 个验

实样, 其中有 本’ ’正个常织和组 (J 个肿组瘤, 织为对这了些组 织进聚行 , 类 先首对 每个 基 进因 行 (检 验 ,并选其 ) U 择整样个 J JVBJ W的 *基个因这对组些织行聚类。进果表明,结 本基本分为 上 &:类其 两中类肿为瘤织,组一 类为正常组织 。然,显实 验样的本类聚方式随所选基因将集的合同不有而 变所化, 选择同不聚的类法也将方实对样验聚类与本因基聚类方 产生一

式定影,响 那么 ,究用竟何聚类种方法采和用何 标准选种择因集合?基前目没有还最终答的案除。去上面论述 谱系聚的方法类外, 比较常用的类方法聚还有:X 平均1 值法 X(1.$%) / 、模拟退法火自和组图 ( #法$-Y8>1

个方数据 此万, 为了外芯使上的探针片能够与相应基的进行特异

军事学医学院院科刊

’$

’ $年D 月第’ % 第卷 #期

@ &测预度的精影响。总之,可 以采统计学中的用各分种方类法如 :-I, /类等来分究基研基于因达表的谱瘤肿分问类。

题 (因样本) 或新重分配到新的类中 ,过程此反复行进,直 到最 形后成定稳 ! 的类 同,时,为 了避迭免的不代敛收 ,要需预先指定 代迭次的数。另外,此 ! 类最初随机与定的指! 个心 有关中,为了 得获较好的类, 常聚进行多常重次复算计。拟模 火退和法自组图的法思想类似 于!平"均值法方。在模拟退火 中, 法始指开定 的! 个心不中随是机的,而 通过是拟退 火过程模(通过 有参关的数降升实现来) 的确定! 中心,个然 后 基因对( 样本)或的 归与类!" 平值均法方相; 同而自图组法 方则是通在基因过( 样或本) 空间预先中定指一数目定的网格点 实来现,的 用采! "平值均的思和想定一的学习度速对格 点进行网移,动 在动一定移数次 后一般( # 在$$$ 次上)以, 格网点 将到达定的一位置 使得基因 (,样或本 形)成网格以为中点 心的类 。这 些 方法 在基 因 表 达 谱 析分中 都 到 得了应 [

$, ##,##%] 。用

"

主成分析分

于在基鉴因表达谱研究,中 及涉的基数量因很,多 且

而有

多基许之因的相间性很高关 ,为了从学数上化简这些量

[变#0]和 有关究的研化,简常使用 主分成析方法分 。主分分成

析的目

就的用是较的少综性合量变替代原众多的来相性关 变, 量这一的数步学操作其极单,简只需 出相求关数系矩 阵的特征值特征向与量 ,按并特值征百的分取比一出数定目的 征特向量构变换成矩阵,从而 原始矩将阵化为转主分成 阵矩。但其进对生行物解释学却有大难度。比如对上述较结 癌肠因基达数表分据时,析 如基因进行对,则采 用& 主个成 就可以解分原来释 ’$$$ 基个因 0的E$ 上的以信息 现在,的 点是如何解释这难 & 个“超基 ” 因

的生学意物。义

!分

类究研

用利微阵方列研法究某生些命现象时 常,常考虑因表基

#

因基达表谱序与生列物息学关信

通系过述聚类分析, 上以发现可许基多因其因表谱的达相

谱在达同不态状的变时化情, 以便况从因水基上阐明平造 这成状些态同的原因异者发现一或有待进一步些究的感研兴趣 因。基别特, 是目前用利因表达谱在肿基与正瘤常织组

[#中& 的差]对异瘤肿进行类分诊与已形成共识断 。前当肿瘤的

似而性聚类在起一。实上, 基事因达谱表只基因在某是生 命一程过中的表现已, 而基因是的型数据。如何通表过这表种 数据型揭来示基的因结与构功能系关进而示揭某些命生现 象本质是的阵微列验的实要目的主。此为 我,不们得不考 影响基虑表因的达各调控元种素与达谱的关表。系中其个

[’$一]重要 面就方序是调列区与表达谱控间之关 系。此, 为首

分技类高度术依赖病于理学工者作肿对组织的主瘤判观,断 而基微阵列技术于 ,使即一些组没织有著显化变 ,利用因基

[’]# 表达谱也以可对之做早期诊出断 另外, 特;重要别的点

一是可以据基因表根达谱变的化来区分态学形相上似肿的,瘤这样 对肿瘤型类( )(+*,( -.) 的精确/识有助于制别配套的 定最佳方案 从,而达增到加效疗、降低 毒性的目。的于基因 基达谱的肿瘤表分对肿瘤发类机生的理制以及征服这解肿 些提供瘤了要思路。但是, 重究竟用采少多个因以及基如选何 这些基择因 到,前为止目,还没有定 ;论 过, 不采用最少的 因基达到高最的测精度将预是追求目的标。[%

] 在#000 年, 在4 5/675 /发表上了于基基表达 1因+)32等

先, 基于 基因表谱进行聚达分类析, 所将的基有因行进类聚分 ,析从而 基因分将若成类; 干后然 ,对一每类因基列序别 从分列 数序 据 中库 提取 其 上游 %$$ 3 .的序 列 段片, 采并

用[’#], 寻 找基因该集合的一致列 (序 5+7"163 3

于酵鉴母与大杆菌肠的基因全序组已获列

列模式行进进步的一类聚分析 在。此 须,别指出的是特 基因表达,谱映的反各个是基因 在某生命现象一中动活状态的型数表据,基 基于表达谱因的基 因类更聚能从功能反上基映因之间的系, 关并有多且例数据表明 :同 基一的因不片段或功同能相的似基因常聚在 一。类此,因 基因表达谱给生物息信学工者提作供了一种易 识别基因调控区于式的手模。段可以预, 期基序于的模列构式 建方与基于基法因表谱达的基聚因类方法相合结将必著 促进功能显基组因学研。究

谱对白血人病行分进类文的章, 在该基表因谱达研究中 共,有% 8 & 个# 基 因 ( ,:)(5/2 *" 9-& 例 急性成 淋 巴 细胞 白 血 病 和’@ 急性成髓细例胞白血 (病:5)( /.;32:?,) 。作?者用采邻分域方法析 ( /6C;7+3,;+A+ *-2/+A62 /=/)*:6, >?) B 首先,从 D8 个本样中 ’( 例 &??>, 构建了 ::7-2?B 分)类器, 后然其对他 D 9例本样进行类分 (# $例 >??, 9 ’ ,例 结果到达 #$$了 的正E率。在确此程过中,采用了预 >B?) 强测 (度 ./,65A(

[& ]

采用了主

分分

析与 6

[#]8一 定限。最制近,我 们采 用G 6;/

基因表$达谱分析件软及关资相源除

上述于聚用分析类 K的)

万数方据达 到 @0E左 右, 并且,此 类精分已考度虑样了品分配案对方

结合的

法办, 结表果,明 需只@ H %基个因,预 测度就精可以

其他

用于基表因达谱析分软的,件见表 #

ST

表!软件名称 !"$%#& ’()* ’+&,&-& .879:’0&$ $;&& 1?5’*=%#$ 1;&)

医事学学科院院刊

MQMQ年 V月 第MS 卷 G 第

"’(4 C8&="&" A>"/0>5 -*(&)%O--*&3 A&4&) &:’&0$$5) -0’5-"O)4[-7 ]2 ( STSY ):QV HW GH 2 PG(%#’,MQ&QQR,VQ [S ]

;5"# 3+,E 5IB,+>(A(5?,!" # $2 K "&5="(#’= "($-$-=O(%5- 5O) ()=&’: ="($= $*-=$5&6’ A()* "=($$ 0&*’-%=5)-3 A &4& &:0)&’$-$5) >)5-8 [7 ](HVY)R: VHG W HV T %52-)’42 =5#0%%(5-() >&%/5"$ O5* 4’)&&& :8 [ ] 7(S) :0 &$’$-)538$&( %#*>5’ ="($$O--(%=-)52 -C%&5/)=_#-$& ,MQQ,QMY G MS WRGMTQ 2 U][?& ’5 #!K,7&O’&OA #) >((>>(’A &0-%/"&(" =&""$ ()- 3*&(’% $=() 8 []7 (GS :)YGMM WYM T G =&’$2 2?’5 =P(%" @ =*( =

Y基

表因谱达管与理析分... )/4’22-) /- 25641 BD E 1芯片 像图处理

"

展望

经已展发几十年的序了列物生息信学比相 ,因表基达

Y][? &5’,!K#, () ’3&(% $%#5>’# $[QG ]@5") ,C([X(-’P ,5%P&’%()>B ,@! #$"2 ’C5(* (%%&’0) 5O$ &4)& :&8 ’&$0$-5 )&6’&"&* 3(A="#$ %&-)’4 ()(A"-$$5 O% #5’ (>) *)5’>(" ="55) -$8 %[7 ] #$$ 0&53’*& 3A5 -"5)#4"&=5%-& *’((’$ A2 ?5’=P %" @=(( * 5? B-,&K$-’657, !" $ 2 D#%)’&0&%-)’ 0(4%%&’) 5O$ &4& &:)’&0$$-) .-%/ $&"O58’45(-)L)4- >(0$: >%&/5$ ()* (0*"0-=(-5) %% [57 ] &/>(%505&%--=* OO-&’&%-)(-5% ) ?’5= P(%2 @="( 5*-&="(*- $56=&’A .%-/ B@ P’’(A( $ [7 2 ]&!"",MQQQ,(G ) : GQMY W GH [2VG] #J4/$&+ ,E(’%K) K5,77)&5 $E,@" #!$2 b# )%-=5)("* -$5=&6A’6-( ([ ]7 G(): QY W G=>05)&-#> *O &5:0&’$$5)- ’0O-"&$ 2 !&"5,"QMQQ,GMQG S M [G2]RI )&( K,7(%BX5&+@, O0 !E!", # 2 $@$&$$>$)% 5O &%/ &$)&-%-$6-8(H Q>&)>-’’=(5’(A$ ’ [7] % A)*($0& -O-==%- 5OA "5-5)4#"&5%-=& *2P #=&-= "MM) (:M QQ,MQUR HH WM RHHT 2@ =-$* &$E ,GH][E (**(L %,B/5- ,KK&A’ &b,+ "!# 2$? ’-&>’@’(A: 4&)5’>8$&=(&"0’ ->&’ &*$4) -O5’BP@8 >=-’(5’’A (=)$%5’#=-%)5 [7 ]2 C5--)5O’(>-%$, (G) = M:QGQ,GT Y U WY 2Y [GS ](6(L5+- &,0(3""&K7 ,"! $#2 A$%(-= %&*&%>-’)( 8V) :(2 P(%; &&%),GYY,MMY%- ) 5O5 4)&&-%= &%).5’ X’=(-%/&=#%&’ []7MU W MUG 2H GT[ C&]’$) 2@ ()!&=:’&)& 4:0&’$$&5-)- ) -*(45$-$[)7] 2 P(%#&,MQQ’,Q (TSY) :RSGY W RMY2 RQ V[ G]UF -7^N-5,) 4KK2+=" ($$:#+>’5= "$$(O--(%-=) $A5%&> 3($$&* 5 )&4) (&) :M&:0 ’&$$5-)0 5’-O&"[ ]7 2C 5-)O-5’(%->$,MQQM,= G UVH WM VS 2M[ YG N]( -NN-& ,\2@ KB@@:[ 7 ]( )"(A-$ $O5 >-’5=’((’A *(( 2%C- 5)O5-’>%8 (() :S -=$M,QQG,GT SY W HHQ 2 TM[Q] C(L’>(@, -,5 "2 7;&) &:0’&&$$5-) *%( (((")A-$[$7 ] 2b9C

=& 9,!"@%$/="# 0"$-4) %’$(%&A 4O5 ’#">-0"% ("&4-)>&%) [] 2 (7HGG)V:M Q U WGM 2 ( >$("") #>&’3 5O &4) &&0’&$$:5)-0 %%&()$ #’*&) %/’&C 55&"() [ ] )7&%5’X.> 5*&" 2 (=? 0C -=55>0%#GY,YY,V: TG WMU

谱2的物生信息学仅于起处步阶段,尽 应用管诸如聚了类分析、 分分析类 主、成分析等分方法, 仍但有许问多有题待进 步研究一如。个物种每的因基组含所的因基列与基因序数目相 对固,定 这但些因基的达水表平随着发阶段不育同外部或条件 变的化变而,化如何 根据这基因些表达平水变的化构来建 在定一部外条件下这基些的调因控系关 即调(网控)络

[模MM 型]尽管目前已研?制一了些模 ,型但 不还完善 ,这问题些

对理

解复的生杂现命象非常要重。特是随别着人基类组 工因作图草多与种模生物基式因组序的测完成基因芯和片 技的术广泛用, 人们面应的是海量的对物信息生数据,并 且这 数种的增长据度速其极速迅,如 何发有效展生物的息学工 具, 信这从包含序列种结和功能信构的息数据海中洋定确某 与一特定生命现 象如生(, 长发,育 瘤发肿生) 相关等的因及 基其能功, 已成为基后组时因国代际上竞争焦的,点因为 基因 数的是有限的,量 多数据许是库公开, 的旦一某重些要因 的基能被发功现, 可就以申请利,专从 蕴而着巨藏的大机商 , 如果在生物信这息据的巨大数积和累能基因功学组究研的关键 刻时, 分充发中挥国综合分析的人特, 并长结国合内起崛的 基因片芯技术 必,将动推我的国功基因能组学究,研从而 加 速些某关领相的发域展。

参考[文]

[献 G 9]$&-)3’&4 , K(B’=%%&59 K,&N()’-$ 5,D"!# $ ?2’%5-&) #O)=%5)-- %/&) (TSUU) UM: V WUSM2 0$%58&45)->=&’ [( 7 2]P (%’#&,QQM,RQQH[M] &3B5=X !#;55*O,&"5" ?P2 BP@.> -=5(’’(’$ -A)* #’4 *$-5=6&’ ()A* [7] (#&)H 2 P(% ;&%&%) ,YGYY,GM [V ]-$9& K)C,0&"") ?,C+’.)5? Z!",#$ !"2$#&% (’("A$)- $()**-$ 8 [7] 0 (" 5OA 4&)>58&.*&-& :’&0$-$)50( %%’)$&2 ?’ 5= P%(" =(* @ ?),&$-6)& -*&%)O-- 8=(-5%)5O &=" =A"=&"’ 4#&("%* 4&&&)$5O %/ &A&$% %(#&’&(#*)+!& &!(,-.!./ ,(GM ) : # ! 3 >-=A5(’’(A’ A/3-’*-L(%-)[ 5] 2 K75" C5- "!&"",GYU,YYV MVTW VYT M2[H] "@-(*&L @/@9-$&, )C,B(6K- $E9,! #$ " B-2%$-=% )A%0& $O5* -O#$O

&

(文编本辑

杨兆

弘万

方数据

基表达谱因生的信物学

息作者:作 者单:位刊名:

英文刊: 名,年(卷期) :被用次数引 :李伍举军 事医学学科院础基医研究所,学京,北018500 事医军学科院学院 刊UBLETLNIO FT E HACAEDMYO F MLIIATY REMDCIL SCAENCISE 002226,(1 14次

)参

考文(22献条 ).Ak1usu t;TMyiao Sn;Kuarh a IdentifiScaitn oofg neeticn teowksr for m asaml lnmuber ofg ene xpreessoni pattenrsund ert e Boohela nnetwrk moodle19 9 2.9aLwerce nC;EAtlshcl uSFBo;ougsi MSk Deectitg nusbtl sequeenecsi ngalsa :ibbgssa mplig snrattgyefor ulmtpie llaingmen[外t期刊文]19 3(51913) 3.eDoucb k;CGoofdleowlP ND A Nimcraorars iy ndru dgicosevr yna dedvlopmente外文期刊[]1999 S(pul 1p ).4iseEnebrgD; Macrott eMEX;naeior sI Poreti nunftioc in ntehp sot-egonim cea[r文期外] 2000刊(678)85.P eruoC MS;erleiT ;EisneMB Mlocular peotrriast o hfmuna bearst utoumr[外s文期] 刊200(67097 6).ePour MC;eJffre yS;Sanv deRijn M Ditsictnie vene gxperssieo nattpern ins umha nmamarm ypitheelial eclls ad brnase ctacner[s文期刊外] 91991(6 )7.Xion g;MinJ L;Li J WComutaptioanl emtohds or genf expersesoi-banedst muorcla sifsciaiont 0020(06 8)G.olu bTRSlo;ni mKDT;amayo P oleMuclarcla ssficiatoin o faccernc:las dsisovcey ran dclss apedircton biy ege enpxesrios nmointornig[文外刊期 ]919(95493) .9lAiazde Ah;AEsien B;MavDsiR DEstiintctype so f idfusefl rgeaB -cle llmypoham denitfiide b gyeen exprsesoinpro ifilng外[文期刊 200](60796) 1.Spe0llan mT;SPerholk cG;Zhng MQaC mpreohneisv eidntefiiaciot nof cll cecye legrulated gnes ofet hey eats Sccaarohycme screveiisa eyb mcioarrry aybridihztiona 199(128 )11.EsienM BS;elpmaln PTBr;wonPO Cluster naaylissa dndisp la oy fgenmoe-wdi exerpessinop attens[外r期 文] 刊991(985)1 .B2azrm aAV;lio GJne eepresxisnod aat anlyaiss外文期[] 2刊000(1) 013X.i Xa;iXeZ A ADA:Maalnyis os mifrcoarar ydta[a外期文] 刊002106() 1.4Li W;JionX MM gTcals:suTmor classfiicaton siytem bassed o genn exeprsesoi pnorflie外文期[]刊2002(0 )21 .5BernsA C ance:rgnee epxersios inn dagiosnsi外[文刊期 2]000(766)9 6.Tav1aoizeS ;Huhgs eDJC;ambpel lJMSystem aticd eermtinaitn ofo gneetc inteorkw achritceure[t外期刊] 1文9990() 31.7adRdat zGD;hioeM;M eyre TF PimerArrayr:enogem-scaelprimer deigns or fDN-mAicorarar ycnosrtuticno2 01(010)18. aKne MDJ;akoetTA;Stu mfp RCA ssessmnt oef het esnstivityi ndas peifciict oyf logioncleuoidet5(0mre) imrocrrayas[外文刊期]2 000(22 1)9H.ghesuT ;RarMton MJJ;noseAR Fu ctnoina disclvoery vai camoendipu of empxrsesio pnofilrse外文期刊][2 000(1) 02.0ouYngRA Bomidecia ldscoviey wriht DNA rrays[外文期a刊] 000(210 2)1.aTmaoy ;PlSnim DoMesi;rvoJ I ntepretrnigpa terns oftg en exerpesion wist self-horgnaizin gmaps:emhodst adna ppiclaton ti heomtapoieoic tifferdneiattino1999 0()6

22A.lo Un;Bakrai ;NNttoremanDA B rao pdtteans rofg nee xerepssin reoevalde y clbutsreniga anlsis oyft muroand n oram locln toissesu prbeo bydoligonu cleoitd aerayr[外文期刊]s19 9(192

)引证文献(1

4) 条1.周淑娟 基基因表于谱的肿达瘤型发亚研现[究学位

论文硕]士2 060 2.超詹 持支向量在机因表达基据分数类中研的究[位论学文硕士]20 0 36詹.超 支向量持在基机表因达数据分类中研的究[位学论]文士 硕006 2.王4文俊基 于关的D系NA微阵列据数聚分析类学[论位文硕]士 006 25.杨 涛因表基达缺失据数充算法填研究[位论文]硕士学 20506. 翔 姬于S基V的M多病类诊断因选择基方研法究学[位论]硕士 2文050 7徐劲..旭胡初.应康.吴忠.道陈义.谢毅.守余新炳华支 睾虫成吸虫全长基因达表库的构建文和基因达谱表建的[立 刊论期文]-国人中共患病兽志杂2 04(0) 5.8劲徐胡旭..应初.康忠吴.陈道义守谢..余新毅炳 华支睾虫吸成虫长全基表达因文库构建和的因表基达的谱立建[期刊论文 -]中国兽人患共杂病志 2004() 59.映宇 崔生物息技术在基因组和信蛋质组研白究中的应用期刊[文]-生物论术 20技04(1)1 .李0道 苹论信息技对术物信息生的影学响期刊[文论]-情报杂志2 0402()11.杨 涛 小支持量机向法研算及在究基表达因据分析数的中用[应学论文]位士 2硕00412 邓庆. 山类聚分及析在其因基表数据达中的用应究研[学位论文]硕 2士0041 3过玮. 用因基片研究芯CBL理的处脂肪组猪基因的织差异达表[位学论文博士]200 44.刘丽1.玲秀荣.王化陈 DNA兰阵微与基因列达表究概况[研刊期文论]动物医学-进展2 00(3)

6本文链接

h:ttp/:/dg.wan.angdfaa.tom.ccnP/riedocila_jyxsxyyk2k0020122.0spxa


相关文章

  • 植物功能基因组学概述
  • 植物功能基因组学概述 XXX (XXXXX) 摘要:植物功能基因组学是从整体水平研究基因的功能及表达规律的科学.对植物功能基因组学的研究将助于我们对基因功能的理解和对植物性状的定性改造和利用.本文简要介绍了植物功能基因组学的概念.研究内容 ...查看


  • 基因调控网络数据分析方法研究
  • 第23卷第2期 Vol.23No.2周口师范学院学报JournalofZhoukouNormalUniversity2006年3月Mar.2006 基因调控网络数据分析方法研究 曹祥红,11,2 (1.郑州轻工业学院2.华中科技大学,430 ...查看


  • 基因芯片数据功能分析
  • 生物信息学在基因芯片数据功能分析中的应用 2009-4-29 随着人类基因组计划(Human Genome Project)即全部核苷酸测序的即将完成,人类基因组研究的重心逐渐进入后基因组时代(Postgenome Era) ,向基因的功能 ...查看


  • 现代生物信息学及其主要研究领域
  • 第26卷第6期 2000年12月 湖南农业大学学报(自然科学版) JournalofHunanAgriculturalUniversity(NaturalSciences) Vol.26No.6 Dec.2000 文章编号:10072103 ...查看


  • 高中生物学的概念与命题
  • 作者:郑春和 课程·教材·教法 2011年10期 <普通高中生物课程标准(实验)>(以下简称<标准>)在阐述课程目标时,将"获得生物学基本事实.概念.原理.规律和模型等方面的基础知识,知道生物科学和技术的主 ...查看


  • 专题七:遗传物质基础
  • 专题七:遗传物质基础 一.DNA是主要的遗传物质 知识点: ①.怎么证明DNA是遗传物质(肺炎双球菌的转化实验.艾弗里实验.T2噬菌体侵染大肠杆菌实验) ②.DNA作为遗传物质的条件? ③.T2噬菌体侵染大肠杆菌实验的过程:吸附.注入.合成 ...查看


  • 分子生物学考试复习题及答案
  • 第一章 绪论 一.简述分子生物学的主要内容. 1.DNA重组技术(又称基因工程) 2. 基因表达调控研究 3.生物大分子的结构功能的研究--结构分子生物学 4.基因组.功能基因组与生物信息学研究 二.什么是遗传学的中心法则和反中心法则? 遗 ...查看


  • (复试) 微生物学专业 分子生物学
  • 湖南师范大学硕士研究生入学考试自命题考试大纲 考试科目代码: 考试科目名称:分子生物学 一.考试形式与试卷结构 1) 试卷成绩及考试时间 本试卷满分为100分,考试时间为180分钟. 2) 答题方式 答题方式为闭卷.笔试. 3) 试卷内容结 ...查看


  • 癌症的基因治疗前景
  • 癌症的基因治疗前景 科学家需要知道怎样分离基因并注入干(或源)血液细胞,从而治疗免疫和血 液紊乱. 科学家还需要发现更容易和更好的办法来传递基因进入体内.为了有效治疗癌症.艾滋病及其它疾病,他们需要开发可以直接注入病人身体的载体.这些载体必 ...查看


  • 分子生物学教学大纲中文详细
  • 分生大纲 第二章 核酸的结构与功能 一.掌握核苷酸分子组成及结构,DNA.RNA组成的异同. 二.掌握核酸(DNA.RNA)的一级结构,连接键. 三.掌握DNA双螺旋结构模式的要点,DNA的超螺旋结构和功能. 四.掌握tRNA.mRNA.r ...查看


热门内容