用于基因数据挖掘的基因表达数据库GEO

中国生物工程杂志　China B i otechnol ogy, 2007, 27(8) :96～103

用于基因数据挖掘的基因表达数据库GE O

余海浪　马文丽　郑文岭

1, 2

(1南方医科大学基因工程研究所　广州　510515摘要　。微集芯片技术可同时定Exp ressi on Omnibus 简称GE O ) 是目前最, 主要储存基因表达数据。该数据库以一个灵活开, 保存和检索多种不同类型的数据。综述了近年来该数据库在基因表达数据挖掘中的应用, 同时介绍一些通过使用用户友好网络界面能有效探索、查询和再现数百个实验和数百万个基因表达谱的工具, 以方便数据进行挖掘和可视化。登录GE O 公用数据库的网址为:htt p://www. ncbi . nl m . nih . gov/geo 。关键词　GEO 　DNA 微阵列　基因表达　数据挖掘

中图分类号　Q819

　　近年来, 利用高通量杂交阵列和基于测序技术的分子生物学实验已非常普及, 这些技术要么被单一使用、要么被联合使用来评估大量mRNA 和基因组DNA 分子的信息。促成这种普及的主要因素是这些技术的平行、高通量特性及其伴随在时间上的高度保守性, 即在极为相似的条件下同时(或者几乎同时) 进行大量的分子样品实验所获得的信息资源。

　　当研究发现在科学文献(或者类似的期刊) 上发表后, 通过公共的高通量数据库, 可以满足对相关数据的进一步挖掘。建立高通量数据的公共数据库平台非常必要。

　　基因表达综合数据库(GEO; heep://www. ncbi .

nl m . nih . gov/geo ) 是一个巨大的基因表达数据库, 并逐

势, 其最大功能是用来储存和检索公开的高通量基因表达和基因组杂交数据。

1　数据库的组织和构成

　　简单地说, GEO 把递呈的数据分成三个等级的实体类型

[1, 2]

, 即平台(p latfor m ) 、样本(samp le ) 和系列

(series ) , 它们每个均可保存到独立相关的数据库, 因为

它们分别被赋予了一个唯一的、永恒不变的标志符(图

1) 。为了能达到一个开放灵活的设计理念, 以方便用

户储存和检索不同类型的数据, GEO 中的数据并不完全压缩集中在同一数据库中。相反, 而是用一种图表分隔的ASC II 表格形式, 来对每一个平台和样本的数据进行保存。这种表格包含有多项专栏, 并在表格的上面伴有专栏名称。当前摘录表格中的数据主要是为了索引, 但是, 为了方便用户更广泛地搜索和检索, 这些数据还可被进一步、更深一层次地摘录和提炼。另外, 数据投放者自己也添加了一些专栏, 以用于贮存附加的、被他们定义的相关信息。

　　从本质上说, 平台是描述一联串在特定实验中被检测或被定量分析的因素。比如寡核苷酸探针组,

cDNA s, S AGE 标签, 抗体等。平台登录号的首字母为

步开始被科学界所使用。2005年, 在一份由美国NCB I 等四家科研机构联合发布的新闻稿中对GEO 数据做了如下统计:截止到2005年, GEO 已拥有代表100多种生物体的近10亿个单独的基因表达数据测量信息, 每周都会有1000多个不同的用户来访问GEO 记录, 整体

GEO 网站的访问次数每周已超过15000次之多。GEO

的目标是尽量最大范围地涵盖可能的高通量实验方法, 同时保持数据库的灵活多变以适应未来发展的趋

收稿日期:2007204219　　修回日期:2007205228

3通讯作者, 电子信箱:wenli@fim mu . edu . cn

“GPL ”。

2007, 27(8)

余海浪等:用于基因数据挖掘的基因表达数据库GE

1(a ) GE O (b ) F i g 11　GE O schema and exam ple

　　、描述某个杂交实验或者实验条件的所有特征因素的大量测量信息。每个样品有一个, 而且只有一个必须先前被确定的亲代平台。样本登录号的首字母为“GS M ”。

　　系列是把构成某个实验的相关样本集中到一个有生物意义的数据集, 同时可能还收集一些已被递呈者注明的重要基因或者分析结果纲要。一个系列中的样品是通过某一共同的属性联结在一起的。系列登录号的首字母为“GSE ”。

　　GEO 平台和样本的数据格式不像元数据格式那样, 是被保存在一个指定的数据库格式字段区域内, 也不是完全的高度集中, 而是以文本的形式保存。这种设计理念能使GEO 保持适应不断发展的技术趋势, 同时也允许在被保存数据的数量和类型方面达到最佳。最近还对GEO 数据库做了一些补充和提高, 新增加了增补的元数据字段, 目的是为了便于和鼓励M I A ME

(关于芯片实验的最低限度信息) 兼容数据的递呈[3],

些记录的概要将会在微阵列基因表达数据协会委员会

(M icr oarray MGED )

[4]

Gene Exp ression Data Society 简称

以公开信件的形式发布。很明显, GEO 不进

行单独实验或分析, 递呈数据的可靠性, 价值, 质量或生物学意义依赖于数据投放者。一旦数据投放者建立了他们自己私人的GEO 账号, 他们将有三条途径来储存他们的数据。

　　(1) 交互式网络格式。对每个平台和样本的投稿, 均会有一个文本图表分隔的数据表格文件被上传和验证。元数据字段区域通过一系列的网络格式被交互式的进入。这个程序对投递相对少的数据时非常直接和实用。也可以用相同的交互式网络格式对单个数据记录进行更新。

　　(2) 直接用单一的综合性文本格式(Si m p le

Omnibus For mat ) 即S OFT 的格式投递。S OFT 是专门为

快速批量投递数据而设计, 这样的文件很容易从普通的表格程序和数据库应用软件生成。单一的S OFT 文件可同时包括多平台, 样本和系列的数据和元数据, 且能被直接上传到数据库。用S OFT 格式也可以快速有效地批量上传数据。关于S OFT 格式的详细信息可在

GEO 网站获得。

以及接受芯片原始数据文稿的保存和检索, 比如

Affy metrix 的cel 文件或cDNA 阵列扫描图像等。

2　数据递呈和标准

　　GEO 旨在在用户友好的分析程序和不过度死板之间达到一种平衡, 同时还鼓励递呈高质量的数据和高层次的实验评注。GEO 提供了一个基本的结构, 以方便数据投放者能以M I A ME 兼容的形式

[4]

　　(3) 数据投放者还可以用有效的微阵列基因表达标志语言

[5]

(M icroarray Gene Exp ression Markup

Language 简称MAGE ΟML ) 格式, 以FTP 的形式把文件

递呈他们的上传到GEO 。

数据。递呈到GEO 的数据会遵照一些被限定的条件并服从一些基本的规则, 而在数据的构成形式上得到确认, 以确保所得到的记录包含一定意义的信息, 并且能被正确地归纳和组织。数据的递呈者保持对数据的管理和编辑, 同时也要对他们记录的内容和质量负责, 这

3　数据检索和分析

311　数据集组与表达谱(Da ta sets and Prof iles)

　　在数据库早期构建期间, 单独通过登录号来检索数据或者通过目录分类来浏览数据信息, 都难以充分

中国生物工程杂志China B i otechnol ogy Vol . 27No . 82007

地记录基因表达数据或其它序列信息, 进而不易针对已出版物资源之间进行有效的数据挖掘和进行本质联系。高通量的分子丰度数据本来就比其它数据类型

(如序列或数据目录等) 更复杂, 同时还要考虑到被检

测个体与生物学Ο统计学背景之间的密切联系。GEO 存储的是一些分类广泛的、经过多种手段处理和不同方法分析的高通量实验数据。为了说明这些内容,

GEO 还增添了一个辅助分析工具, 该工具可以把被提

较的GEO 数据集组() , 。

　　根据数据集组与数据(表达) 谱的不同, 定义了以下两个数据库:

　　(1) GEO 数据集组(Datasets ) 储存了所有的元数据, 提供了GEO 数据以“实验为中心”的主要观点。检索界面可从GEO 主页进入或直接登录http://www.

ncbi .

nl m .

nih .

gov/entrez/query .

fcgi? C MD

search&DB =gds 。

图2　GE O 平台, 样本, Da t aSet 和Prof iles

之间关系示意图

对平台上的每个基因(比如Gene A ) , 有多个样本

(Samp le1～Sa mp le3) 测量值; 相关样本构成一个DataSets,

从DataSets 中可产生多个或单个基因表达个体

F i g 12　Sche ma ti c d i a gram of the rel a ti on sh i ps between

GE O Pl a tfor m, Sam ple, Da t aSet and Prof iles

的GEO 登录号, 直接访问该网页。相关记录在GEO 站点有内部链接, 以方便用户浏览相关的平台、样本、系列和G DS 记录。

　　(2) 可以登录以下网址http://www. ncbi . nl m . nih .

gov/geo /gds/gds_browse . cgi, 通过名称, 类型, 平台或生

　　(2) GEO 表达谱(Profiles ) 储存了单个基因表达的数据资料, 提供了GEO 数据以“基因为中心”的主要看法。检索界面可从GEO 主页进入或直接登录htt p://

www . ncbi . nl m . nih . gov/entrez/query . fcgi? C MD =search&DB =geo 。

物体来浏览G DS 记录。被用户递呈的记录也可通过目录或被递呈者本人来浏览。

　　下面以GEO 系列登录号GSE27为例, 简要介绍

GEO 数据检索及其数据下载:

　　因而, 在GEO Datasets 中每个数据集组个体都各自确定一个实验, 而在GEO Pr ofiles 中每个数据集组都对应多个表达谱个体(图2) 。

312　基本检索

　　(a ) 首先, 登录GEO 主页点击公共数据库列表中的系列数据链接浏览系列数据, 或直接在索框中输入已知的登录号(如GSE27) , 而后点击G O 来检索自己感兴趣的数据(以下显示窗中箭头所指)

。

　　有以下几条途径和格式来检索GEO 数据:　　(1) 单个平台、样本、系列和G DS

记录可通过它们

2007, 27(8)

余海浪等:用于基因数据挖掘的基因表达数据库GE O

　　(b ) GSE27的显示窗主要是简短的实验描述, 并且这些实验数据可以S OFT 格式下载

。

　　(c ) 在数据显示窗选择, Scope:Fam ily, For mat:S OFT, Amount:Full, 然后点击G O

按钮。

　　(d ) 之后, 将显示一个数据下载对话框, 被下载的数据(包括与GSE27相关的所有样本和平台的数据信息) 以S OFT 格式保存

。

　　通过查询Entrez GEO DataSets 和/或Entrez

GEOPr ofiles 可以进行有效的检索

[6, 7]

。和其它NCB I

Entrez 数据库一样, 在GEO 中, 一般的和高级的检索与

数据挖掘也是用Boolean 词来进行, Boolean 词可以被限定, 也可以通过许多辅助字段进行相互组合。　　通过检索GEO DataSets 属性, 比如实验变量信息、技术类型、作者、生物体, 或从G DS 描述中的任何文本关键词以及数据投放者提供的原始样本和系列记录, 来定位用户自己感兴趣的实验。

　　例如, 通过登录GEO DataSets 主页查询dual

channel [Experi m ent Type ]AND Type 1diabetes AND human[Organis m

]

313　数据查询与挖掘

　　即可获得所有检测人类I 型糖尿病的双通道寡核苷酸微阵列实验数据集组信息。检索结果显示该数据

集组的名称、简短的实验描述、生物分类、实验变量类型以及亲代平台的链接、参考系列记录等。

100

中国生物工程杂志China B i otechnol ogy Vol . 27No . 8

2007

　　点击上面G 即可实现完整的G DS

记录。

　　一旦一个相关的数据集组被鉴定确认, 用户可以选择利用在G DS 记录页面的各种增补工具(如上红箭头所指,

点击放大分别如下) , 也可以选择该数据集组的GE O 表达

谱检索来进行进一步地分析探索。

　　　　　　　　　数据集组等级聚类热图　　　　　　　鉴别感兴趣表达谱的“Query A vs . B ”统计工具　　

　　GE O Pr ofiles 的基本元素单位是基因、序列或其它报告分子, 以及伴随被检测实验条件而发生的痕量反应, 因

) 。GE O Pr ofiles 的评此整体称之为一个表达谱(‘pr ofile ’

录号、数据集组描述或者对某些特殊实验变量有显著效应的表达谱信号等属性来查询检索。

　　例如, 通过GE O Pr ofiles 主页查询Ty pe 1diabetes

[G DS Text ]AND apoli popr otein [Gene Descri pti on ]NOT Ho mo sapiens[Organism

]

注和在Entrez Gene 以及UniGene 资源中的评注是一致的, 它可通过基因名称、Gen Bank 登录号、S AGE 标签、G DS 登

2007, 27(8)

余海浪等:用于基因数据挖掘的基因表达数据库GE O

101

　　即可检索到除人类以外的所有其它生物体中, 与I 型糖尿病有关的所有相关载酯蛋白基因表达谱数据集组信

息。检索结果显示报告者评注, 简短的实验描述, 生物学分类以及该表达谱的一个小型条线图(以下箭头所示)

。

　　这些小型的条线图, 对快速批量剖面扫描和相互比较是有益的。点击小型条线图即可显示该表达谱的详细信息

。

反映, 这些亚组标签甚至可使涉及多个或重叠亚型的复杂实验得到清楚直观的表现。标准的GEO 表达谱检索是根据默认的亚组效应信号来调整安排的, 一般而言, 具有潜在意义的基因表达谱信息会在前面出现。然而, 用户也可根据平均值, 方差或极端值来自己选择排序方案。

　　选择GEO 表达谱个体, 还可进行内部数据库的链接(下图箭头所指) 。“Pr ofile neighbors ”连接一个数据集组中具有相似表达图谱的基因, 这些表达谱是经由

Pears on 相关系数计算得出。“Sequence neighbors ”检索

所有数据集组中, 通过BLAST 序列比对, 以查找具有相似核苷酸序列的相关表达谱。而“Homologs ”是检索

　　从原始样本记录中提取的基因表达值以红色的条形柱表示。蓝色条形柱代表内部样本的百分等级信息, 以提供该基因与阵列上所有其它基因相互比较的相对表达水平值。实验构成, 可在每个图表底部亚组标签中得到

属于同一同源基因组的基因表达谱。序列邻域和表达谱邻域检索到的结果是被假定的关联性来衡量的, 这样设计的目的, 是为了找出更有意义的链接

。

[8]

　　Entrez GEO DataSets 和GEO Profiles 可以完全相互整合, 也可以和其它的NCB I Entrez 数据库整合

[9]

Pub Med, Gene, UniGene, OM I M , Homol ogene, S NP, Taxonomy, S AGE Map 和MapV iewer 等。这些链接是相

。提

供其它的NCB I Entrez 数据库的链接有:GenBank, 互的, 意思是它们能从以上任何一数据库资源链接返

102

中国生物工程杂志China B i otechnol ogy Vol . 27No . 82007

回到GEO , 以便于用户能快速浏览导航和数据库间的相互参照。

　[3]B raz ma A, H ingamp P, Quackenbush J, et al . M ini m um

infor mati on about a m icr oarray experi m ent (M I A ME ) Οt oward standards for m icr oarray data . Nature Genet, 2001, 29(4) :365

4　结论与展望

　　作为一个公开的数据库, GEO 的数据已被有代表性地分析和研究。而且, 在大多数情况下, 这些数据的分析结果均已在杂志上发表。但是, 当考虑个人的实验时, 把互不相关的数据汇集在一个数据库, 因表达模式

[10, 11～371

　[4]Ball C, B raz ma A, Caust on H, et al . M icr oarray data standards:

An open letter . Envir on Health 2004, 112(12) :A666

～　[P T, J, et al . Design and

le gene exp ressi on markup language ΟML ) . Genome B i ol ogy, 2002, 3(9) :research0046. 1

～0046. 9

　[6]Schuler G D, Ep stein J A, Ohka wa H, et al . Entrez:molecular

bi ol ogy database and retrieval system. Methods Enzy mol, 1996, 266:141～162

准来挖掘GEO 传网络提供线索。分别交互比较类似的数据集组, 可以确认在单独一个实验中可能被忽略的、用户感兴趣的基因表达趋势

[12]

　[7]Tanya B, Tugba O S, Dennis B T, et al . NCB I GEO:m ining

m illi ons of exp ressi on p r ofiles —database and t ools . Nucleic Acids Research, 2005, 33(Database issue ) :562～566

。GEO 数据库及其工具, 也可以验

[13]

证实验室的研究发现, 或提供支持性意见, 或设计研究计划及其获得假说的否定证据等线索

[14, 15]

　[8]A ltschul S F, Gish W , M iller W , et al . Basic l ocal alignment

search t ool . J Mol B i ol, 1990, 215:403～410

。GEO 数据的再

分析和重新解释还可以为其它领域提供一些有价值的

。随着GEO 数据库在大小和多样性方面的

不断增长, 这样的研究发现机遇也将不断提高。　　然而, 在目前高通量基因表达的实验研究快速发展, 实验的复杂性所带来的大量原始数据, 必然造成数据间比较的困难; 因为表达丰度测量信息, 只能在来源相似的数据集组中进行比较, 而且, 这些数据不能立即得到阐明或者它们的原始数据很难被一般用户看懂。因此, 为了阐明这些内容, GEO 进一步发展和提供了数据库的应用, 并已开始把可比性强的数据, 归入GEO 亚库中, 同时还提供一些工具软件, 来帮助鉴别和归纳基因以及样本的关系。在把GEO 数据库中数据整合进入其它NCB I 资源之前, 选择可比性样品建立数据亚库是必要的。未来GEO 计划开发这些可比数据的亚库, 以允许用户更自由地查询丰度测量信息, 同时利用相关数据, 获得一系列有意义的发现。

　[9]W heeler D L, Church D M, Edgar R, et al . Database res ources

of the Nati onal Center f or B i otechnol ogy I nf or mati on:update . Nucleic Acids Res, 2004, 32(Database issue ) :35～40

　[10]Tasheva E S, Ke A, Conrad G W. Analysis of the exp ressi on of

chondr oadherin in mouse ocular and non Οocular tissues . Mol V is, 2004, 10:544～554

　[11]Gomez ΟMerino F C, B rearley C A, O rnat owska M , et al .

A t D GK2, a novel diacylglycer ol kinase fr om A rabidopsis

thaliana , phos phorylates 1Οstear oyl Ο2Οarachidonoyl Οsn Οglycer ol

and 1, 2Οdi oleoyl Οsn Οglycer ol and exhibits cold Οinducible gene exp ressi on . J B i ol Che m, 2004, 279(9) :8230～8241

　[12]Lee H K, H su A K, Sajdak J, et al . Coexp ressi on analysis of

human genes acr oss many m icr oarray data sets . Genome Res, 2004, 14:1085～1094

　[13]Puffenberger E G, Hu ΟL ince D, Par od J M , et al . Mapp ing of

sudden infant death with dysgenesis of the testes syndr ome (SI D DT ) by a S NP genome scan and identificati on of TSPY L l oss of functi on . Pr oc Natl Acad Sci, 2004, 101(32) :11689～11694

参考文献

　[1]Ron E, A lex L. The gene exp ressi on omnibus (GE O ) :a gene

exp ressi on and hybridizati on reosit ory . The NCB I Handbook, 2003(6) :1～17

　[14]Reverter A,Mc W illia m SM, Dalry mp le B P . A rap id method for

computati onally inferring transcri p t ome coverage and m icr oarray sensitivity . B i oinf or matics, 2005, 25(1) :80～89

　[15]Cheadle C, Cho ΟChung Y S, Va wterM P . App licati on of z Οscore

transf or mati on t o Affy metrix data . App l B i oinfor matics, 2003, 2(4) :209～217

　[2]Edgar R, Dom rachev M, Lash A E . Gene exp ressi on omnibus:

NCB I gene exp ressi on and hybridizati on array data reposit ory. Nucleic Acids Research, 2002, 30(1) :207～210

2007, 27(8)

余海浪等:用于基因数据挖掘的基因表达数据库GE O

103

Da t a M i n i n g Procedures Usi n g GEO (Gene Expressi on Omn i bus)

Y U Hai Οlang 　MA W en Οli 　ZHENG W en Οling

1, 2

(1I nstitute of Molecular B i ol ogy, South Medical University, Guangzhou 　510515, China (2South Genom ics Research Center, 　　　Abstract 　Data m ining of gene exp ressi ons has become very popular in recent years . Data generated thr hybridizati on all ows the si m ultaneous quantificati on of p ts . The Gene Exp ressi on Omnibus (GEO ) at the Nati onal Center f or B i I on (NCB I ) is the largest fully public reposit ory for high Οthr oughput molecular abundance data . database has a flexible and open fra me work that all ows the subm issi on, st orage and retrieval of many data types . The recent database devel opments and its future directi ons ware revie wed, while s ome t ools that all ow effective exp l orati on, query and visualizati on of m illi ons of gene exp ressi on p r ofiles thr ough GE O enabled data Οm ining p r ocedures were intr oduced . The GE O database is publicly accessible thr ough the World W ide W eb at htt p://www. ncbi . nl m . nih . gov/geo .

Key words 　GE O 　DNA m icr oarray 　Gene exp ressi on 　Data m ining

招聘启事

　　福尔流体设备有限公司位于福建省福州市, 是中国著名的制药和生物制药工程公司和洁净制药设备和管阀件产品的供应商。公司建于1987年, 现由公司本部、福尔特机械设备有限公司和亚特生物工程有限公司及两个参股药厂和一个宾馆组成, 在全国设立有五个分公司和20个售后服务点。公司很早就已通过IS O9001国际质量体系认证, 并拥有一、二类压力容器设计及制造许可证, 压力管道安装认证和压力管阀件生产认证。

　　公司的产品和服务包括:工艺设计、方案提供、项目咨询、技术支持; 产品制造:各种压力容器、常压设备, 卫生管道、管件和阀门; 工程施工、安装、试车, 现场培训, DQ /I Q /PQ /OQ等验证; 工艺过程的测量和控制系统的配套; 工艺生产线的系统成套。

　　现公司因发展需求, 高薪聘请以下人员:

　　1. 有生物工程控制系统软、硬件工作经验的工程师, 男女不限。

　　2. 压力容器设计人员2名:男女不限, 化工、机械相关专业, 有化工容器设备三年以上设计经验, 熟悉压力容器有关规程、标准等技术规范, 能熟练运用CAD, 懂3D 设计者优先。

　　联系地址:福州市金山工业区浦上工业园红江路1号A 区59座福州福尔流体设备有限公司, 电话:0591-83059437, 传真:0591-83059435, http://www. ful -s . com, E -mail:hhr@ful -s . com, 联系人:黄小姐[1**********]