ITA
●朱庆华 李 亮(南京大学信息管理系 江苏 210093)
!理论与探索#
生物信息学:我们能做什么?
摘 要:本文重点介绍了国内外生物信息学的研究现状,分析了情报学与生物信息学的联系,并提出了情报学在生物信息学研究中的切入点。
关键词:情报学;生物信息学;理论研究
Abstract:ThepapermainlyintroducesthestatusofresearchesonbioinformaticsinChinaandabroad.Itanalyzestherelationshipsbetweeninformaticsandbioinformatics,anddescribestheopportunitiesofinformaticsinresearchesonbioinformatics.
Keywords:informatics;bioinformatics;theoreticalstudy
生物信息学是20世纪80年代末随着基因组测序数据迅猛增长而逐渐兴起的一门新兴科学,是当今世界的研究热点。了解生物信息学的定义、研究内容,学的研究现状和研究热点,技术特点,,,。
。而生,[3]。生物信息学的信息学内,需要的是信息学的理论与方法的支持。海量的生物学数据只有经过信息学手段进行收集、分析和整理后,才能成为有用的知识和信息。情报学利用自身在信息收集、分析和整理方面的优势,能够在生物信息的存储、传播、检索和获取方面发挥重要作用[4]。
112 生物信息学的研究内容[5,6]
1 生物信息学的定义和研究内容
111 生物信息学的定义
目前,国际上公认的生物信息学的研究内容大致包括以下几个方面:①生物信息的收集、存储、管理与提供。主要是各种生物数据库的建立和管理,数据库接口和检索工具的研制。这是一切生物信息学工作的基础。②基因组序列信息的提取和分析。③功能基因组相关信息分析。④生物大分子结构模拟和药物设计。⑤生物信息分析的技术与方法研究。⑥应用与发展研究。
由于生物信息学是一门新兴的、正在迅速发展的交叉学科,目前国内外对生物信息学的定义众说纷纭。
美国国家基因组研究中心认为,生物信息学是一个代表生物学、数学和计算机的综合力量的新兴学科[1]。
我国中南大学张阳德编著的《生物信息学》一书中,给出的生物信息学的定义为:现代生物信息学是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科,是应用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读,以帮助了解生物学和遗传学信息的科学。从其研究所涉及的学科上看,生物信息学是集生物学、数学、信息学和计算机科学一体化的一门新的科学;从其研究的主要内容上看,基因组信息学、蛋白质的结构模拟以及药物设计是生物信息学的三个重要组成部分,并有机地结合在一起[2]。
赵国屏等编著的《生物信息学》一书中,在探讨什么是生物信息学时,分别分析了生物信息学的“生物学内涵”和“信息学内涵”。生物信息学的生物学内涵,即生物信息学中与生物学知识相关的研究内容。所谓的生物学
2 生物信息学的研究现状
生物信息学的发展将会给生命科学带来变革。它的成果不仅对相关基础学科起巨大的推动作用,而且还将对医药、卫生、食品、农业等产业产生巨大的影响,甚至引发新的产业革命带来巨大的经济效益。因此,各国都在生物信息学研究方面投入了大量的人力、物力和财力。
211 国外研究现状
发达国家在生物信息学研究方面起步较早,已成立了一些研究机构,这些机构开发并维护各自的数据库和软件等,在生物信息学研究领域处于引导地位。
1)美国国家生物技术信息中心[7,8]。美国的国家生物
技术信息中心(NationalCenterforBiotechnologyInformation,
・情报理论与实践・—419—
!理论与探索#
NCBI)开发的Entrez系统综合了多个大型的数据库,如文
ITA
蛋白质数据库和分析中心(ExPASy)、国际遗传工程和生物技术研究所、德国生物工程研究所、英国基因组资源中心、英国基因组研究中心(SangerCentre)、荷兰生物信息中心、澳大利亚基因组信息中心、新加坡生物信息中心等。目前是国内数据库种类最多,数据量最大的生物信息站点,为国内外用户提供了多项生物信息服务。该中心同时在进行生物信息软件集成和开发工作(Weblab),并且在数据库构建(PAKKnowledgebase)、基因预测、分子模型、蛋白质结构预测分析等领域都有相应的研究项目。
2)中科院计算所智能信息处理重点实验室生物信息
献数据库(PubMed)、核酸序列数据库(Nucleotide/Gen2
bank)、蛋白质序列数据库(Protein)等。Entrez可进行多
个数据库的交叉检索,也可单独检索某一个数据库。
2)欧洲生物信息研究所[9]。欧洲生物信息研究所(EuropeanBioinformaticsInstitute,EBI)的主要任务是建立
和维护生物信息学数据库,并提供信息服务支持生物信息学数据的存储和开放使用。EBI在其网站上提供一系列的生物信息学数据库和分析工具,其代表性数据库是EMBL。
3)日本国家遗传学研究所[10]。日本国家遗传学研究
所(NationalInstituteofGenetics,NIG)开发了日本DNA数据库(DNADataBankofJapan,DDBJ)。
上述3个数据库是目前世界上最权威、使用最广泛的生物信息学数据库,虽然它们是由不同国家的不同机构开发并维护的,但这3个数据库并不是独立的,它们之间有密切的合作,互通有无,同步更新,为用户获取比较全面的生物信息学资源提供了方便。
4)学研究组[13]。中科院计算所生物信息学研究组创立于
2000年12月,隶属于中国科学院智能信息处理重点实验
室。该研究组侧重于计算机技术在生物信息学中的应用,台。——Promotor人类。
3[14]。天津大学生物信息中
(TBioinformaticsCenter,TUBIC)成立于
年初。该中心开发了一些生物信息学软件,并提供基
组[11]。Sformation设业兴趣小组(Special,SIG于这些软件的服务。
4)中科院上海生命科学研究院生物信息中心[15]。中
是SIG/BIO()。该兴趣小组致力于情报学在生物信息学方面的应用,主要指生物序列数据(基因序列和蛋白质序列)的合成、处理、存储、检索和分析。
SIG/BIO的项目将围绕以下主题进行:识别情报科学
科院上海生命科学研究院生物信息中心(BioSino)成立于
2000年3月,为生命科学研究人员及相关的科研管理人员
提供全方位的生物信息服务,为国家生物信息中心及其上海基地(上海生物信息中心)的建设做出了贡献。生物信息中心与从事生物信息学研究的课题组合作开展相关课题的研究和软件的开发,积极参与生物信息学人才的培养。
通过以上分析可以看出,我国生物信息学领域的研究主要关注于生物信息学的“生物学内涵”,而不重视生物信息学的“信息学内涵”,也没有情报科学方面的权威机构研究情报科学在生物信息学中能发挥什么样的作用。
可能在当今的基因和蛋白质项目中发挥作用的领域;有关生物化学,遗传学,基因学和蛋白质数据的组织、结构化的已有方法和新方法;情报度量在基因学理论问题中的应用;基因数据的注解,检索系统的设计和应用;讨论在获取和使用基因数据时产生的社会和伦理问题等。
SIG/BIO的兴趣既有理论研究方面的,也有实际应用
方面的。理论方面主要是应用信息科学的原则来理解基因序列;实际应用方面有面向公司、学术机构和公众的基因和蛋白质数据库的导航和中介服务等。
在上面介绍的研究机构中,前3个都是从生物学的角度来研究生物信息学的,他们所关注的是生物信息学的“生物学内涵”,而最后一个是从情报科学的角度来研究生物信息学的,所关注的是生物信息学的“信息学内涵”。
212 国内研究现状
3 情报学与生物信息学
311 情报学与生物信息学的关系
生物信息学和情报学具有内在的联系。基因信息通常被看作是父代与子代之间的信息的通信;而情报学关注传统的信息的通信。这两种通信在理论上是存在相似性的。情报学的先驱Shannon在提出通信的数学理论之前,就明确指出了情报学里的信息与基因信息的关联。情报学和生物信息学的相似性主要表现在以下几个方面:①起源相似。信息量的剧烈增长促进情报学和生物信息学兴起。“信息爆炸”促进了情报学的产生和发展;人类基因组计划实施以后,有关核酸、蛋白质的序列和结构数据呈指数增长,庞大而复杂的信息促使生物信息学的产生。②目标
目前国内生物信息学研究机构主要有:
1)北京大学生物信息中心[12]。北京大学生物信息中
心(CBI)成立于1997年,是欧洲分子生物学网络组织
EMBnet的中国国家节点。几年来,已与多个国家建立了
合作关系,其中包括欧洲生物信息学研究所(EBI)、国际
—420—・第29卷2006年第4期・
ITA
相似。情报学和生物信息学的最终目标都是将杂乱无章的信息或数据通过整序变成有用的信息或知识。生物信息的存储、传播、检索和获取与情报学息息相关[4]。③技术相似。计算机技术的发展,使这两门学科的产生成为可能。正是由于计算机技术的出现,哪怕是一种雏形,人们就将之作为现代情报学的起点;面对海量的生物信息,如果没有日益发达、功能强大的计算机技术,人们将会束手无策,更不可能产生生物信息学这门新兴学科[16]。
312 情报学在生物信息学中的切入点
!理论与探索#
的。这就导致了很多问题,如对新发现的基因如何命名并没有一个标准,导致基因名称不具有唯一性。两个不同的基因可能被赋予相同的名称,一个基因也有可能拥有多个名称。由于缺乏一个标准化的命名机制,要集成不同数据来源中有关同一个基因的数据是很困难的。对基因功能的解释也存在同样的问题。没有一种方法来描述一个特定的基因功能,因此,要找到与某一种基因功能相关的所有基因是很困难的。为了解决生物信息学中的这两个问题以及其他相似的问题,国外已经有人开始研究用本体和词表来解决问题,也有研究开始着手开发命名标准。在生物学领域已经有“基因本体”(GeneOntology),基因本体工程提供描述任意机体内基因和基因产品的属性的控制词表。情报学家可以借鉴已有的成果,,。
)数据一般认为,情报学在生物信息学中的切入点可以分为以下几个方面:①开发数据管理、集成和可视化的新工具、新方法;②集成、推理和发现工具、方法的应用;③信息理论在生物信息学中的应用[17]。具体来说,情报学在生物信息学中的切入点包括以下几个方面[18]:
1)情报学理论与方法用于生物信息学。一方面,生
物信息学将对信息科学的理论产生一定的影响。生物科学中的信息与情报学领域的信息既有联系又有区别息与其他类型的信息之间的区别,,,,促进生物信息学的发展。,他们应用共词分析方法对生物信息学的主题词进行聚类,得到其研究的热点内容,然后利用战略坐标进一步定量分析了各热点的发展阶段[19]。
2)生物信息学家的信息需求和信息寻求行为研究。
,不同的子学科的文献,很难得到有效的利用。研,使得在检索时能够跨越学科界限,检索出所有相关的文献。其中一个方法可以通过开发元数据标准,使分散的数据存储能够交互。可以吸取在开发和使用元数据过程中取得的经验,结合生物信息学的学科特点,开发出适用于生物信息学的元数据标准,使生物信息学中跨学科、跨数据库的文献集成使用更加便捷。
5)数据—文献挖掘/知识发现系统。一些学者认为,
生物信息学家是一个特殊的信息用户群体,他们的研究涉及到各种各样不同类型和形式的信息。分析这一个特殊群体的特点和他们希望完成的任务,了解他们如何寻找和使用信息,如何将获得的信息进行组合,不仅有助于为他们提供主动、及时、有效的信息服务,而且可以为情报学在生物信息学领域的其他研究和应用提供帮助。加拿大多伦多大学信息研究所的两位学者J.C.Bartlett和E.G.
Toms已经开始进行这方面的研究,并取得一定的成果。
情报学家在生物信息学领域能够最好地发挥作用的领域就是知识发现系统,或者说在已有的数据集和文献中应用数据挖掘技术,提出新假设供实验检验。国外已有学者在这方面进行研究。一些学者研究了如何从生物信息学数据库中挖掘出关联规则[21]。国内也有学者探讨数据挖掘、网络数据挖掘在生物信息学中的应用[22,23]。
6)信息检索。将现代先进的信息检索方法应用到生
物信息学领域,将会在很大程度上促进生物信息学的发展。一些学者利用本体开发了一个生物信息学文献检索系统Genescene。Genescene系统由两个主要部分组成:关系分析器(RelationParser)和概念空间(ConceptSpace)。
Genescene运行时,首先抽取出MEDLINE数据库中的文献
他们采访了20位生物信息学家,询问他们在进行基因功能分析时采用的过程,然后利用信息行为分析和任务分析方法分析这些过程。虽然每一位生物信息学家采用的过程是不同的,但是它们之间存在共性。根据共性对这些过程进行集成,得出一个标准的基因功能分析过程。该过程能为生物信息学家进行基因功能分析提供有效的帮助。两人还将进一步对该过程进行检测,如进行用户测试、网上调查问卷等以保证其有效性和可靠性[20]。
3)知识表达。一方面,生物信息学中的数据剧增;
存放在自己的数据库中,然后关系分析器找出所有文摘中名词短语之间的关系。一个关系通常由5部分组成:左边的名词短语(LP)、右边的名词短语(RP)、连接词(Con2
nector)(通常是动词)、修饰词(Modifier)
(修饰连接词)
和否定词(Negation)(修饰整个关系)。概念空间是一种
另一方面,生物信息学方面的科学研究和发现都是分散性基于共现的技术,用来抽取整个文献集中每一对(LP,
・情报理论与实践・—421—
!理论与探索#
RP)的共现关系。用户给出他们感兴趣的关键词,Genescene提供所有包含该关键词的关系,同时给出每组
ITA
5 生物谷.http://www.bioon.com/blog/more.asp?name=%
C1%F7%C0%CB%B5%C4%B7%E7&id=4382,[1**********] 黄科等.生物信息学.情报学报,2002,21(4):491~4967 NationalCenterofBiotechnolgyInformation.http://www.ncbi.
nlm.nih.gov,2005207203
8 杜永莉等.因特网生物信息学数据库资源及其利用.中华医
关系的来源文献信息。用户可以很容易获取他们感兴趣的关系的来源文献[24]。
7)可视化工具和界面设计。目前,生物信息学领域
已有多个可视化工具。但是,这些可视化工具一般只是针对某一个特定问题的,而且大部分的可视化工具并没有进行可用性测试和评价。而可用性测试和评价方面的研究在信息科学领域是十分普通和常见的。情报学家可以利用他们所擅长的测试和评价方法,对已有的可视化工具进行分析,提出其缺点和不足以进行改进。
8)图书馆信息服务。在一定程度上,为生物信息学
学图书情报杂志,2004,13(6):43~45
9 EuropeanBioinformaticsInstitute1http://www1ebi1ac1uk,[1**********]0 NationalInstituteofGenetics.http://www.nig.ac.jp/index2e.
html,2005207203
11 AmericanSocietyforInformationScienceandTechnology.http://
www.asis.org/AboutASIS/asis2sigs.html#SIGBIO,[1**********]2 北京大学生物信息中心.http://www.cbi.pku.edu.cn/
chinese/aboutus.html,2005207203
13 中科院计算所智能信息处理重点实验室生物信息学研究组.
http://www.bioinfo.org.cn/index.,[1**********]4 天津大学生物信息中心.http:tju.edu.cn,20052
07203
15.http://www.
org,203
16.情报杂志,2004
~15
17 DennSO,MacmullenWJ.TheAmbiguousBioinformaticsDomain:
AConceptualMapofInformationScienceApplicationsforMolecularBiology.
http://www3.
interscience.
wiley.
com/cgi2bin/full2
text/109882641/PDFSTART,2005207204
18 MacmullenWJ,DennSO.InformationProblemsinMolecularBiolo2
gyandBioinformatics.JournaloftheAmericanSocietyforInformationScienceandTechnology,2005,56(5):447~456
19 张晗,崔雷.生物信息学的共词分析研究.情报学报,2003,
22(5):613~617
20 BartlettJC.TomsEG.DevelopingaProtocolforBioinformatics
Analysis:AnIntegratedInformationBehaviorandTaskAnalysisAp2proach.JournaloftheAmericanSocietyforInformationScienceandTechnology,2005,56(5):469~482
21 RodriguezA,CarazoJM,TrellesO.MiningAssociationRulesfrom
BiologicalDatabase.JournaloftheAmericanSocietyforInformationScienceandTechnology,2005,56(5):493~504
22 胡永钢,须文波.数据挖掘在生物信息学中的应用.生物信
家提供图书馆和信息服务取决于生物信息学家的信息寻求和使用行为研究的结果。现在已经有很多公共的信息资源可供生物信息学家选择。然而仅有信息资源是不够的,很多生物学家在面对如此多的选择时,并不知道哪些是最符合自己需求的。因此,机构提供相关服务,国外有学者认为,:放交流;;。②知识管理。式和信息检索,提供知识管理系统,使知识共享更加方便。③教育和培训。包括为研讨会提供生物信息学方面的资源,讲授如何使用复杂的基因序列数据库、蛋白质序列数据库,以及如何使用可视化工具等。④出版物。包括对生物信息学领域的发展状况分析,生物信息学资源分析与导航,出版生物信息学专业会议记录等。⑤内部网系统开发。内部网是知识管理的支柱,是在一个合作研究环境中记录知识,信息交流、发布和共享的平台。内部网、数字图书馆和电子论坛的开发过程包括用户信息需求分析,信息构建,索引,网页设计,系统开发等多个方面[25]。
4 结语
生物信息学是一门交叉学科,情报学在生物信息学领域有很大的发展空间。充分发挥情报学的优势,结合生物信息学的特点和规律将会取得卓越的成果。这些成果不仅会促进生物信息学的发展,更会促进情报学的发展和完善。□
参考文献
1 张阳德.生物信息学.北京:科学出版社,2004.32 张阳德.生物信息学.北京:科学出版社,2004.43 赵国屏.生物信息学.北京:科学出版社,2002.6,234 方平,胡德华.试论生物信息学及其对情报学的影响.情报
息学,2004,2(3):40~42
23 忻健,朱景德,王翼飞.网络数据挖掘及其在生物信息学中
的应用.自然杂志,2004,26(5):269~273
24 LeroyG,ChenH.Genescene:AnOntology2EnhancedIntegrationof
LinguisticandCo2OccurrenceBasedRelationsinBiologicalTexts.JournaloftheAmericanSocietyforInformationScienceandTechnolo2gy,2005,56(5):457~568
25 HelmsAJ,etal.BioinformaticsOpportunitiesforHealthSciences
LibrariansandInformationProfessionals.http://www.pubmedcen2tral.nih.gov/articlerender.fcgi?artid=521520,2005207204
作者简介:朱庆华,男,1963年生,博士,教授。
李亮,女,1982年生,硕士生。
收稿日期:2006-02-20
科学,2002,20(2):117~119
—422—・第29卷2006年第4期・
ITA
●朱庆华 李 亮(南京大学信息管理系 江苏 210093)
!理论与探索#
生物信息学:我们能做什么?
摘 要:本文重点介绍了国内外生物信息学的研究现状,分析了情报学与生物信息学的联系,并提出了情报学在生物信息学研究中的切入点。
关键词:情报学;生物信息学;理论研究
Abstract:ThepapermainlyintroducesthestatusofresearchesonbioinformaticsinChinaandabroad.Itanalyzestherelationshipsbetweeninformaticsandbioinformatics,anddescribestheopportunitiesofinformaticsinresearchesonbioinformatics.
Keywords:informatics;bioinformatics;theoreticalstudy
生物信息学是20世纪80年代末随着基因组测序数据迅猛增长而逐渐兴起的一门新兴科学,是当今世界的研究热点。了解生物信息学的定义、研究内容,学的研究现状和研究热点,技术特点,,,。
。而生,[3]。生物信息学的信息学内,需要的是信息学的理论与方法的支持。海量的生物学数据只有经过信息学手段进行收集、分析和整理后,才能成为有用的知识和信息。情报学利用自身在信息收集、分析和整理方面的优势,能够在生物信息的存储、传播、检索和获取方面发挥重要作用[4]。
112 生物信息学的研究内容[5,6]
1 生物信息学的定义和研究内容
111 生物信息学的定义
目前,国际上公认的生物信息学的研究内容大致包括以下几个方面:①生物信息的收集、存储、管理与提供。主要是各种生物数据库的建立和管理,数据库接口和检索工具的研制。这是一切生物信息学工作的基础。②基因组序列信息的提取和分析。③功能基因组相关信息分析。④生物大分子结构模拟和药物设计。⑤生物信息分析的技术与方法研究。⑥应用与发展研究。
由于生物信息学是一门新兴的、正在迅速发展的交叉学科,目前国内外对生物信息学的定义众说纷纭。
美国国家基因组研究中心认为,生物信息学是一个代表生物学、数学和计算机的综合力量的新兴学科[1]。
我国中南大学张阳德编著的《生物信息学》一书中,给出的生物信息学的定义为:现代生物信息学是现代生命科学与信息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科,是应用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信息的采集、存储、传递、检索、分析和解读,以帮助了解生物学和遗传学信息的科学。从其研究所涉及的学科上看,生物信息学是集生物学、数学、信息学和计算机科学一体化的一门新的科学;从其研究的主要内容上看,基因组信息学、蛋白质的结构模拟以及药物设计是生物信息学的三个重要组成部分,并有机地结合在一起[2]。
赵国屏等编著的《生物信息学》一书中,在探讨什么是生物信息学时,分别分析了生物信息学的“生物学内涵”和“信息学内涵”。生物信息学的生物学内涵,即生物信息学中与生物学知识相关的研究内容。所谓的生物学
2 生物信息学的研究现状
生物信息学的发展将会给生命科学带来变革。它的成果不仅对相关基础学科起巨大的推动作用,而且还将对医药、卫生、食品、农业等产业产生巨大的影响,甚至引发新的产业革命带来巨大的经济效益。因此,各国都在生物信息学研究方面投入了大量的人力、物力和财力。
211 国外研究现状
发达国家在生物信息学研究方面起步较早,已成立了一些研究机构,这些机构开发并维护各自的数据库和软件等,在生物信息学研究领域处于引导地位。
1)美国国家生物技术信息中心[7,8]。美国的国家生物
技术信息中心(NationalCenterforBiotechnologyInformation,
・情报理论与实践・—419—
!理论与探索#
NCBI)开发的Entrez系统综合了多个大型的数据库,如文
ITA
蛋白质数据库和分析中心(ExPASy)、国际遗传工程和生物技术研究所、德国生物工程研究所、英国基因组资源中心、英国基因组研究中心(SangerCentre)、荷兰生物信息中心、澳大利亚基因组信息中心、新加坡生物信息中心等。目前是国内数据库种类最多,数据量最大的生物信息站点,为国内外用户提供了多项生物信息服务。该中心同时在进行生物信息软件集成和开发工作(Weblab),并且在数据库构建(PAKKnowledgebase)、基因预测、分子模型、蛋白质结构预测分析等领域都有相应的研究项目。
2)中科院计算所智能信息处理重点实验室生物信息
献数据库(PubMed)、核酸序列数据库(Nucleotide/Gen2
bank)、蛋白质序列数据库(Protein)等。Entrez可进行多
个数据库的交叉检索,也可单独检索某一个数据库。
2)欧洲生物信息研究所[9]。欧洲生物信息研究所(EuropeanBioinformaticsInstitute,EBI)的主要任务是建立
和维护生物信息学数据库,并提供信息服务支持生物信息学数据的存储和开放使用。EBI在其网站上提供一系列的生物信息学数据库和分析工具,其代表性数据库是EMBL。
3)日本国家遗传学研究所[10]。日本国家遗传学研究
所(NationalInstituteofGenetics,NIG)开发了日本DNA数据库(DNADataBankofJapan,DDBJ)。
上述3个数据库是目前世界上最权威、使用最广泛的生物信息学数据库,虽然它们是由不同国家的不同机构开发并维护的,但这3个数据库并不是独立的,它们之间有密切的合作,互通有无,同步更新,为用户获取比较全面的生物信息学资源提供了方便。
4)学研究组[13]。中科院计算所生物信息学研究组创立于
2000年12月,隶属于中国科学院智能信息处理重点实验
室。该研究组侧重于计算机技术在生物信息学中的应用,台。——Promotor人类。
3[14]。天津大学生物信息中
(TBioinformaticsCenter,TUBIC)成立于
年初。该中心开发了一些生物信息学软件,并提供基
组[11]。Sformation设业兴趣小组(Special,SIG于这些软件的服务。
4)中科院上海生命科学研究院生物信息中心[15]。中
是SIG/BIO()。该兴趣小组致力于情报学在生物信息学方面的应用,主要指生物序列数据(基因序列和蛋白质序列)的合成、处理、存储、检索和分析。
SIG/BIO的项目将围绕以下主题进行:识别情报科学
科院上海生命科学研究院生物信息中心(BioSino)成立于
2000年3月,为生命科学研究人员及相关的科研管理人员
提供全方位的生物信息服务,为国家生物信息中心及其上海基地(上海生物信息中心)的建设做出了贡献。生物信息中心与从事生物信息学研究的课题组合作开展相关课题的研究和软件的开发,积极参与生物信息学人才的培养。
通过以上分析可以看出,我国生物信息学领域的研究主要关注于生物信息学的“生物学内涵”,而不重视生物信息学的“信息学内涵”,也没有情报科学方面的权威机构研究情报科学在生物信息学中能发挥什么样的作用。
可能在当今的基因和蛋白质项目中发挥作用的领域;有关生物化学,遗传学,基因学和蛋白质数据的组织、结构化的已有方法和新方法;情报度量在基因学理论问题中的应用;基因数据的注解,检索系统的设计和应用;讨论在获取和使用基因数据时产生的社会和伦理问题等。
SIG/BIO的兴趣既有理论研究方面的,也有实际应用
方面的。理论方面主要是应用信息科学的原则来理解基因序列;实际应用方面有面向公司、学术机构和公众的基因和蛋白质数据库的导航和中介服务等。
在上面介绍的研究机构中,前3个都是从生物学的角度来研究生物信息学的,他们所关注的是生物信息学的“生物学内涵”,而最后一个是从情报科学的角度来研究生物信息学的,所关注的是生物信息学的“信息学内涵”。
212 国内研究现状
3 情报学与生物信息学
311 情报学与生物信息学的关系
生物信息学和情报学具有内在的联系。基因信息通常被看作是父代与子代之间的信息的通信;而情报学关注传统的信息的通信。这两种通信在理论上是存在相似性的。情报学的先驱Shannon在提出通信的数学理论之前,就明确指出了情报学里的信息与基因信息的关联。情报学和生物信息学的相似性主要表现在以下几个方面:①起源相似。信息量的剧烈增长促进情报学和生物信息学兴起。“信息爆炸”促进了情报学的产生和发展;人类基因组计划实施以后,有关核酸、蛋白质的序列和结构数据呈指数增长,庞大而复杂的信息促使生物信息学的产生。②目标
目前国内生物信息学研究机构主要有:
1)北京大学生物信息中心[12]。北京大学生物信息中
心(CBI)成立于1997年,是欧洲分子生物学网络组织
EMBnet的中国国家节点。几年来,已与多个国家建立了
合作关系,其中包括欧洲生物信息学研究所(EBI)、国际
—420—・第29卷2006年第4期・
ITA
相似。情报学和生物信息学的最终目标都是将杂乱无章的信息或数据通过整序变成有用的信息或知识。生物信息的存储、传播、检索和获取与情报学息息相关[4]。③技术相似。计算机技术的发展,使这两门学科的产生成为可能。正是由于计算机技术的出现,哪怕是一种雏形,人们就将之作为现代情报学的起点;面对海量的生物信息,如果没有日益发达、功能强大的计算机技术,人们将会束手无策,更不可能产生生物信息学这门新兴学科[16]。
312 情报学在生物信息学中的切入点
!理论与探索#
的。这就导致了很多问题,如对新发现的基因如何命名并没有一个标准,导致基因名称不具有唯一性。两个不同的基因可能被赋予相同的名称,一个基因也有可能拥有多个名称。由于缺乏一个标准化的命名机制,要集成不同数据来源中有关同一个基因的数据是很困难的。对基因功能的解释也存在同样的问题。没有一种方法来描述一个特定的基因功能,因此,要找到与某一种基因功能相关的所有基因是很困难的。为了解决生物信息学中的这两个问题以及其他相似的问题,国外已经有人开始研究用本体和词表来解决问题,也有研究开始着手开发命名标准。在生物学领域已经有“基因本体”(GeneOntology),基因本体工程提供描述任意机体内基因和基因产品的属性的控制词表。情报学家可以借鉴已有的成果,,。
)数据一般认为,情报学在生物信息学中的切入点可以分为以下几个方面:①开发数据管理、集成和可视化的新工具、新方法;②集成、推理和发现工具、方法的应用;③信息理论在生物信息学中的应用[17]。具体来说,情报学在生物信息学中的切入点包括以下几个方面[18]:
1)情报学理论与方法用于生物信息学。一方面,生
物信息学将对信息科学的理论产生一定的影响。生物科学中的信息与情报学领域的信息既有联系又有区别息与其他类型的信息之间的区别,,,,促进生物信息学的发展。,他们应用共词分析方法对生物信息学的主题词进行聚类,得到其研究的热点内容,然后利用战略坐标进一步定量分析了各热点的发展阶段[19]。
2)生物信息学家的信息需求和信息寻求行为研究。
,不同的子学科的文献,很难得到有效的利用。研,使得在检索时能够跨越学科界限,检索出所有相关的文献。其中一个方法可以通过开发元数据标准,使分散的数据存储能够交互。可以吸取在开发和使用元数据过程中取得的经验,结合生物信息学的学科特点,开发出适用于生物信息学的元数据标准,使生物信息学中跨学科、跨数据库的文献集成使用更加便捷。
5)数据—文献挖掘/知识发现系统。一些学者认为,
生物信息学家是一个特殊的信息用户群体,他们的研究涉及到各种各样不同类型和形式的信息。分析这一个特殊群体的特点和他们希望完成的任务,了解他们如何寻找和使用信息,如何将获得的信息进行组合,不仅有助于为他们提供主动、及时、有效的信息服务,而且可以为情报学在生物信息学领域的其他研究和应用提供帮助。加拿大多伦多大学信息研究所的两位学者J.C.Bartlett和E.G.
Toms已经开始进行这方面的研究,并取得一定的成果。
情报学家在生物信息学领域能够最好地发挥作用的领域就是知识发现系统,或者说在已有的数据集和文献中应用数据挖掘技术,提出新假设供实验检验。国外已有学者在这方面进行研究。一些学者研究了如何从生物信息学数据库中挖掘出关联规则[21]。国内也有学者探讨数据挖掘、网络数据挖掘在生物信息学中的应用[22,23]。
6)信息检索。将现代先进的信息检索方法应用到生
物信息学领域,将会在很大程度上促进生物信息学的发展。一些学者利用本体开发了一个生物信息学文献检索系统Genescene。Genescene系统由两个主要部分组成:关系分析器(RelationParser)和概念空间(ConceptSpace)。
Genescene运行时,首先抽取出MEDLINE数据库中的文献
他们采访了20位生物信息学家,询问他们在进行基因功能分析时采用的过程,然后利用信息行为分析和任务分析方法分析这些过程。虽然每一位生物信息学家采用的过程是不同的,但是它们之间存在共性。根据共性对这些过程进行集成,得出一个标准的基因功能分析过程。该过程能为生物信息学家进行基因功能分析提供有效的帮助。两人还将进一步对该过程进行检测,如进行用户测试、网上调查问卷等以保证其有效性和可靠性[20]。
3)知识表达。一方面,生物信息学中的数据剧增;
存放在自己的数据库中,然后关系分析器找出所有文摘中名词短语之间的关系。一个关系通常由5部分组成:左边的名词短语(LP)、右边的名词短语(RP)、连接词(Con2
nector)(通常是动词)、修饰词(Modifier)
(修饰连接词)
和否定词(Negation)(修饰整个关系)。概念空间是一种
另一方面,生物信息学方面的科学研究和发现都是分散性基于共现的技术,用来抽取整个文献集中每一对(LP,
・情报理论与实践・—421—
!理论与探索#
RP)的共现关系。用户给出他们感兴趣的关键词,Genescene提供所有包含该关键词的关系,同时给出每组
ITA
5 生物谷.http://www.bioon.com/blog/more.asp?name=%
C1%F7%C0%CB%B5%C4%B7%E7&id=4382,[1**********] 黄科等.生物信息学.情报学报,2002,21(4):491~4967 NationalCenterofBiotechnolgyInformation.http://www.ncbi.
nlm.nih.gov,2005207203
8 杜永莉等.因特网生物信息学数据库资源及其利用.中华医
关系的来源文献信息。用户可以很容易获取他们感兴趣的关系的来源文献[24]。
7)可视化工具和界面设计。目前,生物信息学领域
已有多个可视化工具。但是,这些可视化工具一般只是针对某一个特定问题的,而且大部分的可视化工具并没有进行可用性测试和评价。而可用性测试和评价方面的研究在信息科学领域是十分普通和常见的。情报学家可以利用他们所擅长的测试和评价方法,对已有的可视化工具进行分析,提出其缺点和不足以进行改进。
8)图书馆信息服务。在一定程度上,为生物信息学
学图书情报杂志,2004,13(6):43~45
9 EuropeanBioinformaticsInstitute1http://www1ebi1ac1uk,[1**********]0 NationalInstituteofGenetics.http://www.nig.ac.jp/index2e.
html,2005207203
11 AmericanSocietyforInformationScienceandTechnology.http://
www.asis.org/AboutASIS/asis2sigs.html#SIGBIO,[1**********]2 北京大学生物信息中心.http://www.cbi.pku.edu.cn/
chinese/aboutus.html,2005207203
13 中科院计算所智能信息处理重点实验室生物信息学研究组.
http://www.bioinfo.org.cn/index.,[1**********]4 天津大学生物信息中心.http:tju.edu.cn,20052
07203
15.http://www.
org,203
16.情报杂志,2004
~15
17 DennSO,MacmullenWJ.TheAmbiguousBioinformaticsDomain:
AConceptualMapofInformationScienceApplicationsforMolecularBiology.
http://www3.
interscience.
wiley.
com/cgi2bin/full2
text/109882641/PDFSTART,2005207204
18 MacmullenWJ,DennSO.InformationProblemsinMolecularBiolo2
gyandBioinformatics.JournaloftheAmericanSocietyforInformationScienceandTechnology,2005,56(5):447~456
19 张晗,崔雷.生物信息学的共词分析研究.情报学报,2003,
22(5):613~617
20 BartlettJC.TomsEG.DevelopingaProtocolforBioinformatics
Analysis:AnIntegratedInformationBehaviorandTaskAnalysisAp2proach.JournaloftheAmericanSocietyforInformationScienceandTechnology,2005,56(5):469~482
21 RodriguezA,CarazoJM,TrellesO.MiningAssociationRulesfrom
BiologicalDatabase.JournaloftheAmericanSocietyforInformationScienceandTechnology,2005,56(5):493~504
22 胡永钢,须文波.数据挖掘在生物信息学中的应用.生物信
家提供图书馆和信息服务取决于生物信息学家的信息寻求和使用行为研究的结果。现在已经有很多公共的信息资源可供生物信息学家选择。然而仅有信息资源是不够的,很多生物学家在面对如此多的选择时,并不知道哪些是最符合自己需求的。因此,机构提供相关服务,国外有学者认为,:放交流;;。②知识管理。式和信息检索,提供知识管理系统,使知识共享更加方便。③教育和培训。包括为研讨会提供生物信息学方面的资源,讲授如何使用复杂的基因序列数据库、蛋白质序列数据库,以及如何使用可视化工具等。④出版物。包括对生物信息学领域的发展状况分析,生物信息学资源分析与导航,出版生物信息学专业会议记录等。⑤内部网系统开发。内部网是知识管理的支柱,是在一个合作研究环境中记录知识,信息交流、发布和共享的平台。内部网、数字图书馆和电子论坛的开发过程包括用户信息需求分析,信息构建,索引,网页设计,系统开发等多个方面[25]。
4 结语
生物信息学是一门交叉学科,情报学在生物信息学领域有很大的发展空间。充分发挥情报学的优势,结合生物信息学的特点和规律将会取得卓越的成果。这些成果不仅会促进生物信息学的发展,更会促进情报学的发展和完善。□
参考文献
1 张阳德.生物信息学.北京:科学出版社,2004.32 张阳德.生物信息学.北京:科学出版社,2004.43 赵国屏.生物信息学.北京:科学出版社,2002.6,234 方平,胡德华.试论生物信息学及其对情报学的影响.情报
息学,2004,2(3):40~42
23 忻健,朱景德,王翼飞.网络数据挖掘及其在生物信息学中
的应用.自然杂志,2004,26(5):269~273
24 LeroyG,ChenH.Genescene:AnOntology2EnhancedIntegrationof
LinguisticandCo2OccurrenceBasedRelationsinBiologicalTexts.JournaloftheAmericanSocietyforInformationScienceandTechnolo2gy,2005,56(5):457~568
25 HelmsAJ,etal.BioinformaticsOpportunitiesforHealthSciences
LibrariansandInformationProfessionals.http://www.pubmedcen2tral.nih.gov/articlerender.fcgi?artid=521520,2005207204
作者简介:朱庆华,男,1963年生,博士,教授。
李亮,女,1982年生,硕士生。
收稿日期:2006-02-20
科学,2002,20(2):117~119
—422—・第29卷2006年第4期・