-- 作者:admin
-- 发布时间:9/23/2004 2:05:00 AM
-- 序列数据库
序列数据库 发信人: palomino (~快马加鞭~), 信区: Bioinformatics 标 题: 序列数据库 发信站: 北大未名站 (2002年03月23日15:20:51 星期六), 转信 序列数据库 序列数据库是分子生物信息数据库中最基本的数据库,包括核酸和蛋白质两类,以核苷 酸碱基顺序或氨基酸残基顺序为基本内容,并附有注释信息。序列数据库早期的数据主 要由数据录入人员通过查阅文献杂志搜集,或者由科研人员用磁盘、电子邮件方式向国 际生物信息数据库中心递交。数据中心对搜集到的序列数据进行整理、维护,并定期通 过磁盘、磁带和光盘方式向全世界发布。序列数据库的序列数据来自核酸和蛋白质序列 测定;注释信息包括两部分,一部分由计算机程序经过序列分析由计算机程序生成,另 一部分则依靠生物学家通过查阅文献资料而获得。随着基因组大规模测序计划的迅速开 展,序列数据库特别是核酸序列数据库的数据量迅速增长,数据来源主要集中于国际上 几大著名的测序中心,如位于英国剑桥南郊基因组园区的Sanger Centre,华盛顿大学基 因组研究中心等。我国于1999年参加国际人类基因组研究项目,已经于于2000年4月按计 划完成人类基因组1%序列的测定。 常用核酸序列数据库 EMBL、GenBank和DDBJ是国际上三大主要核酸序列数据库。EMBL是由欧洲分子生物学实验 室(European Molecular Biology Laboratory)于1982年创建的,其名称也由此而来,目 前由欧洲生物信息学研究所负责管理[Baker, 2000]。美国国家健康研究院(National Institurte of Health,简称NIH) 也于80年代初委托洛斯阿拉莫斯(Los Alamos)国家实 验室建立GenBank,后移交给国家生物技术信息中心NCBI,隶属于NIH下设的国家医学图 书馆(National Liabraty of Medicine,简称NLM)。DDBJ是DNA Data Base of Japan的 简称,创建于1986年,由日本国家遗传学研究所负责管理。1988年,EMBL、GenBank 与D DBJ共同成立了国际核酸序列联合数据库中心,建立了合作关系。根据协议,这三个数据 中心各自搜集世界各国有关实验室和测序机构所发布的序列数据,并通过计算机网络每 天都将新发现或更新过的数据进行交换,以保证这三个数据库序列信息的完整性。 鉴于核酸序列数据库规模不断扩大,数据来源种类繁多,特别是大量的基因组序列片段 迅速进入数据库,有必要将其分成若干子库,既便于数据库的维护和管理,也便于用户 使用。例如,在对数据库进行查询或搜索时,有时不需要进行整库操作,而是将查询和 搜索范围限定在一个或几个子库,不仅加快了速度,而且可以得到更加明确、可靠的结 果。分类的原则,一是按照种属来源,如哺乳类、啮齿类、病毒等;二是根据序列来源 ,如将专利序列、人工合成序列单独分类。此外,基因组计划测序所得到的序列已经占 了数据库总容量的一半以上,而且增长速度远远超过其它各种子库,有必要将其单独分 类,包括表达序列标记(Expressed Sequence Tags,简称EST)、高通量基因组测序(High Throughput Genomic sequencing,简称HTG),序列标签位点(Sqsequence Tag Site, 简称STS),基因组概览序列(Genome Survey Sequence,简称GSS)。其中EST序列条目占 了整个核酸序列数据库的一半以上。由于历史的原因,EMBL和GenBank对其子库分类方法 略有不同[http://www.cbi.pku.edu.cn/chinese/documents/bioinfor/overview/web5/l ink1.2.3.1.html],使用时应该注意。 EMBL、GenBank数据库结构 了解序列数据库的格式,有助于更好地使用,提高数据库检索的效率和准确性。DDBJ数 据库的内容和格式与GenBank相同,此处不作详细介绍。下面分别介绍EMBL和GenBank的 数据库结构 GenBank数据库结构 完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据 库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻 译而得到的蛋白质序列数据库,其数据格式为FastA。 GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列 顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。 下面,我们介绍序列文件的结构。 GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始 ,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符 开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从 第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一 行,也可以占若干行。若一行中写不下时,继续行以空格开始。[http://www.cbi.pku.e du.cn/chinese/documents/bioinfor/overview/web5/link1.2.3.2.1-1.html] 序列条目的关键字包括LOCUS (代码),DEFINITION (说明),ACCESSION (编号),NID符( 核酸标识),KEYWORDS (关键词),SOURCE (数据来源),REFERENCE (文献),FEATURES (特性表),BASE COUNT (碱基组成)及ORIGIN (碱基排列顺序)。先版的核酸序列数据库 将引入新的关键词SV (序列版本号),用“编号.版本号”表示,并取代关键词NID。 LOCUS (代码):是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图4 .1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容, 如序列长度、类型、种属来源以及录入日期等。说明字段是有关这一序列的简单描述, 如本例为人环氧化酶-2的mRNA全序列。 ACCESSION (编号):具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧化 酶-2的mRNA序列,在文献中引用这个序列时,应该以此编号为准。 KEYWORDS (关键词)字段:由该序列的提交者提供,包括该序列的基因产物以及其它相关 信息,如本例中环氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。 SOURCE (数据来源)字段:说明该序列是从什么生物体、什么组织得到的,如本例中人脐 带血(umbilical vein)。次关键字ORGANISM (种属)指出该生物体的分类学地位,如本例 人、真核生物等等(详见图4.1)。 REFERENCE (文献)字段:说明该序列中的相关文献,包括AUTHORS (作者),TITLE (题目 )及JOURNAL (杂志名)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLIN E的代码。该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列 可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。 FEATURES (特性表):具有特定的格式,用来详细描述序列特性。特性表中带有‘/db-xr ef/’标志的字符可以连接到其它数据库,如本例中的分类数据库(taxon 9606),以及 蛋白质序列数据库(PID:g181254)。序列中各部分的位置都在表中标明,5’非编码区 (1-97),编码区(98-1912),3’非编码区(1913-3387),多聚腺苷酸重复区域(3367-3374 ),等等。翻译所得信号肽以及最终蛋白质产物也都有所说明。当然,这个例子只是特性 表的部分注释信息,但已经足以说明其详细程度。 接下来是碱基含量字段,给出序列中的碱组成,如本例中1010个A,712个C,633个G,10 32个T。ORIGIN行是序列的引导行,接下来便是碱基序列,以双斜杠行“//”结束。 EMBL数据库结构 EMBL数据库的基本单位也是序列条目,包括核甘酸碱基排列顺序和注释两部分。序列条 目由字段组成,每个字段由标识字起始,后面为该字段的具体说明。有些字段又分若干 次子字段,以次标识字或特性表说明符开始,最后以双斜杠“//”作本序列条目结束标 记。 条目的关键字包括ID(序列名称),DE(序列简单说明),AC(序列编号),SV(序列 版本号),KW(与序列相关的关键词),OS(序列来源的物种名),OC(序列来源的物 种学名和分类学位置),RN(相关文献编号或递交序列的注册信息),RA(相关文献作 者或递交序列的作者),RT(相关文献题目),RL(相关文献杂志名或递交序列的作者 单位),RX(相关文献 Mediline引文代码),RC(相关文献注释),RP(相关文献其 他注释),CC(关于序列的注释信息),DR(相关数据库交叉引用号),FH(序列特征 表起始),FT(序列特征表子项),SQ(碱基种类统计数)。 EMBL和GenBank数据结构对照表[http://www.cbi.pku.edu.cn/chinese/documents/bioin for/overview/web5/link1.2.3.2.1-2.html] 其它常用核酸序列数据库 dbEST dbEST数据库专门收集EST数据,该数据库有自己的格式,包括识别符、代码、序列数据 以及dbEST的注释摘要,也按DNA的种类分成了若干子数据库。1998年5月8日版的dbEST共 包括1.6ⅹ106条EST。其中有1百万条人的EST,30万条小鼠和大鼠的EST。 GSDB GSDB是基因组序列数据库(Genome Sequence Data Base),由美国新墨西哥州Santa Fe的国家基因组资源中心创建。GSDB收集、管理并且发布完整的DNA序列及其相关信息, 以满足基因组测序中心需要。该数据库采用服务器-客户机关系数据库模式,大规模测序 机构可以通过计算机网络向服务器提交数据,并在发送之前对数据进行检查,以确保数 据的质量。 GSDB数据库中条目的格式与GenBank中的基本一致,主要区别是GSDB数据库中增加了GSDB ID识别符。 GSDB数据库可以通过万维网查询,也可以使用服务器-客户机关系数据库方式查询。无论 用哪种方法,熟悉数据库结构化查询语言SQL,对更好地使用GSDB数据库会有所帮助。 UniGene 人类基因组计划的首要任务是对人类基因组进行全序列测定,整个基因组估计有30亿个 碱基对,其中大约3%可以编码蛋白质,其余部分的生物学功能还不清楚。转录图谱可以 把基因组中能够编码蛋白质的部分集中起来,因此是一种重要的数据资源。 UniGene试图通过计算机程序对GeneBank中的序列数据进行适当处理,剔除冗余部分,将 同一基因的序列,包括EST序列片段搜集到一起,以便研究基因的转录图谱。UniGene除 了包括人的基因外,也包括小鼠、大鼠等其它模式生物的基因,而下一章将要介绍的HGI 数据库只包括人的基因。该数据库的标题行(TITLE)给出基因的名称和简单说明,表达 部位行(EXPRESS)指出该基因在什么组织中表达以及在基因图谱中的位置等。此外,列 出该基因在核酸序列数据库GenBank或EMBL和蛋白质序列数据库SWISS-PROT中的编号的超 文本链接。 UniGene中部分条目包括已知基因序列,而有些条目则仅有新测得的EST序列片段。这就 意味着,这些EST序列所对应的基因尚未搞清,可以用来发现新基因。在描绘基因图谱及 大规模基因表达分析等研究中,UniGene也可以帮助实验设计者选择试剂。 UniGene可以通过NCBI或SRS系统访问。 重要网址 EMBL http://www.edi.ac.uk/ebi_docs/embi_db/edi/topembl.html DDBJ http://www.ddbj.nig.ac.jp/ GenBank http://www.ncbi.nlm.nih.gov/Web/Genbank/ DbEST http://www/ncbi.nlm.nih.gov/dbEST/ GSDB http://www.ncgr.org/gsdb/ SGD http://genome-www.stanford.edu/Saccharomyces/ UniGene http://www.ncbi.nlm.nih.gov/UniGene/ TDB http://www.tigr.org/tdb/tdb.html AceDB http://www.sanger.ac.uk/Software/Acedb/ Webace http://webace.sanger.ac.uk/ 常用蛋白质序列数据库 由于蛋白质序列测定技术先于DNA序列测定技术问世,蛋白质序列的搜集也早于DNA序列 。蛋白质序列数据库的雏形可以追朔到60年代。60年代中期到80年代初,美国国家生物 医学研究基金会(National Biomedical Research Foundation,简称NBRF)Dayhoff领导 的研究组将搜集到的蛋白质序列和结构信息以“蛋白质序列和结构地图集”(Atlas of Protein Sequence and Structure)的形式发表,主要用来研究蛋白质的进化关系。1984 年,“蛋白质信息资源”(Protein Information Resource,简称PIR)计划正式启动,蛋 白质序列数据库PIR也因此而诞生。与核酸序列数据库的国际合作相呼应,1988年,美国 的NBRF、日本的国际蛋白质信息数据库(Japanese International Protein Information Database,简称JIPID)和德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences,简称MIPS)合作成立了国际蛋白质信息中 心(PIR-International),共同收集和维护蛋白质序列数据库PIR,[Barker等, 2000]。P IR数据库按照数据的性质和注释层次分四个不同部分,分别为PIR1、PIR2、PIR3和PIR4 。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的 序列尚未加以检验,也未加注释; 而PIR4中则包括了其它各种渠道获得的序列,既未验 证,也无注释。 除了PIR外,另一个重要的蛋白质序列数据库则是SwissProt。该数据库由瑞士日内瓦大 学于1986年创建,目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics ,简称SIB)和欧洲生物信息学研究所 EBI共同维护和管理。瑞士生物信息研究所下属的 蛋白质分析专家系统(Expert Protein Analysis System,,简称ExPASy)的Web服务器除 了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心, 为用户提供大量蛋白质信息资源。北京大学生物信息中心设有ExPASy的镜象。 PIR和SwissProt是创建最早、使用最为广泛的两个蛋白质数据库。随着各种模式生物基 因组计划的进展,DNA序列特别是EST序列大量进入核酸序列数据库。蛋白质序列数据库T rEMBL是从EMBL中的cDNA序列翻译得到的。TrEMBL数据库创建是于1996年[Bairoch, 2000],意为“Translation of EMBL”。该数据库采用SwissProt数据库格式,包含EMBL 数据库中所有编码序列的翻译。TrEMBL数据库分两部分,SP-TrEMBL和 REM-TrEMBL。SP- TrEMBL中的条目最终将归并到SwissProt数据库中。而Rem-TrEMBL则包括其它剩余序列, 包括免疫球蛋白、T细胞受体、少于8个氨基酸残基的小肽、合成序列、专利序列等。与 TrEMBL类似,GenPept是由GenBank翻译得到的蛋白质序列。由于TrEMBL和GenPept均是由 核酸序列通过计算机程序翻译生成,这两个数据库中的序列错误率较大,均有较大的冗 余度。 另一个常用的蛋白质序列数据库是已知三维结构蛋白质的一级结构序列数据库NRL-3D[Na mboodiri, 1990]。该数据库的序列是从三维结构数据库PDB中提取出来。除了序列信息 外,NRL-3D包括二级结构、活性位点、结合位点、修饰位点等与蛋白质结构直接有关的 注释信息,对研究蛋白质结构功能关系和同源蛋白分子模型构建特别有用。 SwissProt数据库结构 SwissProt数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计 算机工具并查阅有关文献资料仔细核实。SIB和 EBI共有70多人的研究队伍,专门从事蛋 白质序列数据的搜集、整理、分析、注释、发布,力图提供高质量的蛋白质序列和注释 信息。SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域 、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库EMBL/Ge nBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二次数据库的交叉引 用代码。特别值得一提的是,ExPAsy专门聘请了由200多位国际知名生物学家组成的网上 专家评审团,并将SwissProt数据库中的蛋白质分成200多个类别[http://www.cbi.pku.e du.cn/chinese/documents/bioinfor/overview/web5/link1.2.3.2.1-1.html],每 个类别由1位或2位评审专家负责,通过计算机网络进行审核。ExPASy网站上列出了这些 评审专家的姓名、电子邮件地址和他们所负责评审蛋白质种类。用户若对某个蛋白质条 目有疑义,可以直接和相应的评审专家取得联系。 SwissProt采用了和EMBL核算序列数据库相同的格式和双字母标识字。这种双字母的标识 字对于数据库的管理维护比较方便,但用户在使用时却不很方便,特别对数据库格式不 很熟悉的用户,尤为如此。近年来,随着计算机网络和信息技术的发展,ExPASy开发了 面向生物学家的、基于浏览器的用户界面,特别是用可视化方式表示氨基酸特征表,使 用户对序列特性一目了然,如二硫键、跨膜螺旋、二级结构片段、活性位点等。截止199 8年6月,SWISS-PROT数据库包含约7万条序列,这些序列涵盖了5千多个不同种属,其中 大部分来自于几种主要模式生物,如人、啤酒酵母、大肠杆菌、小鼠、大鼠等。 SWISS-PROT数据库的结构与其它蛋白质序列数据库不同。[http://www.cbi.pku.edu.cn/ chinese/documents/bioinfor/overview/web5/link1.2.3.2.1-2.html]给出SWIS S--ROT数据库中一个序列条目的实例。图中每一行由两个字母起始,用来说明每一行所代 表的信息。起其中第一行以“ID”开始,最后一行以双斜杠“//”结束。ID行表示该序 列的名称是OPSD_SHEEP,共有348个氨基酸残基。SWISS-PROT数据库的ID包含一定信息, 如本例中“OPSD”表示蛋白质名称缩写,而“SHEEP”表示该蛋白质分子来自于哪个物种 ,中间用下划线分隔。即这一蛋白序列是来源于绵羊的视紫红质(rhodopsin)。 序列条目的标识符ID随着版本的更新有可能改变,因此有必要采用能够唯一识别该序列 条目的其它标识符。SWISS-PROT采用AC(accession number)作为表示某个特定序列的 代码,具有唯一性和永久性。在文献中引用某个序列时,应以AC为准,而不是以序列名 称或ID为准。本例中,代码AC为P02700。采用AC代码的另一个好处是便于计算机处理。 如果在AC行出现了几个代码值,那么应以第一个为准,它表示该序列在当前版本中的代 码。 下面的DT行提供了蛋白质序列提交到数据库的时间,及最近一次修改的时间等信息。描 述行(DE)可以有一行或几行,提供了对该蛋白质的简单说明。此例中,说明该蛋白质 为视紫红质。下面的几行中提供了有关该蛋白质的基因名(GN)、物种来源(OS)和分 类学位置(OC)等信息。 接下来是与该蛋白质相关的基本注释信息,包括文献信息、与测序有关的信息、以及对 该蛋白质序列分析得到的与结构或突变相关的信息等。这些注释为用户提供了非常有价 值的信息。 基本注释信息后,是说明行(CC)。在CC行中按主题进行区分,其中,FUNCTION说明该 蛋白质的功能,PTM说明翻译后修饰,TISSUE SPECIFICITY说明组织专一性,SUBCELLULA R LOCATION说明亚细胞定位,SIMILARITY说明了与该蛋白质序列具有相似性或相关的某 个蛋白质家族,等等。本例中,由这些注释信息可以知道视紫红质是一种存在于视杆细 胞中的膜可视蛋白,属于视蛋白家族和1型G蛋白偶联受体(GPCR)超家族。 在说明行后的是数据库交叉引用(DR)行,提供了与其它生物信息数据库之间的链接, 包括一级序列数据库、序列模块数据库、特殊数据库等。本例中,该蛋白质序列具有与 另一个蛋白质序列数据库PIR的链接、与GPCR专门数据库的链接,以及与蛋白质序列模体 数据库PROSITE的链接和与蛋白质结构域数据库ProDom的链接。 在DR行之后,是关键字行(KW)和特征表行(FT)。特征表包括对该序列特性的进一步 注释,包括跨膜螺旋等超二级结构单元、配体结合位点、翻译后修饰位点等。特征表的 每一行有一个关键字(如TRANSMEM)、特征序列的氨基酸残基位置(如37-61),以及注 释信息的性质(如POTENTIAL)等。本例中,视紫红质的跨膜区域是由计算机预测得到的 ,尚未得到实验证据,因此仅用POTENTIAL表示。 最后一部分是蛋白质序列,即SQ行。为减少存储空间,氨基酸编码以单字母表示,每行6 0个残基。SWISS-PROT数据库中的序列数据与蛋白质前体对应,如果想要获得成熟蛋白质 的序列,可以参考特征表所提供的信息,即根据特征表所提供的信号区(SIGNAL),转 运区(TRANSIT)或前肽(PROPEP)等信息来推断成熟蛋白质或多肽序列。此外,CHAIN 和PEPTIDE两个关键字用来表示成熟蛋白质的位置。 SWISS-PROT数据库的格式便于通过计算机软件进行查询,即通过对每行起始的标识字建 立索引文件,即可方便地找到某一字段。 其它蛋白质序列数据库 上述几个蛋白质序列数据库可以称为蛋白质序列一次数据库,或基本数据库。它们各有 特点。NRL3D包含已知空间结构的序列,但数据量十分有限;SwissProt的序列经过严格 的审核,注释完善,但数据量较小。PIR数据量较大,但包含未经验证的序列,注释也不 完善。TrEMBL和GenPept的数据量最大,且随核酸序列数据库的更新而更新,但它们均是 由核酸序列翻译得到的序列,未经实验证实,也没有详细的注释。将上述数据库整合起 来,构建复合数据库,或二次数据库,则有利于生物学家的使用。OWL[Bleasby, 1994] 和NRDB[Holm L, 1998]就是根据这一原则构建的非冗余蛋白质序列数据库。这两个数据 库均是由GenPept、PIR、SwissProt、NRL3D等数据库复合而成。为使二次序列数据库中 的序列具有较好的代表性,在构建复合数据库时,采取了某些序列取舍的标准,使用了 一定的算法,并增加了与其它数据库的交叉引用,在某些方面具有一定的优点。 NRDB NRDB是由NCBI创建的,是NCBI的BLAST搜索程序的默认蛋白质序列数据库。该数据库由Ge nPept(由GenBank 编码序列自动翻译而成数据库)、PDB序列数据库、SWISS-PROT数据 库、SPupdate(每周更新的SWISS-PROT数据库)、PIR和GenPeptUpdate(每天更新的GenP ept)数据库复合而成。因此该数据库是一个较完全的,包含最新信息的数据库。该数据 库中已将那些与某一序列完全相同的序列信息剔除, 因此不包含重复信息。但严格地说 ,尽管NRDB数据库被称作非冗余数据库,其仍包含冗余信息。此外,由于该数据库是通 过简单的比较方法生成的,因此会带来一些问题,例如,一次数据库中的错误序列被引 入该数据库。 OWL OWL是一个非冗余的蛋白质序列数据库,是由Leeds大学和Warrington的Daresbury实验室 合作开发的(Bleasby等,1994)。OWL数据库由四个主要的一级序列数据库复合而成, 即SWISS-PROT、PIR、GenBank(由其编码序列翻译而成的氨基酸序列)和NRL-3D。 在构建OWL数据库的过程中,考虑到每个数据库所包含序列信息的情况,赋予它们不同的 优先级,SWISS-PROT数据库的优先级最高。在对数据的处理上,不仅删除与某一序列完 全相同的序列条目,也剔除与某一序列相差个别氨基酸残基的序列条目。因此,OWL数据 库是一个具有较小冗余度的蛋白质序列数据库。尽管如此,与NRDB相同,OWL数据库也会 有一些错误,即在该数据库中仍然包括来自一次数据库的错误序列,例如由GenBank中错 误序列翻译而得的错误的氨基酸序列。此外,OWL数据库更新较慢。英国的EMBnet国家节 点上提供有针对于OWL的BLAST搜索服务。 MIPSX MIPSX是由德国Max-Planck研究所创建的复合数据库(Mewes等,1998)。MIPSX由以下数据 库整合而成:PIR、MIPS一级序列数据库(MIPSOwn)、MIPS/PIR一级序列数据库(PIRMO D)、MIPS一级翻译序列数据库(MIPSTrn)、MIPS酵母数据库(MIPSH)、NRL-3D、SWIS S-PROT、EMTrans(由EMBL翻译得到的序列)、GBTrans(由GenBank翻译得到的序列)、 Kabat和PseqIP。MIPSX数据库按照表3.2中所列的数据库顺序设置优先级,并将这些数据 库中的重复序列删除,只保留一个相关条目。 SWISS-PROT + TrEMBL EBI将SWISS-PROT和TrEMBL数据库合并,构成一个较全面的并且只有最低限度冗余的数据 库(Bairoch和Apweiler,1998)。用户可以使用EBI网络服务器上的SRS序列检索系统查 询SWISS-PROT和TrEMBL数据库。与上面所提到的数据库相比,该数据库只有较少的错误 ,但它还称不上是真正的非冗余的数据库。据1997年年中估计,其中包含了SWISS-PROT 和 TrEMBL中的30%的重复序列。显然,为了尽可能地减少错误率和冗余度,需要进行大 量工作,包括开发专门的数据库处理系统等。 综上所述,蛋白质序列数据库种类繁多,各有特色[http://www.cbi.pku.edu.cn/chines e/documents/bioinfor/overview/web5/link1.2.3.2.2.html] 。显然,与核酸 序列数据库不同,用户在使用蛋白质序列数据库时,不能只用其中一个,而必须根据实际 情况进行选择,如有可能,则应该尽量选择几个不同的数据库,并对结果加以比较。 -- 回忆不如憧憬,因为回忆有限,憧憬无限。 回忆不能变为憧憬,憧憬却能因成为回忆。 回忆可能因遗忘而愈变愈少,憧憬却能因想望则愈化愈多… 回忆不可能再成为现实,憧憬却可能实现在眼前。 所以我们不应在回忆中沉缅,而应在憧憬中开创。 ※ 来源:·北大未名站 bbs.pku.edu.cn·[FROM: 162.105.65.60]
|