计算机科学论坛--二级数据库搜索

二级数据库搜索

发信人: palomino (~快马加鞭~), 信区: Bioinformatics
标题: 二级数据库搜索
发信站: 北大未名站 (2002年03月31日04:03:58 星期天), 转信

二级数据库搜索

本章将在一次数据库的搜索基础之上讲述二次数据库的搜索和结果分析。这些方法是构
建二次数据库的理论基础和技术手段。前面，我们曾经对二次数据库作了一般介绍，侧
重其内容和格式。本章将进一步介绍蛋白质序列二次数据库的主要信息类型，包括序列
正则表达式(regular expression)、序列谱 (profiles)、序列指纹图谱(prints)、序列
模块(blocks)和用隐马尔可夫模型(Hidden Markov Model)分析蛋白质序列的方法。通过
阅读本章，希望读者对各种蛋白质二次数据库的特点和构建二次数据库的方法有所了解
，并用于识别蛋白质家族和亲缘关系，对序列比对和数据库搜索结果作出客观、正确的
解释。另外需要说明的是，本章所讨论的均为蛋白质序列。

二次数据库搜索的意义

众所周知，一次数据库的容量正以惊人的速率增长。从浩如烟海的一次数据库中找到未
知序列和已知序列的相似关系，从而推断未知序列的性质和特征，是对生物信息学研究
的挑战。一次数据库搜索可以有效的确定序列之间的相似性，但是对搜索结果的分析往
往相当困难，很难解决更加深入的问题，很难搞清搜索结果所代表的生物学意义。造成
这种情况的原因很多。例如，1998年GenBank中存储了超过一百万条序列，这些序列来自
18,000种不同的生物，搜索结果必然异常复杂而且包含大量冗余信息。如果不使用一定
的屏蔽手段，BLAST搜索结果会充斥大量重复序列的匹配。一些短的重复序列片段和测序
过程中常用的载体序列会给搜索结果的分析产生干扰。此外，对于多结构域的蛋白质，
搜索结果很难表明是在单个结构域上的匹配还是在多个结构域上的匹配，或者是全局水
平上的匹配。而且，BLAST搜索结果只注明目标序列的匹配部分，并不能提供该序列的全
部信息，有时甚至得出模棱两可的结果，对用户产生误导。由于一次数据库容量的不断
增加和冗余数据的增多，两个本来是直系同源序列之间的相似性分值可能反而低于不属
于同一基因家族的序列之间的相似性分值。也就是说，相关序列可能因此无法得到高的
相似性分值。

考虑到基因之间在种系发生上的联系，基因的直系进化可以从另一个方面为序列的研究
提供某些重要信息。由此得到启发，不妨把序列分析的重点从简单的同源性推断转移到
更加严格的直系进化的识别上来(Huynen and Bork，1998)，各种二次数据库搜索和分析
方法因此而应运而生。这一新的研究方向具有很大的实用价值。利用各种二次数据库分
析方法，可以详细阐明序列间的关系，包括在超家族、家族、亚家族和种属特异等不同
水平上。这种新的提取序列内在信息的能力使二次数据库搜索成为常规的一次数据库搜
索的强有力的补充。

二次数据库的内容

要正确使用这些二次数据库，不仅要了解它们存储的不同数据类型，还要搞清怎样进行
搜索，怎样解释不同的输出结果，以及怎样理解搜索结果的生物学意义。

读者可能还记得开发二次数据库的基本原理，即利用多序列比对的结果来寻找保守的序
列模体，而这些序列模体可以体现组成序列的结构特征或是功能特征。这些保守的序列
模体，乃至经过比对的整个序列，都可以用来构造标识基因家族或功能的特征信号，从
而用来识别新的未知序列。

导出基因家族特征有许多不同方法，这些方法大大促进了各种二次数据库的发展。下面
，我们将简要介绍几种最主要的方法。

正则表达式

模式识别最简单的方法是用一个简单的保守序列模体来标识一个家族的特征，并且把序
列模体简化成一个统一的正则表达式(regular expression)。正则表达式中不再包含序
列的全部信息，只保留最保守或最重要的氨基酸残基(表)。

表由一个保守的序列模体构建正则表达式

参与比对的序列
正则表达式

ADLGAVFALCDRYFQ

SDVGPRSCFCERFYQ

ADIGQPHSLCERYFQ

ADLGRTQNRCDRYYQ
[AS]-D-[IVL]-G-X4-{PG}-C-[DE]-R-[FY]2-Q

表4.3所示是正则表达式表示的序列模体实例。该序列模体中第2位的D、第4位的G、第10
位的C、第12位的R和第15位的Q是绝对保守的位点；第1、11、13和14位比较灵活，可以
是两种残基之一，方括号中的残基表示可以出现在该位置的残基种类；第3位可以出现三
种不同残基；第5到第8位可以是4个任意残基，表中用X4来表示；第9位是除了脯氨酸和
甘氨酸之外的其它任何残基，花括号表示不能出现在该位置的残基。

为了减小某种模式发生大量错误匹配的概率，常用的正则表达式搜索软件不允许不匹配
残基出现，而只能检索到完全符合该特定表达式的序列模体。显然，这种搜索具有很大
局限性。例如，假设一个未知序列与表中的正则表达式匹配得很好，仅仅在第2位有
差别，用一个谷氨酸E替换了天冬氨酸D。这样的序列片段尽管有与该正则表达式中的大
部分完全匹配，却会被当作错误匹配而被排除。实际上，谷氨酸E和天冬氨酸D之间的替
换是两种酸性氨基酸之间的保守替换。显然，这种基于正则表达式的搜索没有考虑生物
学意义，即没有考虑进化过程中的保守性替换。另一种情况，一个序列与正则表达式中
所有位置都很好匹配，仅在第4位甘氨酸后的非保守区中多了一个残基，这个序列在搜索
时同样会被排除在外，因为该正则表达式在相应位置只允许出现4个连续的氨基酸残基。
如果用这样的方法搜索数据库，结果会出现两种非此即彼的情况，即要么完全匹配，要
么完全不匹配。

这种非此即彼的搜索结果是基于正则表达式的二次数据库搜索的一个不足之处。因此，
应该设法构建一个好的正则表达式，使它在数据库搜索过程中既能容忍一定程度的误配
，又能避免出现大量噪音。显然，只能在以上两个制约因素之间进行折衷，因为正则表
达式序列模式的定义越模糊，找到同源序列甚至是远距离同源序列的可能性就越大，但
噪音也随之增加，得到假阳性结果的可能性也增加；相反，正则表达式序列模式定义越
严格，误配可能性就越小，但搜索结果灵敏度降低，许多匹配程度很高却无法完全满足
正则表达式序列模式的目标序列无法检测到。

由于基于正则表达式的搜索方式仅用单个序列模体来标识整个蛋白质家族的特征，因此
这一方法的可靠性受到相当大的限制。要想得到预期结果，必须找出序列比对结果中最
保守的区域。对于判别酶的活性位点这样由单一保守区域推断序列特性的问题，这种方
法似乎可行。而许多蛋白质家族的序列中存在许多保守区域，仅仅由一个序列模式确定
其特性，往往不能得到预期结果。通常我们使用多序列比对结果构建正则表达式序列模
体，这些序列比对的结果基于目前已有的一次数据库。随着数据量的增长，新序列不断
加入数据库，多序列比对结果可能发生变化。这样，许多用作序列模体的正则表达式就
会发生很大改变，乃至这个序列模体的保守性不复存在。利用原有的正则表达式识别序
列特性，所得结果就会因越来越差。此时，必须根据一次数据库的增长和改变，对原有
正则表达式进行修正乃至彻底改变。

简则

当一个特定蛋白质家族可以被一个高度保守的序列模体标识时，正则表达式的使用就显
示其很大的优越性。这种序列模体的长度通常在10-20个氨基酸残基。在这种情况下，利
用正则表达式可以很好地识别一些在蛋白质结构或功能上起关键作用的核心序列片段。
但是，序列比对结果也经常会给出一些几个残基的短小序列片段，它们既不能用来标识
一个特征片段，也不属于某个特定的蛋白质家族。

一般认为，这些仅有几个残基的短小序列片段是蛋白质趋同进化的结果，它们具有许多
蛋白质分子都必须具备的一般特性，例如糖基结合位点、磷酸化位点、羟基化位点等。
这些短小的序列模体，可能只有3-4个氨基酸残基（表），很难用作识别蛋白质家族
的标志。因为序列模体越短，随机匹配概率越大。举个有趣的例子，英语中Dave是David
的别名。在OWL蛋白质数据库29.6版本中，有71个序列包含5个残基的序列片段DAVID，却
有1088个序列包含4个残基的序列片段DAVE。仅差1个残基，其出现次数相差如此之大。
可见，序列模体越短，特异性就越差。因此，试图利用这类短小的序列片段进行蛋白质
家族识别是不可靠的。如果没有其它信息补充，仅仅找出3-4个残基的匹配，是不能说明
任何问题的。事实上，这些短小的序列模体只能用来推测某个序列是否存在特定的功能
位点，而这种推测必须通过实验证实。我们把这些短小的序列模体用一个新名词“简则
”（rules）表示，以别于能够用来标识蛋白质家族的正则表达式。

表利用正则表达式简则描述蛋白质分子中常见功能位点

功能位点
简则

N-糖基化位点
N-{P}-[SP]-{P}

蛋白激酶C磷酸化位点
[ST]-x-[RK]

酪氨酸激酶II磷酸化位点
[ST]-x(2)-[DE]

天冬氨酸和天冬酰胺羟基化位点
C-x-[DN]-X(4)-[FY]-x-C-x-C

正则表达式是构成PROSITE数据库的基础。因此，上面提到的正则表达式在蛋白质家族识
别方面的问题，也会出现在PROSITE数据库中。好在PROSITE已经引进了其它可供选择的
识别方法，作为对正则表达式方法的补充。这就是本章稍后将要讨论的序列谱(profiles
)方法。

模糊匹配正则表达式

既然严格的正则表达式有许多难以克服的困难，可否利用一个变通的办法，即模糊匹配
，或称模糊正则表达式(Fuzzy regular expressions)。这就需要引入一个描述模糊匹配
范围的参数。第三章中曾经介绍过，可以把氨基酸根据生物化学性质分成不同的组，比
如F、Y、W都带有芳香族侧链，H、K、R都是碱性氨基酸，而I、L、V、M都是疏水氨基酸
等等。

利用氨基酸的生物化学性质，可以对表4.3中描述的序列模体进行矫正（表），即模
糊正则表达式。显然，这种模糊正则表达式比原始的正则表达式容易形成匹配。

表模糊匹配的正则表达式

参与比对的序列
允许模糊匹配的正则表达式

ADLGAVFALCDRYFQ

SDVGPRSCFCERFYQ

ADIGQPHSLCERYFQ

ADLGRTQNRCDRYYQ
[ASGPT]-D-[IVLM]-G-X5-C-[DENQ]-R-[FYW]2-Q

eMOTIF系统就是使用这种模糊正则表达式，并把它用作BLOCKS和PRINTS数据库多序列比
对时所用的种子序列。从上面的简例不难看出，这样的模式更加宽松，在特定的位点上
可以匹配更多的残基。这样就有能力识别进化距离较远的相关序列。当然，这种模糊正
则表达式没有解决短小序列片段随机匹配的问题。仍然以DAVID为例，在OWL数据库29.6
版中有71个完全匹配的序列（表）。如果我们引入一个模糊位点，如对最后的D放宽
限制，允许出现D、E、Q、N中的任意一个残基，就可以在同样的数据库中找到252个匹配
序列，如果引入2个模糊位点，将得到925个匹配序列，如果模糊位点达到3个，匹配序列
将达到2,739个，如果5个位点都允许模糊匹配，将得到51,506个匹配序列！很明显，序
列模体中每个位点允许模糊匹配的同类残基数越多，正则表达式的匹配就越宽松；而且
序列模体越短，情况就越糟糕，如PROSITE中常见的3-4个残基的序列片段。

表正则表达式中引入模糊匹配后对数据库搜索结果的影响

正则表达式
满足匹配的序列数

D-A-V-I-D
71

D-A-V-I-[DENQ]
252

[DENQ]-A-V-I-[DENQ]
925

[DENQ]-A-[VLI]-I-[DENQ]
2739

[DENQ]-[AG]-[VLI]2-[DENQ]
51506

D-A-V-E
1088

由于一个正则表达式只能有效表示一个序列中很少一部分信息，利用正则表达式进行二
次数据库搜索，检测序列的许多信息必然会被丢弃，有时甚至会得到错误结果。比对序
列之间差异越大，正则表达式的模糊性就越大，搜索结果出现随机匹配的可能性也越大
。因此，对正则表达式的搜索结果必须仔细加以分析，所得到的匹配序列不一定都有生
物学意义，而没有找到匹配的序列并不一定意味着不属于该序列模式所代表的蛋白质家
族。前面已经提到，有时可能只有一个残基的差别。总而言之，与正则表达式匹配的不
一定是同一家族，而与正则表达式不匹配的却有可能是同一家族。为了改善正则表达式
在识别蛋白质家族方面的能力，人们开发了许多更加复杂的方法，以便更好地从浩如烟
海的一次数据库中寻找真正有生物学意义的匹配序列。

蛋白质序列指纹图谱

在多序列比对过程中，经常出现具有一定特征的多个序列模体属于同一蛋白质家族的情
况。显然，用多个模体同时识别某个蛋白质家族，其灵敏度必然有所提高。蛋白质序列
指纹图谱(Fingerprints)方法就是基于一个序列中的多个乃至全部序列模体，并由此而
构建一组描述某个蛋白质家族特征的序列模体。这样，在搜索数据库时，通过未知序列
与指纹图谱各部分的匹配程度，就可能找出进化距离较远的同源序列。指纹图谱技术利
用其它方法而不是简单的正则表达式判断是否发生匹配。其中一种方法是从多序列比对
结果中截取所有保守的序列模体，然后把这些序列模体包含的信息转换成一个分数矩阵
，矩阵中的值代表每个氨基酸在模体中某个位点出现的次数。这种打分系统是不带权重
的，没有利用突变数据矩阵或模块替换矩阵等附加分值增加识别能力。

这种只计氨基酸出现次数的矩阵有一定的局限性，因而并不常用，显然，用较少序列构
建的序列模体识别关系较远的同源序列，其结果可能不很理想，因为矩阵的有效元素不
够，而且缺乏足够的代表性。尽管如此，这种矩阵在序列指纹图谱技术中仍然发挥了很
大作用，PRINTS数据库就是基于序列指纹图谱技术构建的。

前面已经提到，创建指纹图谱过程中，识别能力会随着迭代扫描数据库的次数增加而增
强。随着更多的序列进入匹配范围，矩阵中所包含的信息量也会随之增加，序列模体的
数目也会越来越多，而且越来越完善。换言之，随着新的蛋白质家族成员不断加入，迭
代次数不断增加，保守区域不断发生变化，矩阵中各种氨基酸出现的频度越来越高。

以上提到的序列指纹图谱矩阵均不带权重，下面介绍怎样给氨基酸残基赋权重值。例如
，用PAM分数矩阵给任意两个氨基酸残基之间的匹配赋予某个分值。这样构建的权重矩阵
识别能力更高，可以检测出远源相关的序列。用PAM矩阵加权后，原有稀疏矩阵中非0元
素大量增加，上述权重矩阵用于数据库搜索，噪音水平会有所增加，而特异性降低，进
化距离较远的相关序列因此而得到较高的分值，但也不可避免地引入随机匹配。一个在
未经加权的序列指纹图谱中不可能出现的残基在权重矩阵中可能具有较高的分值。

因为权重矩阵的信噪比较差，序列指纹图谱方法倾向于使用不带权重的矩阵，而直接使
用氨基酸频度矩阵。反复迭代过程可以提高频度矩阵的识别能力，但序列指纹图谱方法
的关键是利用了整个序列中所有序列模体的信息。这一点非常重要，因为这些信息中不
仅包含了某个序列模体自身的信息，而且包含了它和该序列中其它序列模体的相关信息
，包括它们之间的位置关系，利用这种包括序列模体之间相关信息的矩阵，即使某个检
测序列中若干个相邻序列模体中的一个或几个不完全匹配，也可以通过其它序列模体和
它们之间的相关性得到识别。例如，一个序列中包含7个序列模体，利用上述方法只能识
别其中4个。如果这4个序列模体在该序列中的次序正确，相互之间的间隔与预期的相同
，那么可以认为这条序列满足匹配。

蛋白质序列模块

上面提到，组成蛋白质序列指纹图谱的各个序列模体不带权重，因为引入权重有时会影
响其识别能力。尽管如此，有时为了获得最佳信噪比，可以采用不同的加权方式表示不
同的序列模体。

这一方法被蛋白质序列模块数据库BLOCKS采用。例如，在构建BLOCK数据库时，某个保守
的序列模体或称序列模块由三个保守的氨基酸残基组成，这三个残基之间并不一定连续
，可以有一定间隔，如Ala-x-x-x-Val-x-x-Cys，其中x代表任意残基。序列模块的匹配
分值由BLOSUM62替换矩阵计算得到。用这种方法可以有效地找出蛋白质序列模块，并通
过其它序列模体识别算法验证这些序列模块是否正确，即找出一组具有最高分值的序列
模块，它们的排列顺序正确，且没有重叠。经过以上两种方法找到并验证过的序列模块
比较可靠，并收入BLOCKS数据库。

同蛋白质序列指纹图谱方法一样，对于一个给定的序列，与一个家族的序列模块匹配得
越好，而且匹配序列模块次序和距离正确，这一序列属于该家族的可能性就越大。但是
，和其它权重矩阵方法一样，灵敏度和特异性始终是一对矛盾，两者之间必须加以平衡
。此外，当出现如下情况时，很难简单地得出结论：前者为单一的高分匹配，后者为分
值不高的多重匹配。就序列模块方法而言，没有生物学意义的高分匹配和具有生物学意
义的低分匹配时有出现。因此，在分析序列模块数据库搜索结果时需要谨慎，高分匹配
并不一定等于正确结果。

序列谱

上面介绍的方法均基于模式识别，而序列谱（Profiles）方法则是利用多序列比对结果
的全部信息构造每一个位点的残基替代、插入、删除分数表。从序列谱可以看出，哪些
残基可以出现在某个特定位点，哪些位点是高度保守的，哪些是位点突变可能性较大，
哪些位点或区域可以插入空位，等等。显然，序列谱分数表相当复杂，它不仅包含了序
列比对的信息，还用到了进化和结构方面的研究结果。例如，对发生在二级结构内部的
插入或删除，序列谱方法给予额外的罚分处理。

序列谱内在的复杂性使其拥有非常强大的识别能力，对于PROSITE数据库中识别能力较低
的正则表达式，是一个很好的补充。在序列间进化距离很远时，模式识别方法变得无能
为力，而序列谱则是值得一试的方法。

隐马尔可夫模型

另一种利用全局信息的方法是用隐马尔可夫模型((Hidden Markov Models，简称HMM)从
序列比对中提取信息。HMM是描述大量相互联系状态之间发生转换概率的模型，本质上是
一条表示匹配、缺失或插入状态的链，用来检测序列比对结果中的保守区。序列比对结
果中的每一个保守残基可以用一个匹配状态来描述。同样，空位的插入可用插入状态描
述，残基缺失状态则表示允许在本该匹配的位置发生缺失。因此，为一个多序列比对的
结果构造隐马尔可夫链需要把所有的位置都用匹配、插入或者缺失这三种状态中的一种
表示

隐马尔可夫模型是Pfam数据库的基础。除了隐马尔可夫模型外，Pfam数据库还提供用来
产生隐马尔可夫模型的种子序列的比对结果，以及经过迭代的序列处理的最终比对结果
。这些序列比对的结果力图说明进化上的功能和结构保守区。然而，与人手工开发的作
为PROSITE数据库补充的序列谱不同，Pfam数据库主要是计算机程序自动完成的。因此，
经过反复迭代得到的序列可能出错，检测到的序列可能与目标序列并非相关。因此，最
终比对结果如不经过仔细分析，可能存在不少问题，其给出的结构和功能信息必须慎用
。

其它

以上我们已经分析了一些常用二次数据库的构建方法和它们的优缺点。此外，还有其它
一些二次数据库，有的相对较小，如SMART 结构域数据库（Schultz 等，1998），有的
功能相对有限，如通过PIMA软件自动生成的模式数据库（Smith 和 Smith，1992），另
外还有是通过DOMAINER程序自动创建的蛋白质结构域数据库ProDom（Sonnhammer 和
Kahn），等等。

在理解了各种二次数据库的构建方法和各自的优缺点后，我们更应该把生物学意义放在
第一位，才能对未知序列进行准确分析，搞清匹配结果究竟来自直系同源、旁系同源或
某个模块，千万不能对搜索结果不加分析地予以轻信。

--
Tomorrow is another day.

※ 来源:·北大未名站 bbs.pku.edu.cn·[FROM: 162.105.53.86]


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	78.125ms