计算机科学论坛--二次数据库搜索实例

二次数据库搜索实例

发信人: palomino (~快马加鞭~), 信区: Bioinformatics
标题: 二次数据库搜索实例
发信站: 北大未名站 (2002年03月31日04:21:41 星期天), 转信

PROSITE数据库搜索

PROSITE数据库基于一般的正则表达式，可以访问http://www.expasy.ch/tools/scanpro
site/来进行该数据库的搜索，该页面上有两个主要的链接，Scan SWISS-PROT and
TrEMBL with a pattern链接可以使用正则表达式来搜索满足该正则表达式的序列。Scan
a sequence for the occurrence of PROSITE patterns链接可以由蛋白质序列在PROSI
TE数据库中进行相似性搜索来预测该蛋白质的所属家族。点击链接Scan a sequence
for the occurrence of PROSITE patterns进入搜索页面。在提交框中输入蛋白质的代
号TRFE_XENLA，当然也可以给出蛋白质的序列进行搜索，同时勾选Exclude patterns
with a high probability of occurrence 复选框以排除高重复片段的影响，然后点击
提交按钮。结果是文本形式给出[http://www.cbi.pku.edu.cn/chinese/documents/bioi
nfor/overview/web4/link1.4.2.3.1.html].
我们可以看到匹配TRANSFERRIN（转铁蛋白）的三个片段，也给出了起止位置，但由于PR
OSITE数据库基于的只是正则表达式，故对于亲缘关系较远的蛋白质匹配搜索不是很准，
PROSITE的搜索结果只能作为参考。

PRINTS数据库搜索

PRINTS数据库基于了蛋白质指纹技术的数据库。蛋白质序列指纹图谱基于多序列比对的
结果，它由比对结果得到一系列相当保守的序列模体构建而成，用来表示蛋白质家族特
征。多序列比对结果经常会给出保守的特征序列片段。这些特征序列片段对维持蛋白质
的结构和功能是相当重要的。比如，它们可能包含酶活性位点的关键残基，或者构成对
维持蛋白质正常结构和折叠方式至关重要的α-螺旋。以视紫红质GPCR为例，它是一种由
7个保守的跨膜α-螺旋组成的受体蛋白。多序列比对结果显示这7个连续的跨膜保守区域
足以作为这类视紫红质受体的特征序列。因此，可以根据这7个区域构建指纹图谱。已知
OPSD-SHEEP是属于这类视紫红质受体蛋白家族，我们可以在PRINTS数据库中查寻关于OPS
D-SHEEP的信息。可以访问http://www.bioinf.man.ac.uk/dbbrowser/bioactivity/prot
ein2frm.html，在检测窗体中输入代码OPSD-SHEEP，能得到如图的结果[http://www.cbi
.pku.edu.cn/chinese/documents/bioinfor/overview/web4/link1.4.2.3.2-1.html]。
结果最上面给出了前十个最佳匹配，接着给出了这十个匹配的具体的模体信息。点
击GPCRRHODOPSN (relations)的GRAPHIC的链接，可以看到图形显示[http://www.cbi.pk
u.edu.cn/chinese/documents/bioinfor/overview/web4/link1.4.2.3.2-2.html]，图中
的x轴表示待检测的序列，y轴表示组成指纹图谱的序列模体。从图中可以看出
每个序列模体与该序列匹配的情况和发生匹配的位置。对每个序列模体，用一个与其长度
相等的窗口在检测序列上滑动，用PRINTS数据库中该序列模体的分数矩阵对每个窗口的
匹配情况进行打分，当一个窗口的分值超过一定阈值时，用一个方框标记这个位置。对
类视紫红质受体蛋白，我们认为一个合格的序列应该从N端到C端连续匹配所有七个跨膜
区。OPSD-SHEEP共显示了7个模体，可见显然符合这一要求。

对于变异较大的蛋白质，指纹图谱仍然有较大的优势，它可以给出能匹配的模体。例如Y
MJC-CAEEL这种蛋白质，指纹图谱给出了与GPCRRHODOPSN (relations)有四个模体匹配[
http://www.cbi.pku.edu.cn/chinese/documents/bioinfor/overview/web4/link1.4.2.
3.2-3.html]。我们可以考虑YMJC--AEEL仍具有GPCRRHODOPSN家族的特征。无论匹
配全部7个序列模体还是只匹配其中的一部分，这种类型的指纹图谱可以方便快捷而且直
观的展示查询序列与序列模体之间的匹配情况。这使得蛋白质指纹图谱技术成为识别蛋
白质家族的有力工具。

BLOCKS数据库搜索

BLOCKS数据库基于蛋白质序列模块的数据库，我们可以访问http://www.blocks.fhcrc.o
rg/blocks/。我们可以首先看看BLOCKS数据库的蛋白质序列模块。点击Get Blocks by
key word链接，在查寻窗体输入TRANSFERRIN，可以看到TRANSFERRIN关键词下有三类，
点击IPB001156查看这类蛋白质序列模块的信息[http://www.cbi.pku.edu.cn/chinese/d
ocuments/bioinfor/overview/web4/link1.4.2.3.3-1.html]。
IPB001156共有9类序列模块，对于IPB001156A这个典型的序列模块，在这个条目中，头
几行标记ID，AC，和DE，分别给出了这个块代表的家族的缩写、BLOCKS数据库注册码和
家族的详细描述；BL行给出了关于组建这个特别的块的原始序列模体的信息：参数windt
h和seqs分别表示block的宽度（用残基计算）和这个块中有多少序列数目；接下来是统
计学有效性和构成长度的信息；最后是序列列表，只显示出对应于这个特殊模体的序列
部分，每一行的开头都是这个序列的SWISS-PROT注册码，第一个残基在整个序列中的位
置，然后是序列本身以及基于位点的序列权重。这个权重用100刻度，100表示序列距离
这个群体最远。注意，有些序列行中有空行；部分比对被聚集在一起，在每个聚集中，8
0%的序列残基是相同的。

我们选择Select display format: [GIF] [PDF] [Postscript]链接中的GIF格式显示模
体，[http://www.cbi.pku.edu.cn/chinese/documents/bioinfor/overview/web4/link1
.4.2.3.3-2.gif]可以看到用图形方式显示多序列比对信息，它用高低不同的彩
色字母表示一个序列片段。彩色字母的高低表示该氨基酸残基在某一位置出现的频率，也
就是该残基在这一位置出现的保守性。例如，某个位置只允许一个残基出现，说明该位
置上某种残基的保守性强，图形中该字母就比较高；相反，若某个位置允许几个不同残
基出现，则说明该位置的保守性低，图形中用几个堆叠在一起的字母表示，其高度也比
单个字母低。

在序列图标中，出现频率最多的残基不仅高度比其它残基高，而且也在堆栈中占据了较
高的位置，因此在每个位置上部最突出的残基可预测为最有可能在此位置出现的残基。
针对在一个模块中由于序列冗余而造成残基频率强烈偏移的问题，应使用位置特异性分
数矩阵（Position-specific scoring matrix，简称PSSM）计算。这样可以减少重复出
现的序列在堆栈中占优势的趋势，从而增加稀有氨基酸的出现频率。例如，在一个模块
中有某一位置中曾出现六个亮氨酸和两个甲硫氨酸，序列分子量图标仍然会把甲硫氨酸
放在亮氨酸之上，因为亮氨酸在这里可能是由序列重复导致的过量出现。

当然对于一个未知的序列我们可以通过BLOCKS数据库搜索相似的蛋白质模体。打开链接
：http://www.blocks.fhcrc.org/blocks/。点击Block Searcher to search a
sequence vs Blocks进入Blocks搜索页面，在提交窗体中输入要搜寻的序列，例如>Tran
sferrinQuery

M D F S L R V A L C L S M L A L C L A I Q K E K Q V R W C V K S N S E L K K
C K D L V D T C K N K E I K L S C V E K S N T D E C S T A I Q E D H A D A I
C V D G G D V Y K G S L Q P Y N L K P I M A E N Y G S H T E T D T C Y Y A V
A V V K K S S K F T F D E L K D K K S C H T G I G K T A G W N I I I G L L L
E R K L L K W A G P D S E T W R N A V S K F F K A S C V 。

点击搜索按钮，可以得到搜索结果[http://www.cbi.pku.edu.cn/chinese/documents/bi
oinfor/overview/web4/link1.4.2.3.3-3.html]，我们可以看到该序列匹配了IPB
001156 Transferrin家族9个模体中的3个，从E值为5e-48看出随机匹配的概率很低。接下
是更具体的模体信息，可以看到匹配的序列片段。

PROFILE数据库搜索

PROFILE数据库是基于序列谱的数据库，序列谱的概念前面已经讲过，我们可以访问http
://www.isrec.isb-sib.ch/software/PFSCAN_form.html进行PROFILE数据库的搜索。在D
atabase栏中勾选Prosite profiles (NScore)复选框，然后在Query sequence (see
here for valid formats)下拉菜单中选择：Swiss-Prot ID or AC，其它的选项按默认
不用选择。在提交窗体中输入SLIT_DROME （Swiss-Prot ID），然后点击提交按钮。我
们看到搜索的结果[http://www.cbi.pku.edu.cn/chinese/documents/bioinfor/overvie
w/web4/link1.4.2.3.4-1.html]：
我们可以看到显著匹配的序列被打以“！”号，输出里含有值得注意的分值，这个前期
加工的分值（Raw score）例如：CTCK_2 C-terminal cystine knot profile 的raw:157
8 pos.就是真正由搜索时使用的打分矩阵计算出来的，更信息化的数字是normalized值
，即N值，N值通常给出了用户在一个已知大小的数据库中可以寻找到的可能的匹配的数
目。基本上，N值越大，偶然发生的命中几率就越小。举例来说，CTCK_2 C-terminal
cystine knot profile 的N值为14.12875，当标准是SWISS-PROT，则偶然发生的命中的
几率可由公式算出，可以点击链接Nscore查看。数字“from”和“to”只是显示出查寻
序列和匹配的头文件重叠的位点。在搜索结果的最下面还可以选择JAVA APPLET显示图形
以及模体的更多的信息。

点击CTCK_2 C-terminal cystine knot profile链接，可以看到CTCK_2 C-terminal
cystine knot profile序列谱的实例[http://www.cbi.pku.edu.cn/chinese/documents/
bioinfor/overview/web4/link1.4.2.3.4-2.html]。其中I和M域分别表示在某个位点发
生插入和匹配时的分值。其规则如下：
/I：[ SY=char1; parameters; ]

/M: [ SY=char2; parameters; ]

其中：

Char1代表在原始序列比对中发生插入的位点；

Char2代表在原始序列比对中发生匹配的位点；

Parameters 是一个分数列表，给不同的位点赋与分值，包括起始分值、终止分值、状态
转换分值、插入/删除/匹配延伸分值等。其详细过程可以参看改数据库提供的帮助。（
可以查看http://www.isrec.isb-sib.ch/profile/profile.html网页参看帮助文件，其
中有对Profile的结果的格式的详细描述）。上面给的事例中详细描述了每个位点某个残
基插入或替换时的分值。保守区的罚分规则在DEFAULT参数栏中定义。与保守区域相比，
可变区对于残基的替换、插入和删除的罚分较低。实际上该事例中的可变区比较多，保
守区域内尽管不完全排除插入和删除的可能，但它们一旦出现，将被处以很重的罚分。
一般对于/I标记的可变区，MI，I，MD的值小于DEFAULT定义的罚分值，而对于/M标记的
保守区MI, I, MD, D的值大于DEFAULT的值。

序列谱内在的复杂性使其拥有非常强大的识别能力，对于PROSITE数据库中识别能力较低
的正则表达式，是一个很好的补充。在序列间进化距离很远时，模式识别方法变得无能
为力，而序列谱则是值得一试的方法。

Pfam数据库搜索

Pfam数据库基于隐马尔可夫模型，我们可以输入URL地址：http://www.sanger.ac.uk/So
ftware/Pfam/来访问该数据库，在该网页中可以选择蛋白质（PROTEIN SEARCH）及DNA（
DNA SEARCH）序列搜索，关键词搜索（KEYWORD SEARCH），也可以选择查看Pfam数据库
的多序列比对信息（BROWSE PFAM），以及分类搜索（TAXONOMY SEARCH），还可以看到
关于Pfam的帮助信息（More information and help on Pfam）。

点击PROTEIN SEARCH链接进入蛋白质搜索页面，然后在提交框中填入要搜索的目标序列
，例如在最上面的提交框中填入SWISS-PROT ID ：TRFE_XENLA 其它按默认不变，然后按
提交按钮，搜索的结果按图形方式给出[http://www.cbi.pku.edu.cn/chinese/document
s/bioinfor/overview/web4/link1.4.2.3.5.html]。
我们可以看到TRFE_XENLA是一种serotransferrin precursor（转铁蛋白前体），Pfam数
据库给出了一个图形来显示TRFE_XENLA的结构域，黄色带黑圈的块表示是信号肽，大的
单色的块表示Pfam搜索得到的具有统计学显著意义的结构域（PfamAQ区），low
complexity区（富含AT和GC区）使用青色带黑圈的块表示。因为出现了预测重叠Overlap
，可以在Domain Order一栏改变预测结构的前后顺序，从而改变图形的位置。

搜索结果最后还给出了文字的结果，例如Pfam Domains的预测为含两个转铁蛋白家族的
结构域（分别从26-341，354-686），以及可能的其它区域（Other Regions）包括前端
可能为信号肽，也可能含有low complexity区。点击链接可以进入进一步的详细信息，
例如蛋白质家族多序列比对的原始信息相关文献等等。

--
我们可以把自己的一生，看作这样一个旅途：
不论成功与否，我们注定要死亡，所以必然不可能有欣喜的结束；
但也正因为死亡己无可避免，使成功变得更为重要；
而当生命无法倒退时，唯一的选择，就是向前进。

※ 来源:·北大未名站 bbs.pku.edu.cn·[FROM: 162.105.53.86]


	W 3 C h i n a ( since 2003 ) 旗下站点苏ICP备05006046号《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》	70.313ms