多序列比對

雙序列比對是序列分析的基礎(chǔ)。然而,對于構(gòu)成基因家族的成組的序列來說,我們要建立多個(gè)序列之間的關(guān)系,這樣才能揭示整個(gè)基因家族的特征.

多序列比對

在闡明一組相關(guān)序列的重要生物學(xué)模式方面起著相當(dāng)重要的作用.

多序列比對

有時(shí)用來區(qū)分一組序列之間的差異,但其主要用于描述一組序列之間的相似性關(guān)系,以便對一個(gè)基因家族的特征有一個(gè)簡明扼要的了解。與雙序列比對一樣,

多序列比對

的方法建立在某個(gè)數(shù)學(xué)或生物學(xué)模型之上.

因此,正如我們不能對雙序列比對的結(jié)果得出"正確或錯(cuò)誤"的簡單結(jié)論一樣,

多序列比對

的結(jié)果也沒有絕對正確和絕對錯(cuò)誤之分,而只能認(rèn)為所使用的模型在多大程度上反映了序列之間的相似性關(guān)系以及它們的生物學(xué)特征.

分類

目前,構(gòu)建

多序列比對

模型的方法大體可以分為兩大類.

第一類

基于氨基酸殘基的相似性,如物化性質(zhì),殘基之間的可突變性等.

第二類

主要利用蛋白質(zhì)分子的二級結(jié)構(gòu)和三級結(jié)構(gòu)信息,也就是說根據(jù)序列的高級結(jié)構(gòu)特征確定比對結(jié)果.

差別

兩種方法所得結(jié)果可能有很大差別。一般說來,很難斷定哪種方法所得結(jié)果一定正確,應(yīng)該說,它們從不同角度反映蛋白質(zhì)序列中所包含的生物學(xué)信息.

基于序列信息和基于結(jié)構(gòu)信息的比對都是非常重要的比對模型,但它們都有不可避免的局限性,因?yàn)檫@兩種方法都不能完全反映蛋白質(zhì)分子所攜帶的全部信息.

蛋白質(zhì)序列是經(jīng)過DNA序列轉(zhuǎn)錄翻譯得到的。從信息論的角度看,它應(yīng)該與DNA分子所攜帶的信息更為"接近".而蛋白質(zhì)結(jié)構(gòu)除了序列本身帶來的信息外,還包括經(jīng)過翻譯后加工修飾所增加的結(jié)構(gòu)信息,包括殘基的修飾,分子間的相互作用等,最終形成穩(wěn)定的天然蛋白質(zhì)結(jié)構(gòu)。因此,這也是對完全基于序列數(shù)據(jù)比對方法批評的主要原因.

多序列比對的步驟

多序列比對一般通過3個(gè)步驟完成:

(1)兩兩進(jìn)行雙重比對。

(2)生成一系統(tǒng)樹圖(dendrogram),將序列按相似性大致地分組。

(3)使用系統(tǒng)樹圖作為引導(dǎo),產(chǎn)生出最終的多序列比對結(jié)果。