國外
完成人類基因組序列完成圖
⑴ 從當前物理圖譜生成的克隆產(chǎn)生完成的序列,覆蓋基因組的常染色質(zhì)區(qū)域大于96%。大約1Gb的完成序列已經(jīng)實現(xiàn)。剩下的也已經(jīng)形成草圖,所有的克隆期望達到8~10倍的覆蓋率,大約2001年中期(99.99%的正確率),使用已經(jīng)建立的和日益自動化的協(xié)議。
⑵ 檢測另外的庫來關(guān)閉gaps。使用FISH技術(shù)或其他方法來分析沒有閉合的Gaps大小。22,21條染色體用這種方式。2003年已經(jīng)完成。
⑶ 開發(fā)新的技術(shù)來關(guān)閉難度較大的gaps,大約幾百個。
基因組序列工作框架圖(Working draft):通過對染色體位置明確的BAC連續(xù)克隆系4-5倍覆蓋率的測序(在BAC克隆水平的覆蓋率不應(yīng)低于3倍),獲得基因組90%以上的序列,其錯誤率應(yīng)低于1%。工作框架圖可用于基因組結(jié)構(gòu)的認識、基因的識別和解析、疾病基因的定位克隆,SNP的發(fā)現(xiàn)等。
草圖的作用
1、草圖,許多疾病相關(guān)的基因被識別
2、SNP(人與人之間的區(qū)別),草圖提供了一個理解遺傳基礎(chǔ)和人類特征進化的框架。
3、草圖后,研究人員有了新的工具來研究調(diào)節(jié)區(qū)和基因網(wǎng)絡(luò)。
4、比較其它基因組可以揭示共同的調(diào)控元件,和其他物種共享的基因的環(huán)境也許提供在個體水平之上的關(guān)于功能和調(diào)節(jié)的信息。
5、草圖同樣是研究基因組三維壓縮到細胞核中的一個起點。這樣的壓縮可能影響到基因調(diào)控
6、在應(yīng)用上,草圖信息可以開發(fā)新的技術(shù),如DNA芯片、蛋白質(zhì)芯片,作為傳統(tǒng)方法的補充,目前,這樣的芯片可以包含蛋白質(zhì)家族中所有的成員,從而在特定的疾病組織中可以找到那些是活躍的。 2001年2月12日,美國Celera公司與人類基因組計劃分別在《科學》和《自然》雜志上公布了人類基因組精細圖譜及其初步分析結(jié)果。其中,政府資助的人類基因組計劃采取基因圖策略,而Celera公司采取了“鳥槍策略”。至此,兩個不同的組織使用不同的方法都實現(xiàn)了他們共同的目標:完成對整個人類基因組的測序的工作;并且,兩者的結(jié)果驚人的相似。整個人類基因組測序工作的基本完成,為人類生命科學開辟了一個新紀元,它對生命本質(zhì)、人類進化、生物遺傳、個體差異、發(fā)病機制、疾病防治、新藥開發(fā)、健康長壽等領(lǐng)域,以及對整個生物學都具有深遠的影響和重大意義,標志著人類生命科學一個新時代的來臨。 眾多發(fā)現(xiàn)
1、分析得知:全部人類基因組約有2.91Gbp,約有39000多個基因;平均的基因大小有27kbp;其中G+C含量偏低,僅占38%,而2號染色體中G+C的含量最多;到目前仍有9%的堿基對序列未被確定,19號染色體是含基因最豐富的染色體,而13號染色體含基因量最少等等(具體信息可參見cmbi 特別報道:生命科學的重大進展)。 2、目前已經(jīng)發(fā)現(xiàn)和定位了26000多個功能基因,其中尚有42%的基因尚不知道功能,在已知基因中酶占10.28%,核酸酶占7.5%,信號傳導占12.2%,轉(zhuǎn)錄因子占6.0%,信號分子占1.2%,受體分子占5.3%,選擇性調(diào)節(jié)分子占3.2%,等。發(fā)現(xiàn)并了解這些功能基因的作用對于基因功能和新藥的篩選都具有重要的意義。 3、基因數(shù)量少得驚人:一些研究人員曾經(jīng)預(yù)測人類約有14萬個基因,但Celera公司將人類基因總數(shù)定在2.6383萬到3.9114萬個之間,不超過40,000,只是線蟲或果蠅基因數(shù)量的兩倍,人有而鼠沒有的基因只有300個。如此少的基因數(shù)目,而能產(chǎn)生如此復(fù)雜的功能,說明基因組的大小和基因的數(shù)量在生命進化上可能不具有特別重大的意義,也說明人類的基因較其他生物體更'有效',人類某些基因的功能和控制蛋白質(zhì)產(chǎn)生的能力與其他生物的不同。這將對我們目前的許多觀念產(chǎn)生重大的挑戰(zhàn),它為后基因組時代中生物醫(yī)學的發(fā)展提供新的非凡的機遇。但由于基因剪切,EST數(shù)據(jù)庫的重復(fù)以及一些技術(shù)和方法上的誤差,將來亦可能人類的基因數(shù)會多于4萬。 4、人類單核苷酸多態(tài)性的比例約為1/1250bp,不同人群僅有140萬個核苷酸差異,人與人之間99.99%的基因密碼是相同的。并且發(fā)現(xiàn),來自不同人種的人比來自同一人種的人在基因上更為相似。在整個基因組序列中,人與人之間的變異僅為萬分之一,從而說明人類不同“種屬”之間并沒有本質(zhì)上的區(qū)別。 5、人類基因組中存在“熱點”和大片"荒漠"。在染色體上有基因成簇密集分布的區(qū)域,也有大片的區(qū)域只有“無用DNA” ——不包含或含有極少基因的成分?;蚪M上大約有1/4的區(qū)域沒有基因的片段。在所有的DNA中,只有1%-1.5%DNA能編碼蛋白,在人類基因組中98%以上序列都是所謂的“無用DNA”,分布著300多萬個長片斷重復(fù)序列。這些重復(fù)的“無用”序列,決不是無用的,它一定蘊含著人類基因的新功能和奧秘,包含著人類演化和差異的信息。經(jīng)典分子生物學認為一個基因只能表達一種蛋白質(zhì),而人體中存在著非常復(fù)雜繁多的蛋白質(zhì),提示一個基因可以編碼多種蛋白質(zhì),蛋白質(zhì)比基因具有更為重要的意義
6、男性的基因突變率是女性的兩倍,而且大部分人類遺傳疾病是在Y染色體上進行的。所以,可能男性在人類的遺傳中起著更重要的作用。 7、人類基因組中大約有200多個基因是來自于插入人類祖先基因組的細菌基因。這種插入基因在無脊椎動物是很罕見的,說明是在人類進化晚期才插入我們基因組的??赡苁窃谖覀?nèi)祟惖拿庖叻烙到y(tǒng)建立起來前,寄生于機體中的細菌在共生過程中發(fā)生了與人類基因組的基因交換。 8、發(fā)現(xiàn)了大約一百四十萬個單核苷酸多態(tài)性,并進行了精確的定位,初步確定了30多種致病基因。隨著進一步分析,我們不僅可以確定遺傳病、腫瘤、心血管病、糖尿病等危害人類生命健康最嚴重疾病的致病基因,尋找出個體化的防治藥物和方法,同時對進一步了解人類的進化產(chǎn)生重大的作用。 9、人類基因組編碼的全套蛋白質(zhì)(蛋白質(zhì)組)比無脊椎動物編碼的蛋白質(zhì)組更復(fù)雜。人類和其他脊椎動物重排了已有蛋白質(zhì)的結(jié)構(gòu)域,形成了新的結(jié)構(gòu)。也就是說人類的進化和特征不僅靠產(chǎn)生全新的蛋白質(zhì),更重要的是要靠重排和擴展已有的蛋白質(zhì),以實現(xiàn)蛋白質(zhì)種類和功能的多樣性。有人推測一個基因平均可以編碼2-10種蛋白質(zhì),以適應(yīng)人類復(fù)雜的功能。
目前基因組學的研究出現(xiàn)了幾個重心的轉(zhuǎn)移:一是將已知基因的序列與功能聯(lián)系在一起的功能基因組學研究;二是從作圖為基礎(chǔ)的基因分離轉(zhuǎn)向以序列為基礎(chǔ)的基因分離;三是從研究疾病的起因轉(zhuǎn)向探索發(fā)病機理;四是從疾病診斷轉(zhuǎn)向疾病易感性研究。
在后基因組時代,如果在已完成基因組測序的物種之間進行整體的比較、分析,希望在整個基因組的規(guī)模上了解基因組和蛋白質(zhì)組的功能意義,包括基因組的表達與調(diào)控、基因組的多樣化和進化規(guī)律以及基因及其產(chǎn)物在生物體生長、發(fā)育、分化、行為、老化和治病過程中的作用機制都必須發(fā)展新的算法以充分利用超級計算機的超級計算能力。
美國和英國科學家2006年5月18日在英國《自然》雜志網(wǎng)絡(luò)版上發(fā)表了人類最后一個染色體——1號染色體的基因測序。
在人體全部22對常染色體中,1號染色體包含基因數(shù)量最多,達3141個,是平均水平的兩倍,共有超過2.23億個堿基對,破譯難度也最大。一個由150名英國和美國科學家組成的團隊歷時10年,才完成了1號染色體的測序工作。
科學家不止一次宣布人類基因組計劃完工,但推出的均不是全本,這一次殺青的“生命之書”更為精確,覆蓋了人類基因組的99.99%。解讀人體基因密碼的“生命之書”宣告完成,歷時16年的人類基因組計劃書寫完了最后一個章節(jié)。