第二代DNA測(cè)序技術(shù)又稱下一代測(cè)序技術(shù),是對(duì)第一代測(cè)序技術(shù)的劃時(shí)代變革的核心。現(xiàn)有的技術(shù)平臺(tái)主要包括Roche/454 GS FLX、Illumina/Sol-exa GenomeAnalyzer、Helicos BioSciences公司的HeliScope? Single Molecule Sequencer、美國Dana-her Motion公司推出的Polonator;以及連接法測(cè)序 (sequencing by ligation),即通過引物來定位核酸信息,技術(shù)平臺(tái)有Applied Biosystems/SOLiD? system。

中文名

第二代DNA測(cè)序技術(shù)

外文名

Next-generation sequencing

技術(shù)平臺(tái)

Roche/454 GS FLX、

基本介紹

1.概述

DNA測(cè)序(DNA sequencing)作為一種重要的實(shí)驗(yàn)技術(shù),在生物學(xué)研究中有著廣泛的應(yīng)用。早在DNA雙螺旋結(jié)構(gòu)(Watson and Crick,1953)被發(fā)現(xiàn)后不久就有人報(bào)道過DNA測(cè)序技術(shù),但是當(dāng)時(shí)的操作流程復(fù)雜,沒能形成規(guī)模。隨后在1977年Sanger發(fā)明了具有里程碑意義的末端終止測(cè)序法,同年A.M.Maxam和W.Gilbert發(fā)明了化學(xué)降解法。Sanger法因?yàn)榧群啽阌挚焖?,并?jīng)過后續(xù)的不斷改良,成為了迄今為止DNA測(cè)序的主流。然而隨著科學(xué)的發(fā)展,傳統(tǒng)的Sanger測(cè)序已經(jīng)不能完全滿足研究的需要,對(duì)模式生物進(jìn)行基因組重測(cè)序以及對(duì)一些非模式生物的基因組測(cè)序,都需要費(fèi)用更低、通量更高、速度更快的測(cè)序技術(shù),第二代測(cè)序技術(shù)(Next-generation sequencing)應(yīng)運(yùn)而生。第二代測(cè)序技術(shù)的核心思想是邊合成邊測(cè)序[1](Sequencing by Synthesis),即通過捕捉新合成的末端的標(biāo)記來確定DNA的序列,現(xiàn)有的技術(shù)平臺(tái)主要包括Roche/454 FLX、Illumina/Solexa genome Analyzer和Applied Biosystems SOLID system。這三個(gè)技術(shù)平臺(tái)各有優(yōu)點(diǎn),454 FLX的測(cè)序片段比較長,高質(zhì)量的讀長(read)能達(dá)到400bp;Solexa測(cè)序性價(jià)比最高,不僅機(jī)器的售價(jià)比其他兩種低,而且運(yùn)行成本也低,在數(shù)據(jù)量相同的情況下,成本只有454測(cè)序的1/10;SOLID測(cè)序的準(zhǔn)確度高,原始?jí)A基數(shù)據(jù)的準(zhǔn)確度大于99.94%,而在15X覆蓋率時(shí)的準(zhǔn)確度可以達(dá)到99.999%,是目前第二代測(cè)序技術(shù)中準(zhǔn)確度最高的。雖然第二代測(cè)序技術(shù)的工作一般都由專業(yè)的商業(yè)公司來完成,但是了解測(cè)序原理、操作流程等會(huì)對(duì)后續(xù)的數(shù)據(jù)分析有很重要的作用,下文將以Illumina/Solexa Genome Analyzer 測(cè)序?yàn)槔?,簡述第二代測(cè)序技術(shù)的基本原理、操作流程等方面。

2.基本原理

Illumina/Solexa Genome Analyzer測(cè)序的基本原理是邊合成邊測(cè)序。在Sanger等測(cè)序方法的基礎(chǔ)上,通過技術(shù)創(chuàng)新,用不同顏色的熒光標(biāo)記四種不同的dNTP,當(dāng)DNA聚合酶合成互補(bǔ)鏈時(shí),每添加一種dNTP就會(huì)釋放出不同的熒光,根據(jù)捕捉的熒光信號(hào)并經(jīng)過特定的計(jì)算機(jī)軟件處理,從而獲得待測(cè)DNA的序列信息。

3.操作流程

1)測(cè)序文庫的構(gòu)建(Library Construction)

首先準(zhǔn)備基因組DNA(雖然測(cè)序公司要求樣品量要達(dá)到200ng,但是Gnome Analyzer系統(tǒng)所需的樣品量可低至100ng,能應(yīng)用在很多樣品有限的實(shí)驗(yàn)中),然后將DNA隨機(jī)片段化成幾百堿基或更短的小片段,并在兩頭加上特定的接頭(Adaptor)。如果是轉(zhuǎn)錄組測(cè)序,則文庫的構(gòu)建要相對(duì)麻煩些,RNA片段化之后需反轉(zhuǎn)成cDNA,然后加上接頭,或者先將RNA反轉(zhuǎn)成cDNA,然后再片段化并加上接頭。片段的大?。↖nsert size)對(duì)于后面的數(shù)據(jù)分析有影響,可根據(jù)需要來選擇。對(duì)于基因組測(cè)序來說,通常會(huì)選擇幾種不同的insert size,以便在組裝(Assembly)的時(shí)候獲得更多的信息。

2)錨定橋接(Surface Attachment and Bridge Amplification)

Solexa測(cè)序的反應(yīng)在叫做flow cell的玻璃管中進(jìn)行,flow cell又被細(xì)分成8個(gè)Lane,每個(gè)Lane的內(nèi)表面有無數(shù)的被固定的單鏈接頭。上述步驟得到的帶接頭的DNA 片段變性成單鏈后與測(cè)序通道上的接頭引物結(jié)合形成橋狀結(jié)構(gòu),以供后續(xù)的預(yù)擴(kuò)增使用。

3)預(yù)擴(kuò)增(Denaturation and Complete Amplification)

添加未標(biāo)記的dNTP 和普通Taq 酶進(jìn)行固相橋式PCR 擴(kuò)增,單鏈橋型待測(cè)片段被擴(kuò)增成為雙鏈橋型片段。通過變性,釋放出互補(bǔ)的單鏈,錨定到附近的固相表面。通過不斷循環(huán),將會(huì)在Flow cell 的固相表面上獲得上百萬條成簇分布的雙鏈待測(cè)片段。

4)單堿基延伸測(cè)序(Single Base Extension and Sequencing)

在測(cè)序的flow cell中加入四種熒光標(biāo)記的dNTP 、DNA 聚合酶以及接頭引物進(jìn)行擴(kuò)增,在每一個(gè)測(cè)序簇延伸互補(bǔ)鏈時(shí),每加入一個(gè)被熒光標(biāo)記的dNTP就能釋放出相對(duì)應(yīng)的熒光,測(cè)序儀通過捕獲熒光信號(hào),并通過計(jì)算機(jī)軟件將光信號(hào)轉(zhuǎn)化為測(cè)序峰,從而獲得待測(cè)片段的序列信息。從熒光信號(hào)獲取待測(cè)片段的序列信息的過程叫做Base Calling,Illumina公司Base Calling所用的軟件是Illumina’s Genome Analyzer Sequencing Control Software and Pipeline Analysis Software。讀長會(huì)受到多個(gè)引起信號(hào)衰減的因素所影響,如熒光標(biāo)記的不完全切割。隨著讀長的增加,錯(cuò)誤率也會(huì)隨之上升。

5)數(shù)據(jù)分析(Data Analyzing)

這一步嚴(yán)格來講不能算作測(cè)序操作流程的一部分,但是只有通過這一步前面的工作才顯得有意義。測(cè)序得到的原始數(shù)據(jù)是長度只有幾十個(gè)堿基的序列,要通過生物信息學(xué)工具將這些短的序列組裝成長的Contigs甚至是整個(gè)基因組的框架,或者把這些序列比對(duì)到已有的基因組或者相近物種基因組序列上,并進(jìn)一步分析得到有生物學(xué)意義的結(jié)果。