特異的SV是與疾病的易感性相關(guān)的,SV的區(qū)域通常包含疾病相關(guān)重要基因。許多癌癥基因組有著顯著的遺傳變異,并且特異的SV被認(rèn)為能夠通過(guò)破壞基因結(jié)構(gòu),調(diào)節(jié)基因表達(dá),創(chuàng)造融合事件或者產(chǎn)生基因拷貝數(shù)來(lái)促進(jìn)腫瘤發(fā)展。不知道SV是什么的請(qǐng)到最下面看科普。
據(jù)統(tǒng)計(jì),基因組結(jié)構(gòu)變異可能導(dǎo)致的遺傳性疾病已經(jīng)超過(guò)1,000種,對(duì)于每個(gè)人來(lái)講其基因組都有至少20,000個(gè)的結(jié)構(gòu)變異,這些變異帶來(lái)的影響或許比SNV或InDel還要大。然而,盡管SV的普遍存在且與癌癥特殊關(guān)聯(lián),但是許多SV分類的分子組織及產(chǎn)生機(jī)制還不明確。這在很大程度上是由于當(dāng)前技術(shù)(就是二代測(cè)序)無(wú)法發(fā)現(xiàn)具有高特異性的全譜SV。
據(jù)報(bào)道,短read方法缺乏敏感性,只有10%-70%的SV可以被檢出,卻有高達(dá)89%的錯(cuò)誤發(fā)現(xiàn)率,且不能鑒定復(fù)雜嵌套SV帶來(lái)的影響。
三代測(cè)序因其讀長(zhǎng)長(zhǎng),能夠大幅提升SV的可靠性和分辨率。根據(jù)文章的結(jié)果和百邁客的實(shí)測(cè)數(shù)據(jù)總結(jié)起來(lái),用ONT測(cè)SV至少要15X。
具體原因是什么呢?且聽小編細(xì)細(xì)道來(lái)~~
Pacbio和ONT測(cè)序的長(zhǎng)read能夠大幅提升SV檢測(cè)的可靠性和分辨率。平均10kb或者更長(zhǎng)的read可以更準(zhǔn)確的比對(duì)到重復(fù)序列上,這些可能介導(dǎo)SV的形成。長(zhǎng)read更可能跨過(guò)SV斷點(diǎn)。當(dāng)然除了優(yōu)勢(shì),長(zhǎng)read也有新的挑戰(zhàn),Pacbio測(cè)序有10-15%的錯(cuò)誤率,Oxford Nanopore?測(cè)序有5-20%錯(cuò)誤率。因此急需一種新的SV檢測(cè)方法,Sedlazeck F J 等人開發(fā)了Sniffles軟件。
根據(jù)兩個(gè)人類數(shù)據(jù)集的錯(cuò)誤情況和read長(zhǎng)度,作者對(duì)兩條人的染色體模擬了50X?Pacbio?和ONT?read 。純粹的統(tǒng)計(jì)分析發(fā)現(xiàn),近10X覆蓋度的數(shù)據(jù)(平均長(zhǎng)度10kb)就足夠去推斷所有SV斷點(diǎn)(一瞬間覺得自己可以省好多錢有木有),然而對(duì)于100bp的短read雙端測(cè)序至少要25X覆蓋度。當(dāng)前這個(gè)統(tǒng)計(jì)只是一個(gè)理想情況,比如缺乏了重復(fù)和覆蓋度的偏移,因此是低估了所需的覆蓋度的。
理想很豐滿、現(xiàn)實(shí)很骨感!理想情況下用10x覆蓋度測(cè)三代read就能檢測(cè)出來(lái)所有的結(jié)構(gòu)變異,但是現(xiàn)實(shí)肯定不夠啦~ 作者對(duì)真實(shí)的Pacbio 55X數(shù)據(jù),和Nanopore 28X數(shù)據(jù)所檢測(cè)到的SV和低深度下所檢測(cè)的SV進(jìn)行比較。對(duì)于Pacbio數(shù)據(jù),15X的時(shí)候?qū)τ贜A12878和SKBR3樣品的SV能識(shí)別到69.64%和67.24%,如果提升到30X時(shí),可分別識(shí)別到80.05%和76.63%。SKBR3的識(shí)別率相對(duì)較低主要因?yàn)樗前┌Y樣品,有些極端的拷貝擴(kuò)增。所以癌癥樣品要想識(shí)別到更多更準(zhǔn)的SV,需要適當(dāng)提升測(cè)序深度。
對(duì)于Nanopore的數(shù)據(jù),在20X的覆蓋度時(shí)就能達(dá)到82.24%的準(zhǔn)確率和84.23%的識(shí)別率。不過(guò)這可能是因?yàn)镺NT數(shù)據(jù)只測(cè)了28X。
盡信書不如無(wú)書,小編本著對(duì)科研(領(lǐng)導(dǎo))的認(rèn)真態(tài)度(“逼迫”),對(duì)公司的一正常人的血液進(jìn)行Nanopore?DNA測(cè)序(測(cè)序深度為40X)識(shí)別SV,隨機(jī)抽取不同深度下的數(shù)據(jù)量5X,10X,15X,20X,30X使用相同的參數(shù)進(jìn)行SV識(shí)別,合并所有樣品的SV,對(duì)每個(gè)樣品進(jìn)行強(qiáng)制重新識(shí)別SV。以40X數(shù)據(jù)在支持read數(shù)大于10下所檢測(cè)出的SV為金標(biāo)準(zhǔn),判斷低深度下所能檢測(cè)出的SV情況,如下表:
注:Genotype列代表不同深度下識(shí)別出的和40X SV基因型相同的SV個(gè)數(shù),Genotype ratio為SV占40X SV的比例。?Genotype & depth 為與40X SV基因型相同且read支持?jǐn)?shù)大于10的SV個(gè)數(shù),Genotype & depth Ratio為基因型相同且read支持?jǐn)?shù)大于10的SV比例。
其實(shí)從結(jié)果上可以發(fā)現(xiàn)即使只用5X測(cè)序深度的數(shù)據(jù)也能夠識(shí)別出很高比例的SV,但是如果考慮到支持的read數(shù),所能識(shí)別出的SV比例就瞬間少了很多。其實(shí)也能理解啦,畢竟深度在那里呢~
所以,依小編愚見,15X數(shù)據(jù)的結(jié)果相對(duì)還是可以的,不過(guò)該測(cè)試數(shù)據(jù)是妥妥的正常人呦,如果癌癥樣品還是建議再多測(cè)一些呢~
參考文獻(xiàn)
Sedlazeck F J , Rescheneder P , Smolka M , et al. Accurate detection of complex structural variations using single-molecule sequencing[J]. Nature Methods, 2018.