Nanopore測序錯誤率相對于二代平臺高,所以我們不推薦其做snp分析,但這不代表高深度ONT全基因組重測序不能用于snp分析。本期小編為大家分享一篇利用高深度ONT全基因組重測序進(jìn)行snp分析以進(jìn)行臨床應(yīng)用的案例。
【研究背景和方法】
Nanopore長讀長測序在人類基因組測序方面主要優(yōu)勢集中于基因組組裝及結(jié)構(gòu)變異檢測方面。由于其堿基錯誤率較高,其在臨床應(yīng)用所需的單核苷酸變異(SNV)檢測方面存在困難。
為了評估納米孔測序在臨床人類基因組學(xué)的應(yīng)用潛力,作者利用便攜式MinION三代測序儀測序了2個人類基因組:基因組參考樣本NA12878,增加其測序深度,以評估和校準(zhǔn)三代nanopore變異檢測方法;然后對伴有嚴(yán)重免疫失調(diào)的共濟(jì)失調(diào)性全血細(xì)胞減少綜合征患者進(jìn)行測序,以解決與分子遺傳學(xué)診斷相關(guān)的2種新生蛋白編碼變異的染色體定相(phasing)相關(guān)問題。
【研究結(jié)果】
1.對參考樣品進(jìn)行MinION全基因組測序
GM12878人B淋巴細(xì)胞采用PCR擴(kuò)增和6kb片段篩選的文庫制備方案,共計獲得45,740,123條reads(圖1a),平均讀取長度為6373bp(圖1b)在流動細(xì)胞中是一致的,并且基于測序文庫的物理大小選擇非常接近預(yù)期??倲?shù)據(jù)量為273.4Gb,每個flow cell的平均產(chǎn)量為3.7Gb(圖1c)。總計42,924,782個高質(zhì)量clean reads的比對率為99.3%,唯一比對率為88.8%。
比對上的reads平均堿基替換SNV發(fā)生率為12.7%(與參考堿基不同的頻率),平均缺失率為4.7%(參考序列中堿基缺失的頻率),平均插入率為3.2%(圖1d)。作者還評估了不同堿基識別算法對reads水平z確性的影響,發(fā)現(xiàn)Albacore v2.0.2實現(xiàn)了*低的未過濾替換錯誤率和缺失錯誤率,而其他方法具有較低的插入錯誤率。
平均每個堿基覆蓋深度(不包括缺失)為81.7X(圖1e),其中90.4%的基因組區(qū)域被至少40個reads覆蓋。9.6%人基因組區(qū)域覆蓋深度降低(<40×),反映文庫制備方案的PCR步驟中的擴(kuò)增偏差(圖1f)。
圖1
2.NA12878中的單核苷酸變異SNV檢測
使用multi-platform Genomes in a Bottle (GIAB)作為黃金標(biāo)準(zhǔn)真實數(shù)據(jù)集評估ONT檢測SNV的z確性。NA12878樣本22號染色體數(shù)據(jù)運行FreeBayes方法檢測SNV,選擇獲得*佳F1分?jǐn)?shù)的參數(shù),與GIAB參考變異檢測集相比,實現(xiàn)了99.9%的總體一致性z確度,并且觀察到12.8%的錯誤發(fā)現(xiàn)率(FDR)和14.4%假陰性率(FNR),結(jié)合創(chuàng)造了86.4%的F1分?jǐn)?shù)(表1)。在全基因組水平使用上述參數(shù),獲得了10.9%的FDR,12.5%的FNR和88%的F1分?jǐn)?shù)。
表1
為了更好地理解變異檢測錯誤的潛在來源,作者注釋了變異檢測位點,其中包含一系列關(guān)于參考序列和跨越位點的reads注釋。這些包括接近均聚物重復(fù)區(qū)域、較低的覆蓋深度、鏈偏好和存在大量短缺失的reads覆蓋區(qū)域(圖2左)。表明,假陽性(FP)和假陰性的主要驅(qū)動因素是均聚物和低覆蓋率。此外,使用高質(zhì)量評分閾值(QUAL)來維持可接受的FDR會產(chǎn)生許多假陰性。
圖2
初始變異集中的大部分假陽性基因型是雜合基因型。使用ONT數(shù)據(jù)的好處是跨越多個雜合位點的長reads提供了糾正此問題的機(jī)會。當(dāng)reads被分成代表親本單倍型的2組時,預(yù)期真陽性變異等位基因只固定在一個定相組(親本單倍體)存在,而假陽性變異預(yù)期在組之間均勻分布。據(jù)此,作者開發(fā)了單樣本、基于reads、無參考panel的定相算法。
使用過濾器改進(jìn)變異檢測,通過phasing和注釋過濾器(Post?phasing classification)顯著改善變異檢測,*佳結(jié)果F1評分為92.2%,F(xiàn)DR為7.1%,F(xiàn)NR為8.5%(表1,圖2中)。進(jìn)一步考慮覆蓋深度>=60X的假定變異位點(基因組的85%)時,觀察到F1得分改善至93.6%,F(xiàn)DR為6.1%,F(xiàn)NR為6.6%(圖2右),這意味著減少或消除覆蓋深度偏差源(如PCR)的操作改進(jìn)在提高z確性方面可以發(fā)揮一定作用。(百邁客目前ONT全基因組重測序和ONT全基因組甲基化測序建庫過程正是PCR-free建庫–direct-DNA建庫,一是可減少覆蓋深度偏好,有利于提高變異檢測z確度;二是可以保留堿基修飾信息,同時檢測甲基化修飾等信息)
在推定的致病LOF變異(功能缺失突變:本文針對終止密碼子獲得和剪接位點突變)中,與全基因組真陽性突變(173/788782,0.02%)相比,F(xiàn)Ps(假陽性突變,69/45219,0.15%)富集,但FPs在高度不耐受LOF突變的基因(pLI>0.90,17 FP對20 TP)與LOF突變耐受基因(pLI <= 0.10,46 FP對122 TP)中成比例地富集。
在每條read隨機(jī)堿基替換錯誤和無基因組擴(kuò)增偏差的理想化模型下模擬NA12878數(shù)據(jù)集,與實測數(shù)據(jù)比較,表明均聚物缺失錯誤累積導(dǎo)致缺失變異檢測錯誤,納米孔測序中增加的測序覆蓋深度以減小均聚物相關(guān)FDR,目前受到基因組范圍的in-read缺失率的限制。
3.NA12878樣本突變定相
基因型是通過母本或父本單倍型遺傳的,但大多數(shù)基因分型方法,會產(chǎn)生非定相基因型檢測,即無法區(qū)分單倍型。基因型定相很有意義,除了上述促進(jìn)變異檢測z確性的改進(jìn)之外,還能夠進(jìn)行許多遺傳分析,比如臨床用途中解決多個雜合LoF變異的共分離和鑒定新生突變的起源親本。作者開發(fā)的新型定相算法相比于其他算法,具有更低的錯誤率,其定相√確度類似于使用非常大的參考panel從SNP基因分型陣列數(shù)據(jù)定相常見變異所獲得的定相√確度。
4.NA12878樣本大片段結(jié)構(gòu)變異檢測
大的結(jié)構(gòu)變異相對于snp和indel少見,但其對罕見疾病的影響可能甚至比目前估計的更大,因為現(xiàn)有分析檢測這些突變存在技術(shù)困難。采用Sniffles檢測22號染色體SV變異,共計檢測到82個,其中22個是在GIAB真實數(shù)據(jù)集中存在的,之后通過ONT、Illumina和PacBio reads覆蓋數(shù)據(jù)來判斷剩余的60個SV:其中21個SV被Pacbio檢測到或reads強(qiáng)烈支持,31個SV僅ONT reads明顯證實,但PacBio reads很少或不支持。ONT特異性檢測SV可能代表其他技術(shù)遺漏的真實缺失、由PCR擴(kuò)增產(chǎn)生的假象或在NA12878細(xì)胞系的細(xì)胞培養(yǎng)期間發(fā)生的亞克隆缺失。作者發(fā)現(xiàn)目前ONT平臺允許檢測大的缺失,靈敏度在60%-91%(21/35和32/35)。
僅ONT檢測到的缺失突變示例
5.使用MinION對臨床樣品進(jìn)行全基因組測序
鑒于長reads可成功地檢測雜合變異,作者試圖使用全基因組納米孔測序來解決具有不確定的免疫調(diào)節(jié)病癥的個體基因組臨床問題。簡而言之,女性患者最初在嬰兒期出現(xiàn)復(fù)發(fā)性感染、低丙種球蛋白血癥、血小板減少癥和輕度貧血,并且在兒童時期出現(xiàn)慢性炎癥,在成年早期出現(xiàn)進(jìn)行性神經(jīng)系統(tǒng)癥狀。
患者及其父母組成的核心家系3個樣本Illumina平臺全基因組重測序(PE 126bp)結(jié)果:發(fā)現(xiàn)了84個高置信度的新生SNV,一個接近預(yù)期范圍上限的數(shù)字,這與受孕時的父母年齡(母親是38歲,父親39歲)一致。其中3個變異預(yù)測為導(dǎo)致蛋白序列改變,2個位于SAMD9L基因蛋白質(zhì)編碼區(qū)中。該基因中罕見的雜合變異最近涉及常染色體顯性遺傳性共濟(jì)失調(diào)性全血細(xì)胞減少綜合征(OMIM:#159550),并且有證據(jù)表明造血組織的出生后逆轉(zhuǎn)可能與較輕微的疾病表現(xiàn)相關(guān)。雖然這2個非同義突變(c.1076 G>A和c.3353 A>G; p.R359Q和p.Y1118C,NM_152703.3)位于同一個外顯子中,但它們相距2277 bp,所以不能直接使用Illumina reads進(jìn)行定相;其附近缺乏遺傳的雜合變異也阻止將突變定相于親本單倍型。解釋這個問題對于解釋每個等位基因的致病潛力非常重要,解決此類問題的能力與類似情況下的生殖決策直接相關(guān)。
全血樣本Nanopore全基因組重測序結(jié)果:在34個R9.4 MinION flowcell中共計產(chǎn)生122 Gb數(shù)據(jù)量(16,692,656 reads,約40X),比對率為99.1%。通過上述在NA12878樣本確定的變異檢測和定相方法進(jìn)行分析。
ONT數(shù)據(jù)基因組覆蓋深度統(tǒng)計
不出所料,ONT數(shù)據(jù)也鑒定到了具有預(yù)期雜合基因型的c.1076 G> A和c.3353 A> G變異。使用ONT reads對其他附近變異進(jìn)行定相,以確認(rèn)新生變異的遺傳和來源(圖3)。這2個新生突變被定相于一個199kb的block內(nèi),33條reads(6.1-18.9kb)跨越2個新生突變位點,11條reads包含新生突變等位基因,8條reads包含2個參考等位基因,表明突變的等位基因是順式的(來自于同一條染色體)。(NA12878數(shù)據(jù)中沒有reads跨越包含2個位點的突變等位基因。)使用一系列等位基因特異性PCR實驗證實來自O(shè)NT reads的新生等位基因的單倍型構(gòu)象。相位區(qū)中的側(cè)翼位點表明,父系遺傳的單倍型出現(xiàn)了新生變異(圖3)。
圖3及等位基因特異性PCR結(jié)果
注:前3行為未定相母親(MI),父親(FI),先證者(PI)基因型,第4行為先證者單倍型Phased proband genotypes (PN)。藍(lán)色=alt ,橙色=ref。PN下面2行為單倍型1(母系遺傳)或單倍型2(父系遺傳)對應(yīng)的reads,其中對于每條read,堿基是矩形,reads跨度以水平線顯示。間隙代表gap(缺失)。底部顯示物理位置,感興趣的位點為紅色?;贕RCh37 NM_152703.3, 92761932 T>C對應(yīng)于c.3353 A>G,92764209 C>T對應(yīng)于c.1076 G>A。
【討論】
該研究首次詳細(xì)評估了ONT測序?qū)θ祟悩颖镜淖儺悪z測和基因分型、染色體定相(單倍型分析)的z確性。雖然很有希望,在總共107個MinION flowcell中對這2個人類基因組進(jìn)行測序是一項重大任務(wù),在技術(shù)和計算等方面具有挑戰(zhàn)。最近商業(yè)化推出的PromethION是一種更高通量的納米孔測序儀,自帶數(shù)據(jù)處理功能,有望解決人類基因組規(guī)模數(shù)據(jù)中的許多挑戰(zhàn)。(百邁客與Oxford Nanopore公司合作-斥巨資引進(jìn)Nanopore全測序平臺)最后,雖然變異檢測的總體z確性仍存在局限性,但該工作突出了錯誤上下文,這些錯誤上下文將受益于基本檢測、reads比對和一致性變異檢測方法的改進(jìn),并說明了將ONT應(yīng)用于臨床目的的途徑。
【小編碎語】
隨著nanopore測序技術(shù)的發(fā)展更新,比如ONT內(nèi)測的R10芯片75X達(dá)到一致性質(zhì)量值Q50,比如新的”flip-flop”堿基識別軟件可將R9一致性z確性提升至Q42等??傊?,ONT長讀長測序錯誤率down down down,測序通量up up up,測序價格low low low,三代取代二代指日可待。誰說魚(長讀長)和熊掌(z確度)不可兼得呢。
Bowden R, Davies R W, Heger A, et al. Sequencing of human genomes with nanopore technology[J]. Nature communications, 2019, 10(1): 1869.
文獻(xiàn)原文下載:
https://international.biocloud.net/zh/article/detail/31015479