Nanopore全長轉(zhuǎn)錄組測序是指基于牛津納米孔公司(Oxford Nanopore Technologies,ONT)三代測序平臺進行全長轉(zhuǎn)錄組測序,無需打斷,可直接讀取從5’端到3’端polyA尾的高質(zhì)量單個RNA分子全長序列,準(zhǔn)確辨別二代測序無法準(zhǔn)確識別的可變剪接(AS)、可選擇性多聚腺苷酸化(APA)、融合基因、lncRNA及其靶基因,且可同時對基因和轉(zhuǎn)錄本進行定量分析。ONT全長轉(zhuǎn)錄組已廣泛應(yīng)用于生長發(fā)育、環(huán)境適應(yīng)、免疫互作、突變表型、腫瘤的發(fā)生、臨床診斷和藥物研發(fā)等領(lǐng)域。
數(shù)據(jù)質(zhì)控
Nanopore測序通過對納米孔的DNA/RNA單分子實時電信號進行檢測及對應(yīng),即可計算獲得相應(yīng)堿基的類型,完成序列的實時測定。為確保Reads有足夠高的質(zhì)量,將下機原始測序數(shù)據(jù)(raw reads)過濾短片段和低質(zhì)量的reads,得到clean reads,保證后續(xù)分析的準(zhǔn)確性。
將reads按照長度從短到長排序,平均分成10份,每一份統(tǒng)計reads的平均質(zhì)量值,平均質(zhì)量值Q10以上,即為合格。
可變剪切鑒定
基因轉(zhuǎn)錄生成的前體mRNA(pre-mRNA),有多種剪接方式,選擇不同的外顯子,產(chǎn)生不同的成熟mRNA,從而翻譯為不同的蛋白質(zhì),構(gòu)成生物性狀的多樣性。這種轉(zhuǎn)錄后的mRNA加工過程稱為可變剪接或選擇性剪接(Alternative splicing)??勺兗艚宇愋桶ǎ?A) 外顯子跳躍;(B) 可變轉(zhuǎn)錄終止位點;(C) 可變外顯子;(D)可變轉(zhuǎn)錄起始位點;(E) 內(nèi)含子保留。
轉(zhuǎn)錄因子預(yù)測
轉(zhuǎn)錄因子(Transcription factor)是指能夠結(jié)合在某基因上游特異核苷酸序列上的蛋白質(zhì),這些蛋白質(zhì)可以調(diào)控RNA聚合酶與DNA模板的結(jié)合,從而調(diào)控基因的轉(zhuǎn)錄。
可選擇性多聚腺苷酸化分析-APA
多聚腺苷酸化是指多聚腺苷酸與信使RNA(mRNA)分子的共價鏈結(jié)。在蛋白質(zhì)生物合成的過程中,這是產(chǎn)生準(zhǔn)備作翻譯的成熟mRNA的方式的一部份。在真核生物中,多聚腺苷酸化是一種機制,令mRNA分子于它們的3’端中斷。多聚腺苷酸尾(或聚A尾)保護mRNA,免受核酸外切酶攻擊,并且對轉(zhuǎn)錄終結(jié)、將mRNA從細胞核輸出及進行翻譯都十分重要。前體mRNA的可變多聚腺苷酸化(alternative polyadenylation, APA)可能貢獻于轉(zhuǎn)錄組多樣性,基因組的編碼能力以及基因的調(diào)控機制。
差異表達基因/轉(zhuǎn)錄本KEGG通路富集
KEGG Pathway富集可以系統(tǒng)分析基因產(chǎn)物在細胞中的代謝途徑以及這些基因產(chǎn)物功能,把基因/轉(zhuǎn)錄本及表達信息作為一個整體的網(wǎng)絡(luò)進行研究。
差異表達基因/轉(zhuǎn)錄本GO注釋
GO注釋分類統(tǒng)計圖,直觀的反映出在生物過程(biological process)、細胞組分(cellular component)和分子功能(molecular function),可深入挖掘差異基因和轉(zhuǎn)錄本的功能及所在的信號通路,篩選關(guān)注差異基因和轉(zhuǎn)錄本注釋情況。
nanopore全長轉(zhuǎn)錄組測序是指基于牛津納米孔公司(Oxford Nanopore Technologies,ONT)三代測序平臺進行全長轉(zhuǎn)錄組測序。全長轉(zhuǎn)錄組測序,無需打斷,基于三代測序平臺直接獲取轉(zhuǎn)錄本的5ˊ到3ˊ高質(zhì)量全長序列,可準(zhǔn)確識別可變剪接、基因融合、可選擇性多聚腺苷酸化APA、等位基因特異性表達等轉(zhuǎn)錄本結(jié)構(gòu)方面變異。基于nanopore三代測序平臺進行全長轉(zhuǎn)錄組測序,除了可準(zhǔn)確鑒別上述轉(zhuǎn)錄本結(jié)構(gòu)變異,還可實現(xiàn)轉(zhuǎn)錄本(mRNA或polyA+ lncRNA)表達水平準(zhǔn)確定量。
主要在于測序平臺不同。Illumina平臺主要是PE150測序,構(gòu)建小片段文庫,為邊合成邊測序,在建庫以及測序過程中均需要PCR擴增,主要用于基因水平表達定量及差異表達分析。nanopre全長轉(zhuǎn)錄組測序無需打斷RNA,可獲得5’到3’全長轉(zhuǎn)錄本序列及其表達信息,對片段大小無偏好,直接檢測電信號無需邊合成邊測序其GC偏好性遠低于二代平臺;同時由于無需拼接其在轉(zhuǎn)錄本層面的結(jié)構(gòu)變異檢測方面,比如可變剪接、融合基因、APA、新基因預(yù)測等具有絕對優(yōu)勢。
nanopore測序是基于電信號識別堿基序列的三代測序技術(shù)。DNA/RNA上不同堿基或帶不同修飾時化學(xué)性質(zhì)存在差異,當(dāng)單鏈分子通過納米孔通道時,堿基造成的阻礙大小不一,因此會形成特征性離子電流變化信號。通過對這些信號進行實時檢測,即可獲得相應(yīng)堿基類型,完成測序。目前通過“遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)”的復(fù)雜算法對堿基進行判讀。
其特點為:
1)讀長長:最長讀長能達到2 Mb以上級別[ref1],有利于可變剪接、基因融合等結(jié)構(gòu)變異檢測;
2)低成本:相比其他三代測序技術(shù),ONT測序樣本處理極其簡單,無需DNA聚合酶、連接酶和dNTPs,測序價格低;
3)測序過程不涉及PCR擴增:避免二代測序中PCR擴增可能引入的錯誤或豐度變化;
4)direct-RNA/DNA方式建庫,可直接獲取堿基修飾信息,如甲基化修飾5mC、6mA等,無須像二代測序需要經(jīng)過重硫酸鹽轉(zhuǎn)化或者免疫沉淀富集實驗;
5)低GC含量和堿基偏好性,針對RNA測序無需打斷,轉(zhuǎn)錄本水平表達定量更準(zhǔn)確。
二代轉(zhuǎn)錄組測序一般基于邊合成邊測序二代短讀長的Illumina等平臺,由于讀長短(通常PE 150bp),需要進行片斷化,打斷到200-300bp,測序過程需要DNA聚合酶和dNTPs以及進行橋式PCR形成clusters放大熒光信號。
從二代轉(zhuǎn)錄組到nanopore三代全長轉(zhuǎn)錄組,平臺升級,技術(shù)革新,解決二代不能解決的問題!
樣品類型:PolyA RNA;樣品濃度:≥50 ng/ul(Qubit HS RNA定量); 樣品總量:cDNA-direct方式:>250ng(單次);總量>750 ng;(若提供總RNA,動物樣品總量需按照PolyA RNA要求的100倍以上準(zhǔn)備); cDNA-PCR方式:>1μg(單次);總量>3μg 樣品純度:OD260/280 ~2.0,OD260/230在2.0-2.2 之間,260nm處有正常峰值;樣品無基因組DNA污染; 總RNA完整性: RIN值≥8.0,28S/18S≥1.0;圖譜基線無上抬;5S峰正常。
研究表明,生物學(xué)重復(fù)可提高所有基因表達水平鑒定的準(zhǔn)確性,而增加測序深度主要提高低表達基因表達量鑒定準(zhǔn)確性。每種處理條件下至少3個生物學(xué)重復(fù),當(dāng)研究樣本的生物學(xué)差異比較高,或者想研究更多的微小表達差異/fold change時,需要更多生物學(xué)重復(fù)。也就是,比如對于個體差異較大的臨床樣本可以5-10個/組以上,而生物學(xué)差異較小的細胞系樣本則每組3個生物學(xué)重復(fù)以上即可。
使用三種納米孔建庫方式(PCR-cDNA、direct-cDNA和direct-RNA)數(shù)據(jù)和典型的短讀長cDNA技術(shù)制備酵母轉(zhuǎn)錄組文庫進行比較:
a)在所有情況下,納米孔長讀長數(shù)據(jù)集的GC偏好都比短讀長數(shù)據(jù)集低。
b)與短讀長測序數(shù)據(jù)相比,納米孔長讀長測序數(shù)據(jù)的長度偏倚都較小。
綜上,nanopore全長轉(zhuǎn)錄組測序受基因的GC含量和長度偏好更小。
——圖片來源于Oxford Nanopore Technologies官方白皮書The value of full-length transcripts without bias。
ONT平臺目前我司下機數(shù)據(jù)堿基質(zhì)量Q值平均約在10左右,即堿基平均錯誤率為10^(-1)=10%左右,但這是單堿基錯誤率;
比對時用的是全長序列和參考基因組或參考轉(zhuǎn)錄組進行比對,序列越長比對時對于堿基錯配度容忍越高,因此不會對表達定量有影響;
當(dāng)然由于比二代單堿基錯誤率高,故而百邁客將SNP和InDel檢測分析內(nèi)容去除了,因此想從RNA水平檢測snp/indel的客戶可能考慮做二代轉(zhuǎn)錄組測序。其實目前不乏使用nanopore測序數(shù)據(jù)檢測snp的文章,如NC|nanopore全基因組重測序鑒定人類基因組非同義新生SNP。
下面列舉了2個百邁客真實項目的數(shù)據(jù)質(zhì)量表,大家可以參考。
ONT全長轉(zhuǎn)錄組測序一條reads即代表該轉(zhuǎn)錄本表達一次,而二代短reads需要非常多條才能覆蓋一個轉(zhuǎn)錄本;oxford nanopore公司官方白皮書中數(shù)據(jù)顯示:當(dāng)相同數(shù)量的轉(zhuǎn)錄本被覆蓋達95%時,ONT所需要的reads數(shù)比Illumina約少50倍,所需要堿基數(shù)約少7倍。
故而2G ONT數(shù)據(jù)能達到6G Illumina檢測效果;
——圖片來源于Oxford Nanopore Technologies官方白皮書The value of full-length transcripts without bias。
針對同一樣本進行的飽和度分析顯示,2G ONT全長除表達量極低的(CPM<1)其他轉(zhuǎn)錄本都達到飽和了,和二代Illumina 6G除表達量極低FPKM<1外的基因檢測也飽和了,且前者更早趨向飽和;
目前已發(fā)表的人鼠文獻中ONT全長測序的數(shù)據(jù)量大多也不到2G,比如文獻精讀|nanopore全長轉(zhuǎn)錄組測序揭示B細胞表面受體廣泛的轉(zhuǎn)錄變異。
應(yīng)用于慢性淋巴細胞白血病
英文題目:Full-length transcript characterization of SF3B1 mutation in chronic lymphocytic leukemia reveals downregulation of retained introns
發(fā)表雜志:Nature Communications
發(fā)表時間:2020.03
影響因子:11.878
使用Nanopore分別對慢性淋巴細胞白血?。–LL)分離的SF3B1野生型,突變株和正常組B細胞樣本進行全長轉(zhuǎn)錄組測序?;贜anopore的全長cDNA測序可以檢測轉(zhuǎn)錄本全長,通過算法優(yōu)化,相對于短序列,可以更準(zhǔn)確的檢測3′末端剪切,內(nèi)含子保留,分辨生產(chǎn)性異構(gòu)體和非生產(chǎn)性異構(gòu)體。該研究證明了Nanopore測序在癌癥和可變剪切中的潛在使用價值。
應(yīng)用于精神疾病
英文題目:Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain
發(fā)表雜志:Mol. Psychiatry
發(fā)表時間:2020.03
影響因子:11.973
在人腦中,與精神分裂癥相關(guān)的基因組區(qū)域富集了在神經(jīng)發(fā)育過程中表現(xiàn)出不同異構(gòu)體使用的基因,本文通過ONT全長轉(zhuǎn)錄組技術(shù)研究疾病相關(guān)的CACNA1C亞型,有可能提供既有效又無外周副作用的新型精神藥物。
應(yīng)用于阿爾茨海默病
英文題目:Deleterious ABCA7 mutations and transcript rescue mechanisms in early onset Alzheimer’s disease
發(fā)表雜志:Acta Neuropathol
發(fā)表時間:2017.09
影響因子:14.251
阿爾茨海默病(AD)是一種起病隱匿的進行性發(fā)展的神經(jīng)系統(tǒng)退行性疾病。本文研究了ABCA7 PTC突變在一個大型早發(fā)性AD對照隊列中的患病率和疾病外顯性,并用ONT全長轉(zhuǎn)錄組檢查了其對轉(zhuǎn)錄水平的影響。揭示了不同程度的NMD和轉(zhuǎn)錄修飾事件,可能影響ABCA7的劑量、疾病的嚴(yán)重程度,并可能為AD的治療干預(yù)創(chuàng)造機會。
應(yīng)用于多囊腎病
英文題目:Human-Specific Abnormal Alternative Splicing of Wild-Type PKD1 Induces Premature Termination of Polycystin-1
發(fā)表雜志:Journal of The American Society of Nephrology
發(fā)表時間:2018.10
影響因子:9.274
常染色體顯性遺傳性多囊腎病的主要形式是由編碼多囊蛋白-1(PC1)的基因雜合突變引起的,通過ONT全長轉(zhuǎn)錄組測序等方法確認(rèn)存在多種剪接形式。研究發(fā)現(xiàn),在雜合子個體中,低水平的全長PC1可能會將多囊蛋白信號降低到臨界的“成囊”閾值以下。
應(yīng)用于乳腺癌
英文題目:Nanopore sequencing of full-length BRCA1 mRNA transcripts reveals co-occurrence of known exon skipping events
發(fā)表雜志:Breast Cancer Res
發(fā)表時間:2017.11
影響因子:4.988
本研究探索了納米孔測序技術(shù)在檢測整個BRCA1 mRNA轉(zhuǎn)錄本以及對框內(nèi)和框外剪接事件進行準(zhǔn)確分類方面的應(yīng)用。研究鑒定了32個完整的BRCA1亞型,其中包括18個新的亞型,還發(fā)現(xiàn)已知的BRCA1外顯子跳躍事件,如Δ(9,10)和Δ21。這些發(fā)現(xiàn)對預(yù)測剪接轉(zhuǎn)錄本的翻譯框架具有重要意義,對解釋剪接變異體的臨床意義也很重要。
應(yīng)用于肺癌
英文題目:Long read sequencing reveals a novel class of structural aberrations in cancers:identification and characterization of cancerous local amplifications
bioRxiv
本研究中利用ONT全長轉(zhuǎn)錄組和ONT重測序技術(shù)在肺癌基因組中識別和表征結(jié)構(gòu)畸變,揭示了由局部重復(fù)、倒位和微缺失的復(fù)雜組合組成的獨特結(jié)構(gòu)畸變CLCL,進一步分析并發(fā)現(xiàn),即使在關(guān)鍵的癌癥相關(guān)基因中,這些突變也發(fā)生在體內(nèi),這些突變可能闡明了致癌性事件和治療策略仍然難以捉摸的患者的分子病因。
應(yīng)用于細胞表面受體
英文題目:Nanopore long-read RNAseq reveals widespread transcriptional variation among the surface receptors of individual B cells
發(fā)表雜志:Nature Communications
發(fā)表時間:2017.07
影響因子:12.121
短reads RNAseq解析復(fù)雜isoform的能力有限,因為它無法測序RNA分子的全長cDNA拷貝。作者研究了使用長讀取單分子Oxford Nanopore測序儀的RNAseq是否能夠在不犧牲準(zhǔn)確的基因表達定量的情況下,鑒定和定量復(fù)雜的isoform。在小鼠B1a細胞中鑒定了數(shù)千個未注釋的轉(zhuǎn)錄起始和終止位點,以及數(shù)百個可變剪接事件,鑒定了在B1a細胞中表達的數(shù)百種基因,這些基因顯示出多種復(fù)雜的isoform,包括幾種B細胞特異性表面受體。本研究表明,可以在單細胞水平上識別和定量復(fù)雜的isoform。