研究背景
單個(gè)基因不同轉(zhuǎn)錄本isoform產(chǎn)生的蛋白質(zhì)具有不同的生物特性,包括穩(wěn)定性、細(xì)胞內(nèi)定位、酶活性和翻譯后修飾。Isoform是可選擇性轉(zhuǎn)錄起始位點(diǎn)(transcription start sites,TSS)、轉(zhuǎn)錄終點(diǎn)(transcription end sites,TES)和可變剪接事件等的產(chǎn)物。據(jù)預(yù)測(cè),大部分人類(lèi)基因存在可變剪接??勺兗艚油蛔兣c人類(lèi)遺傳病和腫瘤均密切相關(guān)。故而,不僅需要在基因水平鑒定轉(zhuǎn)錄組多樣性,也需要在轉(zhuǎn)錄本表達(dá)水平分析細(xì)胞真正的轉(zhuǎn)錄多樣性。二代轉(zhuǎn)錄組測(cè)序弊端:目前基于二代平臺(tái)的短讀長(zhǎng)RNAseq方法在識(shí)別復(fù)雜轉(zhuǎn)錄本isoform方面存在固有限制,因?yàn)樗鼈儾荒軠y(cè)序全長(zhǎng)轉(zhuǎn)錄本。相反,轉(zhuǎn)錄本被片段化以進(jìn)行測(cè)序,其產(chǎn)生的單個(gè)短reads無(wú)法跨越整個(gè)轉(zhuǎn)錄本。算法工具可用于從這些reads中組裝完整的轉(zhuǎn)錄本,但不同的組裝算法可能會(huì)導(dǎo)致相互矛盾的結(jié)果,整體組裝質(zhì)量良莠不齊。為了克服二代短讀長(zhǎng)RNAseq的這種限制,出現(xiàn)了基于三代測(cè)序平臺(tái)的全長(zhǎng)轉(zhuǎn)錄本測(cè)序,比如ONT平臺(tái)全長(zhǎng)轉(zhuǎn)錄組測(cè)序技術(shù)。研究表明,在看似同質(zhì)的細(xì)胞群體中各個(gè)細(xì)胞在基因表達(dá)方面可能不同。細(xì)胞間異質(zhì)性使免疫細(xì)胞成為深入分析轉(zhuǎn)錄多樣性的靶標(biāo)。研究目的:通過(guò)使用ONT技術(shù)對(duì)全長(zhǎng)cDNA分子進(jìn)行測(cè)序,探究小鼠B1a細(xì)胞的單細(xì)胞轉(zhuǎn)錄組多樣性。
研究方法
- 小鼠B1a細(xì)胞分選:野生C57Bl/6小鼠腹腔灌洗收集細(xì)胞,流式分選Ter119?CD3?CD4?CD8?Gr1?B220+IgM+CD11b?CD5+?B1a細(xì)胞。(注:B細(xì)胞根據(jù)其發(fā)育來(lái)源分為B1細(xì)胞和B2細(xì)胞,根據(jù)是否表達(dá)CD5分子B1細(xì)胞又分為B1a和B1b細(xì)胞2種亞型,其中B1a細(xì)胞為CD5+?B細(xì)胞,而B(niǎo)1b和B2不表達(dá)CD5分子。)
- Smartseq2單細(xì)胞全長(zhǎng)mRNA擴(kuò)增合成cDNA
- 7個(gè)B1a細(xì)胞全長(zhǎng)cDNA分別進(jìn)行二代Illumina轉(zhuǎn)錄組測(cè)序(73,086-351,876 150?bp reads/細(xì)胞)和三代ONT全長(zhǎng)轉(zhuǎn)錄組測(cè)序(R 7.3 17,749-52,696/R9.4 57,874-128,726 ONT reads/細(xì)胞),二者間進(jìn)行比較。
人工合成標(biāo)準(zhǔn)品?Spike-in RNA Variant Control Mixes (SIRVs, Lexogen,根據(jù)7個(gè)人類(lèi)基因結(jié)構(gòu)設(shè)計(jì)而成的,其中每個(gè)基因結(jié)構(gòu)有6-18種轉(zhuǎn)錄本變異,因此總共有69種轉(zhuǎn)錄本,這些轉(zhuǎn)錄本全面的解決了可變剪接、可變轉(zhuǎn)錄起始點(diǎn)和終止位點(diǎn)、重疊基因和反義轉(zhuǎn)錄問(wèn)題),分別進(jìn)行二代Illumina轉(zhuǎn)錄組測(cè)序和三代ONT全長(zhǎng)轉(zhuǎn)錄組測(cè)序,二者間進(jìn)行比較。
研究結(jié)果
1、B1a細(xì)胞基因表達(dá)定量比較
比較相同細(xì)胞的Illumina和ONT RNAseq基因表達(dá)定量結(jié)果,二者間具有高相關(guān)性(ONT R7.3芯片的Pearsonr相關(guān)系數(shù)≥0.84-0.89和升級(jí)版R9.4芯片為0.9-0.92),證實(shí)ONT RNAseq方法可復(fù)現(xiàn)Illumina基因表達(dá)定量。比較不同細(xì)胞中的Illumina和ONT RNAseq基因表達(dá)定量數(shù)據(jù)顯示,Pearsonr≤0.45的低相關(guān)性,表明ONT RNAseq可以鑒定不同細(xì)胞間表達(dá)差異。
即使產(chǎn)生相對(duì)較少的reads數(shù),ONT RNAseq基因表達(dá)定量也檢測(cè)到了絕大多數(shù)Illumina RNAseq檢測(cè)到的基因(下圖a)。此外,7個(gè)細(xì)胞中的5個(gè),基因表達(dá)檢測(cè)已達(dá)到飽和(下圖S2)。ONT或Illumina RNAseq單獨(dú)檢測(cè)到的基因表達(dá)水平較低,表明這些基因的表達(dá)水平接近兩種技術(shù)的檢測(cè)下限(下圖b)。還觀(guān)察到ONT RNAseq單獨(dú)檢測(cè)的基因由較短的轉(zhuǎn)錄本組成(下圖c)。此外,長(zhǎng)度<600bp并且通過(guò)ONT和Illumina RNAseq檢測(cè)的基因在Illumina RNAseq數(shù)據(jù)中具有相對(duì)較低的表達(dá)水平(下圖d)。雖然這與在基于Tn5的Illumina文庫(kù)制備中強(qiáng)烈選擇的較短轉(zhuǎn)錄本一致,但不能排除ONT RNAseq可能偏向于較短的轉(zhuǎn)錄本。為排除這種可能性,作者進(jìn)一步選擇合成轉(zhuǎn)錄本混合物SIRVs,分析轉(zhuǎn)錄本長(zhǎng)度是否對(duì)ONT RNAseq表達(dá)定量有影響。
2、SIRVs合成轉(zhuǎn)錄本混合物2種平臺(tái)比較
SIRV為已知長(zhǎng)度、結(jié)構(gòu)和序列的人工合成的Spike-in RNA對(duì)照混合物。當(dāng)擴(kuò)增單細(xì)胞級(jí)痕量RNA時(shí),較低濃度組中的轉(zhuǎn)錄本drop-out(很多未檢出表達(dá)),并且轉(zhuǎn)錄本定量顯示每個(gè)濃度組內(nèi)的變化(下圖e,橫坐標(biāo)為4個(gè)不同濃度分組)。然而,重要的是,定量不受轉(zhuǎn)錄本長(zhǎng)度的影響,除了短于500bp的轉(zhuǎn)錄本(下圖f)。通常,ONT RNAseq定量與Spike-in?轉(zhuǎn)錄物濃度一致,轉(zhuǎn)錄本定量的組內(nèi)變異在重復(fù)樣本之間是可重復(fù)的(下圖g)。這種組內(nèi)變異可能是由于初始轉(zhuǎn)錄水平、系統(tǒng)擴(kuò)增偏差或數(shù)據(jù)分析偏差導(dǎo)致。分析這些不同濃度的合成轉(zhuǎn)錄本使作者排除了ONT RNAseq有利于較短轉(zhuǎn)錄本定量的可能性,可對(duì)長(zhǎng)度為500-2,500 bp的SIRV轉(zhuǎn)錄本進(jìn)行大規(guī)模無(wú)偏倚定量。
3、SIRVs isoform鑒定及定量
接下來(lái)作者評(píng)估了ONT全長(zhǎng)轉(zhuǎn)錄組測(cè)序是否適用于鑒定SIRVs不同isoform及isoforms表達(dá)定量。利用Mandalorion pipeline對(duì)TSS、TES和剪切位點(diǎn)進(jìn)行分類(lèi)。作者檢測(cè)到20個(gè)TSS位點(diǎn)和24個(gè)TES位點(diǎn),它們都與實(shí)際的TSS和TES直接重疊,并且在SIRV轉(zhuǎn)錄本注釋中存在的38個(gè)(/57個(gè))實(shí)際TSS和41個(gè)(/59個(gè))實(shí)際TES的60bp內(nèi)。
此外,在SIRV基因組注釋中檢測(cè)到76個(gè)(/89個(gè))5’剪接位點(diǎn)和73個(gè)(/93個(gè))3’剪接位點(diǎn)。通過(guò)分析ONT reads實(shí)際剪接模式,作者檢測(cè)到11個(gè)(/12個(gè))備選3’剪接位點(diǎn)和12個(gè)(/14個(gè))備選5’剪接位點(diǎn),以及12個(gè)(/12個(gè))內(nèi)含子保留事件。
根據(jù)其TSS/TES和可變剪接位點(diǎn)的使用將ONT reads分類(lèi)為isoform組,并生成一致性序列,共計(jì)33個(gè)一致性序列,與其對(duì)應(yīng)的SIRV轉(zhuǎn)錄本之間具有97.8-100%相似性,且方向一致。26個(gè)一致性序列匹配2個(gè)高豐度組中存在的29個(gè)SIRV轉(zhuǎn)錄本之一(下圖c)。不依賴(lài)于基因組注釋的轉(zhuǎn)錄本isoform?Mandalorion分類(lèi)定量與reads直接與轉(zhuǎn)錄組比對(duì)得到的定量結(jié)果之間的高度相關(guān)性(下圖d)。
4、鑒定單個(gè)B1a細(xì)胞isoform特征
通過(guò)對(duì)ONT全長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù)分析,鑒定到4234個(gè)TSS和3883個(gè)TES,僅有2476個(gè)TSS和2448個(gè)TES與小鼠基因組的Gencode數(shù)據(jù)庫(kù)(vM10)中存在的TSS或TES重疊。(下圖a)為了確定TSS和TES鑒定的z確性,作者分析了Fantom5數(shù)據(jù)庫(kù)中 CAGE peak和polyA信號(hào)富集,F(xiàn)antom5 CAGE峰來(lái)源于轉(zhuǎn)錄本5’末端的捕獲和測(cè)序,因此應(yīng)在TSS中富集。實(shí)際上,與TES(49/3883或1.3%)相比,高比例的注釋?zhuān)?356/2476或95%)和未注釋?zhuān)?052/1799或58%)TSS與高得分的Fantom5 CAGE峰重疊(下圖b)。相反,注釋和未注釋的TES都高度富集polyA信號(hào),而TSS則沒(méi)有(下圖c)。如預(yù)期的那樣,大多數(shù)基因恰好包含一個(gè)TSS和一個(gè)TES。然而,696個(gè)基因含有1個(gè)以上的TSS或TES,表明存在一種以上的isoform(下圖d)。總之,單個(gè)細(xì)胞ONT RNA-seq成功鑒定了數(shù)千個(gè)未注釋的TSS和TES以及數(shù)百個(gè)具有差異TSS/TES使用的基因。
總共鑒定到24,887個(gè)5’剪接位點(diǎn)(SS)和24,756個(gè)3’剪接位點(diǎn)。絕大多數(shù)這些剪接位點(diǎn)由Illumina junction reads或GENCODE注釋支持。24,298(97.6%)個(gè)5’SS和24,220(97.8%)個(gè)3’SS分別與GENCODE注釋匹配。在與GENCODE注釋不匹配的589個(gè)5’SS和536個(gè)3’SS中,分別有250(42.4%)個(gè)5’SS和216(40.2%)個(gè)3’SS由在Illumina junction reads支持。就算假設(shè)所有無(wú)GENCODE注釋或Illumina reads支持的剪接位點(diǎn)都是假的(顯然這是不可能的),該方法的錯(cuò)誤發(fā)現(xiàn)率僅為1.3%(659/49,643)。ONT RNAseq在確定√確剪接位點(diǎn)方面相對(duì)成功(上圖e為剪接位點(diǎn)堿基上下文context)。作者發(fā)現(xiàn)了296個(gè)內(nèi)含子保留事件,134個(gè)可選的5’剪接位點(diǎn)和173個(gè)可選的3’剪接位點(diǎn)組合。大多數(shù)這些事件也在Illumina reads中觀(guān)察到,illumina reads支持216個(gè)(/296個(gè))內(nèi)含子保留事件,99個(gè)(/134個(gè))可選5’剪接位點(diǎn),123個(gè)(/173個(gè))可選3’剪接位點(diǎn)和72個(gè)(/92個(gè))外顯子跳躍事件(上圖f)。
5、鑒定B1a細(xì)胞復(fù)雜isoform
表達(dá)復(fù)雜isoform的基因定義為:含有可變TSS/TES和可變剪接位點(diǎn)的基因。共計(jì)鑒定了169種表達(dá)復(fù)雜isoform的基因。其中55個(gè)基因在細(xì)胞之間存在高度顯著差異isoform使用,包括B細(xì)胞特異性表面受體CD19和CD20,抗體重鏈基因座(IGH)(下圖g-i),CD37(下圖CD37),以及CD2和CD79b,以及CD45。各個(gè)B1a細(xì)胞中,來(lái)自CD19的同種型顯示出可變TSS和內(nèi)含子保留事件的組合。另一方面,來(lái)自CD20的同種型顯示出可選擇性TES的組合,以及包括先前未注釋外顯子的外顯子跳躍事件。IGH基因座更復(fù)雜,具有包含VDJ重組和IGHM恒定區(qū)外顯子的典型isoform。觀(guān)察到了含有IGHM恒定區(qū)外顯子的isoform,但是源自(1)流產(chǎn)性DJ重組(2)I-外顯子(3)IGHM轉(zhuǎn)換區(qū)miRNA基因座(4)J-區(qū)段。最后,細(xì)胞1中的一種isoform來(lái)自IGHM I-外顯子,但含有IGHD恒定區(qū)外顯子。雖然之前已觀(guān)察到IGH isoform多樣性并且長(zhǎng)期以來(lái)已知其參與類(lèi)別轉(zhuǎn)換,但ONT RNAseq在單細(xì)胞水平上測(cè)序全長(zhǎng)cDNA的能力確實(shí)突出并證實(shí)了?IGH基因座特殊的轉(zhuǎn)錄多樣性。
ONT全長(zhǎng)轉(zhuǎn)錄組測(cè)序優(yōu)于Illumina數(shù)據(jù)組裝轉(zhuǎn)錄本isoform的優(yōu)勢(shì)在于從5’端到3’端測(cè)序整個(gè)cDNA分子的能力。雖然如果基因座僅表達(dá)單個(gè)isoform,使用Trinity組裝Illumina數(shù)據(jù)可能會(huì)成功,但它似乎很難分析包含多個(gè)遠(yuǎn)距離替代特征的基因座的多種isoform。例如,ONT RNAseq在所分析的各個(gè)細(xì)胞中鑒定了CD37基因的幾種不同isoform(上圖CD37)。在大多數(shù)情況下,從單個(gè)細(xì)胞組裝Illumina數(shù)據(jù)時(shí),Trinity無(wú)法形成完整的重疊群或產(chǎn)生ONT RNAseq未檢測(cè)到的重疊群。因此,CD37基因及其isoform鑒定突出了ONT RNAseq方法的優(yōu)勢(shì),以確定復(fù)雜isoform多樣性,超出了短reads技術(shù)的可能性。
小結(jié)
參考文獻(xiàn)
Byrne, A., Beaudin, A. E., Olsen, H. E., Jain, M., Cole, C., Palmer, T., … Vollmers, C. (2017). Nanopore long-read RNAseq reveals widespread transcriptional variation among the surface receptors of individual B cells.?Nature communications,?8, 16027. doi:10.1038/ncomms16027?如果您的項(xiàng)目有任何,歡迎點(diǎn)擊下方按鈕咨詢(xún)我們。