中文題目:去除血紅蛋白轉(zhuǎn)錄組后的長(zhǎng)讀長(zhǎng)測(cè)序完善北極熊轉(zhuǎn)錄組本注釋
發(fā)表雜志:bioRxiv
評(píng)估全血和組織的轉(zhuǎn)錄組研究常因高度豐富的轉(zhuǎn)錄本的過(guò)度表達(dá)而混淆。這些豐富的轉(zhuǎn)錄本是有問(wèn)題的,因?yàn)樗鼈兣c稀有RNA轉(zhuǎn)錄物競(jìng)爭(zhēng)并阻止其檢測(cè),從而模糊了它們的生物學(xué)重要性。當(dāng)使用長(zhǎng)讀長(zhǎng)進(jìn)行轉(zhuǎn)錄組分析時(shí),這個(gè)問(wèn)題更加突出,因?yàn)榕c短讀長(zhǎng)測(cè)序相比,它們的數(shù)據(jù)產(chǎn)出相對(duì)較低。因此,基于長(zhǎng)讀長(zhǎng)的轉(zhuǎn)錄組分析對(duì)于非模式生物來(lái)說(shuō)性價(jià)比極地。雖然有現(xiàn)成的試劑盒可用于選定的模式生物,它們能夠消耗大量的(HBA)和(HBB)血紅蛋白轉(zhuǎn)錄本,但不適用于非模式生物。為了解決這個(gè)問(wèn)題,本研究采用了crispr/cas9基因耗盡法(通過(guò)雜交消耗大量序列)來(lái)進(jìn)行長(zhǎng)序列的全長(zhǎng)cDNA測(cè)序,本研究稱之為L(zhǎng)ong-DASH。使用具有適當(dāng)引導(dǎo)RNA的重組Cas9蛋白,在進(jìn)行短期和長(zhǎng)期測(cè)序文庫(kù)準(zhǔn)備之前,可以在體外耗盡全長(zhǎng)的血紅蛋白轉(zhuǎn)錄本。基于此使用本研究的牛津納米孔技術(shù)(ONT)為基礎(chǔ)的R2C2長(zhǎng)讀長(zhǎng)測(cè)序和基于Illumina短讀長(zhǎng)的Smart-seq2方法并行測(cè)序耗盡的全長(zhǎng)cDNA。為了展示這一點(diǎn),本研究應(yīng)用本研究的方法從三只北極熊(Ursusmaritimus)的全血樣本中創(chuàng)建了一個(gè)同型水平的轉(zhuǎn)錄組。使用Long-DASH,本研究成功地消耗了血紅蛋白轉(zhuǎn)錄體,并產(chǎn)生了深度的Smart-seq2Illumina數(shù)據(jù)集和380萬(wàn)個(gè)R2C2全長(zhǎng)cDNAReads。應(yīng)用Long-DASH和本研究的異構(gòu)體識(shí)別系統(tǒng),本研究發(fā)現(xiàn)有大約6,000個(gè)高可信度的異構(gòu)體和一些新的基因。這表明北海熊的基因亞型具有較高的多樣性,目前尚未見(jiàn)報(bào)道。這種重復(fù)性和直接的方法不僅改進(jìn)了北極熊的轉(zhuǎn)錄組注釋,而且將作為未來(lái)研究北極圈19個(gè)北極熊亞種群內(nèi)轉(zhuǎn)錄動(dòng)力學(xué)的基礎(chǔ)。
3只北極熊全血樣本(PB3,PB19,PB21)
去除血紅蛋白轉(zhuǎn)錄本樣本(Crispr/cas9方法);未去除血紅蛋白轉(zhuǎn)錄本樣本。
nanopore測(cè)序,illumina測(cè)序
1.基于Long-DASH方法從全長(zhǎng)cDNA中消化血紅蛋白轉(zhuǎn)錄本
采用改進(jìn)的Smart-seq2方法逆轉(zhuǎn)錄和擴(kuò)增3只北極熊(PB3,PB19,PB21)70ng全血RNA的全長(zhǎng)cDNA。然后,本研究對(duì)血紅蛋白轉(zhuǎn)錄本進(jìn)行了靶向性的耗竭,方法是針對(duì)HBA轉(zhuǎn)錄本和針對(duì)HBB轉(zhuǎn)錄本的8個(gè)sgRNAs將cas9蛋白與血紅蛋白轉(zhuǎn)錄本-8sgrn特異的16種導(dǎo)向RNA(SgRNAs)共同孵育成全長(zhǎng)的cDNA。
在2%瓊脂糖凝膠上觀察到已去除或未去除的血紅蛋白轉(zhuǎn)錄本cDNA。實(shí)際上,在任何損耗之前,本研究在瓊脂糖凝膠中觀察到位于700-800bp的非常強(qiáng)的條帶,這表明存在大量的HBA和HBB血紅蛋白轉(zhuǎn)錄本(圖2)。經(jīng)過(guò)耗盡,再擴(kuò)增和大小選擇,全長(zhǎng)cDNA產(chǎn)物再次可視化顯示假定的血紅蛋白條帶的去除(圖2)。在確認(rèn)血紅蛋白耗盡之后,這個(gè)cDNA就可以轉(zhuǎn)換成基于ONT和illumina的文庫(kù),每個(gè)方案都使用相同的cDNA。
2.Long-dash與Smart-seq2文庫(kù)制備相容,且不改變cDNA組成
接下來(lái),本研究的目標(biāo)是驗(yàn)證Long-DASH是否真正消耗了cDNA池中的血紅蛋白轉(zhuǎn)錄本,并用Illumina公司的短讀RNA-seq測(cè)序平臺(tái)驗(yàn)證。為了說(shuō)明這一點(diǎn),本研究為每個(gè)去除的和未去除cDNA樣本混池準(zhǔn)備了獨(dú)立的基于Tn5的Smart-seq2文庫(kù)。然后,本研究在一個(gè)復(fù)合IlluminaHiSeqx2x151bp運(yùn)行測(cè)序Smart-seq2。去除血紅蛋白轉(zhuǎn)錄組本樣本產(chǎn)生了大約2000萬(wàn)reads,未去除的樣本產(chǎn)生了大約6000萬(wàn)reads。通過(guò)未去除樣本進(jìn)行高深度測(cè)序,本研究推斷,在去除樣本和未去除樣本中,非血紅蛋白基因獲得同等的讀取覆蓋率。這使本研究能夠?qū)θコ龢颖竞臀慈コ龢悠愤M(jìn)行并排比較,以確保沒(méi)有偏離目標(biāo)的影響。
首先,本研究使用基于kmer的方法分析測(cè)序結(jié)果數(shù)據(jù),以估計(jì)來(lái)自血紅蛋白轉(zhuǎn)錄本的讀數(shù)。在未耗盡的cDNA池中,48-68%的reads被評(píng)分為起源于血紅蛋白轉(zhuǎn)錄本。在耗盡的樣品中,這種讀數(shù)減少到1-4%(圖3A)。
其次,為了證明血紅蛋白轉(zhuǎn)錄本的減少并沒(méi)有改變cDNA池的其余部分,本研究將reads與北極熊的基因組對(duì)齊,并量化了所有之前注釋過(guò)的基因的表達(dá)?;虮磉_(dá)量化表明,整體基因表達(dá)模式之間沒(méi)有明顯扭曲消耗和未消耗的樣本。比較去除樣本和未去除樣本的基因表達(dá)值,剔除與血紅蛋白基因位點(diǎn)一致的讀數(shù),三個(gè)北極熊樣本的Pearsonr值為0.97-0.98(圖3B)。如果在分析中包括與血紅蛋白位點(diǎn)對(duì)齊的讀數(shù),那么在未去除的樣本中與少數(shù)血紅蛋白位點(diǎn)對(duì)齊的大量讀數(shù)會(huì)扭曲RPM計(jì)算并改變整體相關(guān)性(圖3C)??偟膩?lái)說(shuō),這表明去除全長(zhǎng)cDNA北京百邁客生物科技有限公司的血紅蛋白是成功的,從而釋放了絕大多數(shù)的測(cè)序讀數(shù)來(lái)分析北極熊的其余轉(zhuǎn)錄組。
3.Long-DASH與全長(zhǎng)cDNA測(cè)序方法兼容
在建立了Long-DASH與短讀RNA-seq測(cè)定的相容性之后,本研究研究了是否可以用本研究的R2C2方法從缺失的cDNA產(chǎn)生一個(gè)長(zhǎng)reads數(shù)據(jù)集。通過(guò)合并R2C2,本研究可以使用基于ONT長(zhǎng)reads序列進(jìn)行自我糾正,產(chǎn)生高準(zhǔn)確率的全長(zhǎng)cDNA讀取。
從一只北極熊身上獲得了大約5,000個(gè)R2C2一致讀取的未耗盡cDNA片段,這使本研究能夠比較耗盡和未耗盡樣本之間的血紅蛋白含量和一致讀長(zhǎng)度分布(圖4)。在未耗盡的樣本中,大多數(shù)R2C2讀數(shù)是兩個(gè)不同長(zhǎng)度的,都在700bp左右,很可能代表了該樣本中血紅蛋白轉(zhuǎn)錄本的79.3%。5個(gè)缺失樣本的讀長(zhǎng)度分布更均勻,中位血紅蛋白含量為1.2%(0.6%-8.3%)(圖4)。R2c2的血紅蛋白水平高于Smart-seq2基因文庫(kù)使用相同的cDNA(1-4%),這可能與R2C2偏向于500-1000bp之間的轉(zhuǎn)錄本有關(guān)。去除血紅蛋白轉(zhuǎn)錄本樣品的中位讀長(zhǎng)度略低于1kb,與迄今公布的cDNA讀長(zhǎng)度分布一致。這意味著,盡管由于現(xiàn)場(chǎng)條件的困難和樣品采集與處理之間的滯后時(shí)間,RNA完整性的條件并不理想,但分析的RNA分子基本上是完整的。
4.去除血紅蛋白樣本的全長(zhǎng)cDNA的R2C2序列可以提煉轉(zhuǎn)錄組注釋
接下來(lái),本研究從本研究的全長(zhǎng)cDNA中生成了高度可信的信息,以完善當(dāng)前可用的北極熊轉(zhuǎn)錄組注釋。為此,本研究使用之前開(kāi)發(fā)的Mandalorion管道分析了380萬(wàn)個(gè)R2C2一致讀數(shù)。本研究使用minimap2將R2C2基因片段與北極熊基因組序列比對(duì)。這些排列,連同先前已知的個(gè)別剪接位點(diǎn),然后作為輸入文件到本研究的Mandalorion管道,讀取高可信度的異構(gòu)體。然后,本研究使用Squanti算法(33)對(duì)這5831個(gè)高可信剪接異構(gòu)體進(jìn)行分類,該算法確定了實(shí)驗(yàn)確定的異構(gòu)體與參考注釋中的基因和異構(gòu)體之間的關(guān)系(圖5)
5831個(gè)亞型中的1239個(gè)異構(gòu)體被Mandalorion鑒定為新穎非編目”(NNC),這意味著它們與一個(gè)已知基因重疊,但至少包含一個(gè)未注釋的剪接位點(diǎn)。對(duì)這個(gè)NNC小組的深入分析發(fā)現(xiàn),它們總共包含521個(gè)新外顯子。1301個(gè)亞型被歸類為”目錄中的小說(shuō)”(novelincatalog,NIC),這意味著它們與一個(gè)已知基因重疊,只使用帶注釋的剪接位點(diǎn),但至少有一次作為以前未注釋的剪接位點(diǎn)的一部分。本研究總共觀察到2540(1239NNC和1301NIC)具有未注釋外顯子構(gòu)型的新異構(gòu)體??偟膩?lái)說(shuō),這個(gè)分析極大地提高了本研究對(duì)全血北極熊轉(zhuǎn)錄組的同型水平的知識(shí)(圖5)。為了使這些知識(shí)能夠直接用于未來(lái)的分析,本研究生成了一個(gè)包含了與r2c2/mandalorion異構(gòu)體合并的RefSeqmRNA條目的gtf注釋文件。
這些新的等形式和等形式特征如何改進(jìn)了現(xiàn)有的注釋可以在下面的三個(gè)例子中清楚地看到。在RBX1基因中,本研究發(fā)現(xiàn)了10個(gè)包含多個(gè)TSSs和polyA位點(diǎn)的新亞型,其中一些與新的末端第一外顯子或末端外顯子有關(guān)(圖6A)。在GMFG基因中,本研究同樣發(fā)現(xiàn)了包含未注釋的內(nèi)部外顯子和末端外顯子、內(nèi)含子保留事件、TSSs和polyA位點(diǎn)的新異構(gòu)體(圖6B)。最后,本研究發(fā)現(xiàn)了一個(gè)新的基因位點(diǎn),該位點(diǎn)包含兩個(gè)亞型,在北極熊RefSeq信使核糖核酸集中完全缺失。然而,將這兩種異構(gòu)體與熊貓基因組(35)對(duì)齊導(dǎo)致了與CCDC72基因的獨(dú)特匹配(圖6C)。
為了更好地理解人類和環(huán)境的擾動(dòng)如何影響受威脅或?yàn)l危物種,了解轉(zhuǎn)錄組動(dòng)態(tài)的變化是至關(guān)重要的。分子水平和細(xì)胞水平的波動(dòng)是環(huán)境變化的敏感指標(biāo);它們類似于血液轉(zhuǎn)錄組作為確定健康狀況、疾病和暴露于環(huán)境毒物的代理獸醫(yī)學(xué)。轉(zhuǎn)錄組水平的變化也可能是生態(tài)專門化的有用指標(biāo),因此對(duì)設(shè)計(jì)物種管理和保護(hù)的策略也是有用。然而,現(xiàn)有的從全血RNA生成轉(zhuǎn)錄組數(shù)據(jù)的方法要么是專門為短讀測(cè)序(DASH)設(shè)計(jì)的,要么是為人類樣本設(shè)計(jì)的,因此缺乏一種成本效益高的方法來(lái)分析非模式生物的同型轉(zhuǎn)錄組。
使用短序列或長(zhǎng)序列研究全血轉(zhuǎn)錄組的任何研究都將大大受益于長(zhǎng)序列分析法。有效且經(jīng)濟(jì)地從全血全長(zhǎng)cDNA中刪除血紅蛋白轉(zhuǎn)錄本,然后用短序列或長(zhǎng)序列進(jìn)行測(cè)序。本研究通過(guò)消耗北極熊全血cDNA池中的血紅蛋白來(lái)驗(yàn)證北京百邁客生物科技有限公司Long-DASH,并生成了Smart-seq2RNA-seq數(shù)據(jù)和380萬(wàn)個(gè)R2C2全長(zhǎng)cDNA一致讀數(shù)。本研究處理了380萬(wàn)個(gè)完整的R2C2序列,鑒定了近6000個(gè)高可信度的異構(gòu)體,然后用這些異構(gòu)體對(duì)北極熊全血轉(zhuǎn)錄組注釋進(jìn)行了提煉和改進(jìn)。
]]>