1、材料和方法
材料:3只新西蘭母兔,分別取21日齡、49日齡、84日齡,7個不同部位的組織器官(腦、心臟、肺、肝、脾、腸竇、后腿骨骼?。?,共21個樣本,分別提取RNA,等量RNA混合為單個樣品,分別進行二代和三代測序。
測序策略:
二代測序:Illumina平臺、PE150測序;
三代測序:構建0–1, 1–2, 2–3, 3–6 和5–10 kb五個文庫,PacBio RS II平臺測序,共測13個SMRT Cell
方法和思路:“3+2”測序模式,對混合的RNA進行測序,獲得高可信度的轉錄本,完善參考基因組注釋,比較三代全長轉錄組測序和二代轉錄組測序在旁系同源基因的還原上的優(yōu)勢,由此說明通過PacBio鑒定得到的轉錄本能夠更好的注釋基因以及還原基因結構。
2、結果與分析
2.1三代測序和糾錯
共獲得802,358個ROIs序列,其中有1.466,034全長非嵌合(FL)序列和316,000非全長(nFL)序列。
同時,二代測序獲得~120百萬clean reads,這些序列用來對三代的測序結果進行校正,顯示總共135,178個序列(86.2%)被二代測序數(shù)據校正,錯誤片段的長度比例相對較低(中位數(shù)8%)。
Figure 1.ROIs的分類和糾錯
2.2 可變剪接和聚腺苷酸化
PacBio鑒定到多達24,797個AS事件,并對這些可變剪接進行分類統(tǒng)計(Table 1),在兔的參考基因組中僅發(fā)現(xiàn)2,398個AS事件,將數(shù)據合并后共得到34,173個AS事件,且可變剪接事件包含不同的4中類型,另外,鑒定到11,184個APA事件。挑選5個基因,并用圖表示出不同的isoform比對到參考基因模型上(Figure 2)。
Table 1.可變剪接事件分析(IR:內含子保留;ES:外顯子跳躍;Alt.5’:可變的5’端;Alt.3’:可變的)
Figure 2. 三代測得轉錄本的不同isoforms,在數(shù)據庫中的參考基因模型如圖示中被標記有染色體位置、基因ID和基因名稱
2.3 與已知參考基因比對分析
通過對PacBio鑒定到的轉錄本的分析發(fā)現(xiàn),有3,334個基因位點包含了3,637個轉錄本在參考基因中沒有注釋,并且有12,112個轉錄本被注釋到參考基因的內含子上,這些新發(fā)現(xiàn)的轉錄本大部分長度為1000~2000bp。
2.4 非編碼RNA分類
通過比對到參考蛋白數(shù)據庫,有30,183個轉錄本可編碼蛋白、6,003個轉錄本不能編碼蛋白,并且這些非編碼的轉錄本外顯子少、表達量低、且外顯子與內含子在長度上的比值相較于可編碼蛋白的轉錄本略高(Figure 3)。對轉錄本進行分類(Table 2)。
對非編碼轉錄本基因進行分類,1,794個為基因間區(qū)、3,558個基因定位于可編碼轉錄本。
Figure 3.可編碼和非編碼轉錄本比較
Table 2. 分類非編碼轉錄本(U:上游;D:下游;E:外顯子;I:內含子)
2.5 旁系同源基因分析
選擇10個主要組織相容性復合體(MHC)旁系同源基因,這些基因都被注釋在1.2-Mbp的12號染色體上(Figure 4)。結果顯示除了HLA-A之外,與參考基因組注釋相比,PacBio轉錄本的所有基因結構都得到很好得恢復。 此外,PacBio數(shù)據還支持很多尚未注釋的轉錄本。所有的這些同源基因由于其轉錄本序列非常相似,很難通過二代組裝的方式都還原,而三代測序方式能夠很好地鑒定出旁系同源基因。
Figure 4.基因通過PacBio所測轉錄本和組裝得到的轉錄本還原10個MHC基因。染色體定位、命名和每個基因的Ensembl編號(在左側)。
如圖所示:從上到下排列依次為,Ensembl中的參考轉錄本(黑色),外顯子-內含子結構通過一個個方框分開;PacBio transcripts(紅色);Cufflinks(綠色)和Trinity(褐色)為組裝的轉錄本。
3、總結
二代測序由于短read組裝的困難,獲得全長轉錄本仍然是一個巨大的挑戰(zhàn)。在本研究中采用PacBio單分子長讀長測序技術,用于繪制兔的轉錄本圖譜。結果提供了一整套全面的轉錄本參考數(shù)據集,從而有助于改進兔基因組的注釋。
參考文獻
Chen S Y, Deng F, Jia X, et al. A transcriptome atlas of rabbit revealed by PacBio single-molecule long-read sequencing[J]. Scientific Reports, 2017, 7(1):7648.
]]>