中文名: 通過全長轉(zhuǎn)錄組對斑馬魚轉(zhuǎn)錄組進行高分辨率注釋
英文名: High resolution annotation of zebrafish transcriptomeusing long-read sequencing
雜志:Genome Research 2018 09
影響因子:10.101
研究背景
斑馬魚是一種重要的模式生物,已被廣泛用于胚胎發(fā)育等多方面研究。斑馬魚 發(fā)育的第一階段完全由母系提供的 mRNA 和蛋白質(zhì)指導(dǎo),隨著胚胎發(fā)育的進行,發(fā)育由母 源因子控制轉(zhuǎn)為由合子基因產(chǎn)物控制。這一過程中,母源因子逐漸清除,合子基因組激活 (ZGA)并開始轉(zhuǎn)錄。目前通過轉(zhuǎn)錄組 RNA-seq 技術(shù)對早期胚胎發(fā)生過程取得了大量的研究 成果,但是由于短讀長 RNA-seq 技術(shù)的局限性,對斑馬魚轉(zhuǎn)錄組的相關(guān)基因注釋和可變剪切 等的研究有很大的不足。而目前出現(xiàn)的長讀長的三代全長轉(zhuǎn)錄組可以通過直接讀取全長轉(zhuǎn)錄 本的序列克服這些不足,以揭示早期斑馬魚轉(zhuǎn)錄組的其他新穎性和復(fù)雜性,從一個新的角度 對斑馬魚轉(zhuǎn)錄組進行大量擴展研究和驗證。
材料方法
1、實驗材料:選擇斑馬魚受精卵,通過形態(tài)學(xué)標(biāo)準(zhǔn)進行分期,鑒定胚胎前期(256 細 胞期)和后 ZGA 期(6hpf)。通過注射 0.2nmol 的 RNA 聚合酶抑制劑α-鵝膏毒素來處理 1 至 4 個細胞的胚胎獲得處理組。
2、轉(zhuǎn)錄組測序:未處理組的胚胎選取胚胎前期和后 ZGA 期胚胎進行轉(zhuǎn)錄組測序,每個 時期 3 個生物學(xué)重復(fù)。
3、全長轉(zhuǎn)錄組測序:選取正常的胚胎和 RNA 聚合酶抑制劑α-鵝膏毒素處理的胚胎進 行三代全長轉(zhuǎn)錄組測序。
研究結(jié)果
1、試驗系統(tǒng)的設(shè)計與全長轉(zhuǎn)錄組數(shù)據(jù)概況
將雜交得到的斑馬魚胚胎通過形態(tài)學(xué)標(biāo)準(zhǔn)進行分期,將經(jīng)過α-amanitin 處理以及未經(jīng)處 理的胚胎分別轉(zhuǎn)錄組和全長轉(zhuǎn)錄組測序。使用 Iso-Seq pipeline 將得到的長片段的全長轉(zhuǎn)錄 組數(shù)據(jù)進行聚類和組裝得到全長轉(zhuǎn)錄本。為評估全長轉(zhuǎn)錄組數(shù)據(jù)將得到的轉(zhuǎn)錄本數(shù)據(jù)庫 通過 GMAP 與斑馬魚參考基因組(GRCz10)數(shù)據(jù)進行比對,發(fā)現(xiàn) 18,777 個轉(zhuǎn)錄本成功比對,僅有 3.6%的數(shù)據(jù)無法比對,而轉(zhuǎn)錄組數(shù)據(jù)中至少 20%的數(shù)據(jù)無法比對。
將全長轉(zhuǎn)錄組得到的轉(zhuǎn)錄本通過 Cuffcompare 軟件進行注釋分析,發(fā)現(xiàn) 4767 個轉(zhuǎn)錄本 (25.4%)與注釋完全匹配;9500 個轉(zhuǎn)錄組(50.6%),可能代表新的轉(zhuǎn)錄本,其中 4205 個 轉(zhuǎn)錄本(22.4%)是新轉(zhuǎn)錄本(NTR),與參考注釋沒有重疊;5295 個轉(zhuǎn)錄本(28.2%)為先 前注釋基因的未發(fā)現(xiàn)轉(zhuǎn)錄本;2778 個轉(zhuǎn)錄本(14.8%)為連續(xù)注釋外顯子集合;1732 個轉(zhuǎn) 錄物(9.2%)被認(rèn)為來源于難以產(chǎn)生轉(zhuǎn)錄本的區(qū)域,暫時不予考慮。
2、新型轉(zhuǎn)錄區(qū)域的鑒定
為了對新發(fā)現(xiàn)的轉(zhuǎn)錄本進行分析,文章將短讀長轉(zhuǎn)錄組中的數(shù)據(jù)比對到加入了全長轉(zhuǎn) 錄組的參考基因組數(shù)據(jù)庫,發(fā)現(xiàn)在未經(jīng)處理和α-amanitin 處理的樣品中通過全長轉(zhuǎn)錄組發(fā) 現(xiàn)的超過 2000 個主要不重疊的新轉(zhuǎn)錄本中分別有 89%和 86%有轉(zhuǎn)錄組數(shù)據(jù)支持。并且發(fā) 現(xiàn),在高表達的基因中,短讀長轉(zhuǎn)錄組數(shù)據(jù)的外顯子比對率從從 68%提高到了到 85%。通 過 CPAT 對新發(fā)現(xiàn)轉(zhuǎn)錄本進行編碼潛能預(yù)測,在 4205 個新型轉(zhuǎn)錄本中,3255 個序列具有高 編碼潛力的,使用 Pfam 的驗證結(jié)果也基本類似。利用這些數(shù)據(jù)我們鑒定到了一個 H2AFX 新 的轉(zhuǎn)錄本僅在處理后的樣本中出現(xiàn),HIST2H2BE 基因的新鑒定到的轉(zhuǎn)錄本僅在未處理的贗本中出現(xiàn)。
3.新轉(zhuǎn)錄本編碼潛能預(yù)測
通過 CPAT 對新發(fā)現(xiàn)轉(zhuǎn)錄本進行編碼潛能預(yù)測,在 4205 個新型轉(zhuǎn)錄本中,3255 個序 列具有高編碼潛力的,使用 Pfam 的驗證結(jié)果也基本類似。利用這些數(shù)據(jù)我們鑒定到了一個 H2AFX 新的轉(zhuǎn)錄本僅在處理后的樣本中出現(xiàn),HIST2H2BE 基因的新鑒定到的轉(zhuǎn)錄本僅在未處 理的贗本中出現(xiàn)。
對于非蛋白質(zhì)編碼的 NTR,通過 Rfam 數(shù)據(jù)庫進行鑒定和注釋,鑒定了 76 個與 Rfam 數(shù) 據(jù)庫相匹配的轉(zhuǎn)錄本,發(fā)現(xiàn)了一個與 Rfam 數(shù)據(jù)庫中的 mir-548 相匹配的轉(zhuǎn)錄本,該轉(zhuǎn)錄本 在α-amanitin 處理的樣本中特異表達,推測它主要存在于母源 RNA 中。
在所有新鑒定到轉(zhuǎn)錄本中,通過合格的篩選和注釋標(biāo)準(zhǔn),總共鑒定到了 2278 個新的具 有蛋白質(zhì)編碼能力的轉(zhuǎn)錄本,261 種新的非編碼的轉(zhuǎn)錄本,些新注釋的序列將有助于研究它 們在 ZGA 和早期發(fā)育中的作用。
4.已注釋基因的新轉(zhuǎn)錄本分析
作者接著對全長轉(zhuǎn)錄組對已注釋基因鑒定到的未記錄的轉(zhuǎn)錄本的可變剪切形式的研究。 由于斑馬魚參考基因組對可變剪切的注釋較少,文章使用短讀長的轉(zhuǎn)錄組數(shù)據(jù)對可變剪切位 點進行驗證。作者使用 STAR 軟件分析轉(zhuǎn)錄組數(shù)據(jù),預(yù)測了 3000 個可變剪切位點,其中 99% 可以與全長轉(zhuǎn)錄本數(shù)據(jù)吻合。剪接位點的這種近乎完美的一致性支持證明了全長轉(zhuǎn)錄組鑒定 的外顯子 – 內(nèi)含子邊界的準(zhǔn)確性,并強烈支持新檢測到的可變剪接形式的有效性。通過全 長轉(zhuǎn)錄組共發(fā)現(xiàn)了 2000 種新型可變剪切類型,其中已注釋基因的新型可變剪切共 1835 中, 平均每個基因的可變剪切類型提升 50%。
5.新轉(zhuǎn)錄本的功能鑒定
通過全長轉(zhuǎn)錄組鑒定到的大量新轉(zhuǎn)錄本中包括了一種重要 miRNA- miR-430,mir-430 可能是第一個表達的合子基因,它通過對所有母源轉(zhuǎn)錄基因進行的特異性沉默和降解將合子 基因的啟動和母體程序的消除連接起來。在以前的研究中,對其功能研究較多,而對于 miR-430 的來源研究較少。作者鑒定到了一個新的跨越 9kb 基因組序列的四外顯子轉(zhuǎn)錄本, 該轉(zhuǎn)錄本重疊 22 個 mir-430 重復(fù)序列,被稱為“mega-mir-430”。 在α-amanitin 處理中沒 有檢測到 mega-mir-430,并通過 qPCR 進行了驗證,推斷它來源于合子基因組。從每個 mega-mir-430 轉(zhuǎn)錄本產(chǎn)生多個 mir-430 的拷貝,這個發(fā)現(xiàn)解釋了合子基因激活時 mir-430 高表達的原因。
小結(jié)
作者通過全長轉(zhuǎn)錄組對斑馬魚的轉(zhuǎn)錄信息進行了更加全面和深入的分析,利用三代全 長轉(zhuǎn)錄組和二代轉(zhuǎn)錄組大大提高了斑馬魚轉(zhuǎn)錄組注釋的分辨率,同時為分析基因復(fù)雜的可變 剪切形式提供了有力的研究工具,證明了全長轉(zhuǎn)錄組對于斑馬魚合子基因激活的研究的具有 重要推動作用。