中文字幕一区二区无码一区,嫩BBB搡BBB搡BBB四川

利用第三代納米孔長讀段測序技術(shù)構(gòu)建和注釋蜜蜂球囊菌的全長轉(zhuǎn)錄組

Biomarker — Fri, 17 Mar 2023 12:58:48 +0000

文章名稱：Construction and Annotation of Ascosphaera apis Full-Length Transcriptome Utilizing Nanopore Third-Generation Long-Read Sequencing Technology

發(fā)表期刊：中國農(nóng)業(yè)科學(xué)

發(fā)表時間：2020年11月

影響因子：2.302

研究背景

蜜蜂球囊菌（Ascosphaeraapis，簡稱球囊菌）是專性侵染蜜蜂幼蟲的致死性真菌病原，引發(fā)的白堊病是長期危害養(yǎng)蜂生產(chǎn)的頑疾，不僅可導(dǎo)致蜜蜂幼蟲的大量死亡，還能導(dǎo)致成年蜜蜂數(shù)量的銳減以及蜂群群勢和蜂產(chǎn)品產(chǎn)量的驟降。目前，球囊菌的基因組注釋信息尚不完善，高質(zhì)量參考轉(zhuǎn)錄組匱乏，嚴(yán)重限制了球囊菌的組學(xué)和分子生物學(xué)研究。

材料和方法

球囊菌菌株由福建農(nóng)林大學(xué)動物科學(xué)學(xué)院（蜂學(xué)學(xué)院）蜜蜂保護(hù)實驗室分離、純化和保存。純化得到的純凈菌絲樣品和孢子樣品經(jīng)液氮速凍后迅速轉(zhuǎn)移到-80℃超低溫冰箱保存?zhèn)溆?。利用納米孔長讀段測序技術(shù)對球囊菌的純化菌絲（Aam）和純化孢子（Aas）分別進(jìn)行測序，將高質(zhì)量的三代測序數(shù)據(jù)混合后用于構(gòu)建全長轉(zhuǎn)錄組，并通過比對主流數(shù)據(jù)庫進(jìn)行功能注釋，同時對球囊菌的長鏈非編碼RNA（longnon-codingRNA，lncRNA）進(jìn)行鑒定和分析。

結(jié)果

1、納米孔測序數(shù)據(jù)質(zhì)控

球囊菌菌絲和孢子的納米孔測序分別得到6321704和6259727條原始讀段，N50分別達(dá)到1094和1157bp，平均長度分別為992和1047bp，長的長度分別為9421和13060bp（表1）。來源于Aam和Aas的原始讀段的長度分布介于1-10kb以上，其中分布reads數(shù)多的長度均為1kb（圖1-A、1-B）；原始讀段的Q值分布介于Q6-Q15，分布reads數(shù)多的質(zhì)量值分別為Q9和Q11（圖1-C、1-D）。

圖1球囊菌菌絲和孢子納米孔長讀段測序的原始讀段長度和質(zhì)量值分布Fig.1Lengthandqualitydistributionofrawreadsgeneratedfromnanoporelong-readsequencingofA.apismyceliumandspore

2、全長轉(zhuǎn)錄本的鑒定和分析

進(jìn)一步過濾冗余全長有效讀段，分別得到9859和16795條非冗余全長轉(zhuǎn)錄本，N50分別達(dá)到1482和1658bp，平均長度分別達(dá)到1187和1303bp，長的長度分別為6472和6815bp（表2）；上述非冗余全長轉(zhuǎn)錄本的長度介于1-7kb，其中分布在1kb的全長轉(zhuǎn)錄本數(shù)多。進(jìn)一步對Aam和Aas的非冗余全長轉(zhuǎn)錄本進(jìn)行Venn分析，結(jié)果顯示有6512個非冗余全長轉(zhuǎn)錄本為菌絲和孢子所共有，分別有3347和10283個非冗余全長轉(zhuǎn)錄本為二者特有（圖2-A）。

圖2球囊菌菌絲和孢子全長轉(zhuǎn)錄本的Venn分析(A)、全長轉(zhuǎn)錄本的Nr數(shù)據(jù)庫注釋（B）Fig.2Vennanalysisoffull-lengthtranscriptsinA.apismyceliumandspore(A)、Nrdatabaseannotationoffull-lengthtranscripts(B)

3、全長轉(zhuǎn)錄本的數(shù)據(jù)庫注釋

在球囊菌菌絲和孢子中共鑒定出20142條全長轉(zhuǎn)錄本，數(shù)據(jù)庫注釋結(jié)果顯示，分別有20809、11151、17723、12164、11340和9833全長轉(zhuǎn)錄本可注釋到Nr、KOG、eggNOG、Pfam、GO和KEGG數(shù)據(jù)庫。注釋全長轉(zhuǎn)錄本數(shù)量多的物種是球囊菌、Polytolypahystricis和莢膜組織胞漿菌（Histoplasmacapsulatum）（圖2-B）

4、lncRNA的鑒定及分析

利用CPC、CPAT、CNCI和Pfam4種方法依次鑒定出1906、1682、750和648條lncRNA，四者的交集為648個（圖3-A）；其中基因間區(qū)lncRNA（longintergenicRNA，lincRNA）、反義鏈lncRNA（anti-senselncRNA）和正義鏈lncRNA（senselncRNA）的數(shù)量分別為480、119和49個（圖3-B）。

圖 3 球囊菌 lncRNA 的數(shù)量（A）和種類（B） Fig. 3 Number (A) and type (B) of A. apis lncRNAs

總結(jié)

構(gòu)建和注釋了球囊菌的高質(zhì)量全長轉(zhuǎn)錄組，為探究球囊菌轉(zhuǎn)錄組的復(fù)雜性、完善參考基因組的序列和功能注釋信息以及深入開展球囊菌可變剪接體的功能研究提供了關(guān)鍵依據(jù)。

深度挖掘數(shù)據(jù)和拓展

同期作者利用納米孔全長轉(zhuǎn)錄組測序數(shù)據(jù)對蜜蜂球囊菌（Ascosphaeraapis）和另一蜜蜂真菌病原東方蜜蜂微孢子蟲（Nosemaceranae）的現(xiàn)有參考基因組在結(jié)構(gòu)功能注釋上進(jìn)行了較好的完善，同時也對基因的可變剪接（alternativesplicing，AS）和可變多聚腺苷酸化（alternativepolyadenylation，APA）進(jìn)行解析。通過gffcompare軟件將全長轉(zhuǎn)錄本與參考基因組注釋的轉(zhuǎn)錄本進(jìn)行比較，對基因組注釋基因的非編碼區(qū)向上游或下游延伸，修正基因的邊界。利用MISA軟件鑒定長度在500bp以上的全長轉(zhuǎn)錄本的簡單重復(fù)序列（simplesequencerepeat，SSR）位點信息。使用Blast工具將鑒定到的新基因和新轉(zhuǎn)錄本比對Nr、KOG、eggNOG、GO和KEGG數(shù)據(jù)庫，從而獲得功能注釋。通過Astalavista軟件鑒定基因的AS事件類型，統(tǒng)計分析可變剪切的結(jié)果。采用TAPISpipeline對基因的APA位點進(jìn)行鑒定，得到APA的位點信息。分別利用CPC、CNCI、CPAT、Pfam4種方法對長鏈非編碼RNA（longnon-codingRNA，lncRNA）進(jìn)行預(yù)測，取四者的交集作為高可信度的lncRNA。研究結(jié)果較好地優(yōu)化了現(xiàn)有的東方蜜蜂微孢子蟲和蜜蜂球囊菌參考基因組已注釋基因的結(jié)構(gòu)和功能注釋信息，并補(bǔ)充和注釋了大量參考基因組未注釋的新基因和新轉(zhuǎn)錄本，同時也為其他真菌的AS和APA研究提供了有益的思路和方法借鑒。

ONT全長轉(zhuǎn)錄組測序揭示了精神疾病風(fēng)險基因CACNA1C的復(fù)雜剪接特征

Biomarker — Wed, 22 Jul 2020 06:24:59 +0000

英文題目：Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain

發(fā)表雜志：Mol. Psychiatry，2020年1月

影響因子：11.973

研究背景

在人腦中，與精神分裂癥相關(guān)的基因組區(qū)域富集了在神經(jīng)發(fā)育過程中表現(xiàn)出不同異構(gòu)體使用的基因，RNA剪接是將遺傳變異與精神疾病聯(lián)系起來的關(guān)鍵機(jī)制。剪接圖譜在大腦中特別多樣，很難準(zhǔn)確識別和量化。短讀長RNA-Seq方法不能準(zhǔn)確地重建和定量大多數(shù)轉(zhuǎn)錄物和蛋白質(zhì)異構(gòu)體，為解決這一挑戰(zhàn)，本文將long-range PCR和nanopore全長轉(zhuǎn)錄組測序與一種新的生信分析流程結(jié)合。

CACNA1C是一種精神危險基因，編碼電壓門控鈣通道CaV1.2，CACNA1C基因很大而且很復(fù)雜，至少有50個注釋外顯子和31個預(yù)測的轉(zhuǎn)錄本。它的大小和復(fù)雜性使得用標(biāo)準(zhǔn)的基因表達(dá)方法準(zhǔn)確鑒定和量化轉(zhuǎn)錄本變得極其困難，本文在人腦中鑒定了CACNA1C的全長編碼轉(zhuǎn)錄本，識別了38個新的外顯子和241個新的轉(zhuǎn)錄本，對異構(gòu)體多樣性的詳細(xì)了解對于將精神病學(xué)基因組發(fā)現(xiàn)轉(zhuǎn)化為病理生理學(xué)見解和新的精神藥理靶點至關(guān)重要。

研究方法

樣本：來自利伯腦發(fā)育研究所儲存庫的三名成年捐贈者的尸檢腦組織（提取小腦、紋狀體、背外側(cè)前額葉皮質(zhì)、扣帶回、枕葉和頂葉皮質(zhì)的RNA，并進(jìn)行逆轉(zhuǎn)錄）
測序方法：使用PCR擴(kuò)增CACNA1C全長CDS，使用MinION進(jìn)行測序
分析流程：https：//github.com/twrze/TAQLoRe

研究結(jié)果

1、CACNA1C有很多外顯子和異構(gòu)體

由于CACNA1C的復(fù)雜性，本文使用了兩種互補(bǔ)的方法來鑒定轉(zhuǎn)錄本：外顯子水平和剪接位點水平的分析，分析流程見補(bǔ)充圖2。該方法共鑒定了251種存在于人腦中獨特的CACNA1C轉(zhuǎn)錄異構(gòu)體，其中241種是新的，包括使用新的外顯子，新的剪接位點和連接。

補(bǔ)充圖2

在CACNA1C基因座內(nèi)總共注釋了39個潛在的新外顯子，其中38個在至少2個人或組織中被識別，并在每個文庫中得到至少5條nanopore reads的支持（圖2A）。通過PCR和Sanger測序確認(rèn)了新的外顯子與其周圍的注釋外顯子之間的剪接連接，從而驗證了四個新的外顯子。這種新的外顯子的成功驗證提供了很高的可信度，即通過納米孔測序鑒定的新的外顯子是真實的，并且被整合到CACNA1C轉(zhuǎn)錄本中。表達(dá)量最高的10條轉(zhuǎn)錄本中，有9條是新的且其中有8條被預(yù)測保持CACNA1C閱讀框架，這表明這些最豐富的新轉(zhuǎn)錄本中有一些編碼功能不同的蛋白質(zhì)異構(gòu)體（圖2B,C）。這些結(jié)果表明，新的CACNA1C轉(zhuǎn)錄本表達(dá)豐富，數(shù)量也很多，目前的注釋缺少許多最豐富的CACNA1C轉(zhuǎn)錄本。

圖2

通過設(shè)置轉(zhuǎn)錄本的高置信度，在6個大腦區(qū)域確定了90個高可信的CACNA1C轉(zhuǎn)錄本，包括7個先前注釋的(GENCODE V27)和83個新的(補(bǔ)充圖3)。7個新的高置信度轉(zhuǎn)錄本包含新的外顯子，而其余76個包含以前未描述的連接和連接組合。

補(bǔ)充圖3

上述外顯子水平的轉(zhuǎn)錄本鑒定方法為鑒定新的外顯子和表征全長轉(zhuǎn)錄本結(jié)構(gòu)提供了穩(wěn)健和保守的手段。使用了更為保守的依賴于連接處無錯誤映射所支持的連接的識別，以及規(guī)范剪接位點的方法，確定了497個新的剪接位點，其中393個由至少10條reads支持，這些剪接位點，在篩選了至少24條reads支持的轉(zhuǎn)錄本后，鑒定了195個轉(zhuǎn)錄本，其中111個被預(yù)測為編碼的。

2、CACNA1C亞型在不同腦區(qū)的表達(dá)譜不同

小腦、紋狀體與皮質(zhì)等組織觀察到了CACNA1C轉(zhuǎn)錄本差異，但在不同個體之間的表達(dá)是相似的。在小腦中觀察到了明顯的轉(zhuǎn)錄本表達(dá)轉(zhuǎn)換；在小腦之外，ENST00000399641是主要的轉(zhuǎn)錄本，而在小腦中，ENST00000399641和CACNA1C n2199的表達(dá)水平相似。

圖3 C

3、預(yù)測新isoforms對CaV1.2蛋白模型的影響

CACNA1C編碼CaV1.2 的主要成孔亞基。鈣孔由24個跨膜重復(fù)序列組成，由細(xì)胞內(nèi)環(huán)連接成4個結(jié)構(gòu)域(I-IV)(圖4A)。在我們鑒定的83個新的外顯子水平的轉(zhuǎn)錄本中，51個可能編碼功能性的CaV1.2通道。灰色方框表示新的、框架內(nèi)的插入和刪除的位置（值表示包含每個isoforms的reads的平均比例）。使用兩種分析方法（外顯子水平和剪切連接水平）鑒定變體的情況，外顯子水平計數(shù)用于得出豐度(紅色文本)；僅使用剪接位點水平方法鑒定的變體用藍(lán)色文本表示。包含三個微缺失的蛋白質(zhì)異構(gòu)體的數(shù)量：(I)在I-II接頭中，(Ii)在IV4-5接頭中，以及(Iii)在IV3-4接頭中先前報道的微缺失(圖4B)。

圖4

總結(jié)

長讀長測序技術(shù)的快速發(fā)展為準(zhǔn)確獲得轉(zhuǎn)錄多樣性提供了可能，因為每一條read都包含一個完整的轉(zhuǎn)錄本。這對于具有復(fù)雜模型的基因尤其重要。由于CACNA1C剪接產(chǎn)生的CaV1.2蛋白對現(xiàn)有的鈣通道阻滯劑表現(xiàn)出不同的敏感性，因此有可能選擇性地針對疾病相關(guān)的CACNA1C亞型和/或那些在大腦與外周差異表達(dá)的CACNA1C亞型，提供既更有效又更無外周副作用的新型精神藥物。綜上，這些觀察結(jié)果證明了ONT長讀長測序?qū)τ跍?zhǔn)確描述轉(zhuǎn)錄本結(jié)構(gòu)和選擇性剪接的重要性。

參考文獻(xiàn)：
Clark Michael B,Wrzesinski Tomasz,Garcia Aintzane B et al. Long-read sequencing reveals the complex splicing profile of the psychiatric risk gene CACNA1C in human brain.[J] .Mol. Psychiatry, 2020, 25: 37-47.

Nanopore測序數(shù)據(jù)展示|基因組

Biomarker — Fri, 10 May 2019 10:44:33 +0000

三代測序儀以其超長讀長的優(yōu)勢，在基因組組裝中備受青睞，目前廣泛應(yīng)用的是PacBio三代單分子熒光測序和Nanopore三代單分子納米孔測序，因Nanopore測序讀長更長且通量高的特點，近幾年在基因組組裝應(yīng)用中嶄露頭角，先后在Nature Biotechnology上發(fā)表了人的基因組、Plant cell上發(fā)表了野生番茄基因組、Nature Genetics上發(fā)表了高粱基因組等等，測序技術(shù)已相當(dāng)成熟。

百邁客自2017年3月開啟ONT平臺研發(fā)立項，2018年8月又引進(jìn)2臺高通量測序儀PromethION。截至目前，百邁客已經(jīng)構(gòu)建將近200個物種的文庫，組裝近百個物種，從測序到分析已經(jīng)擁有相當(dāng)豐富的經(jīng)驗。今天小編拿到了新鮮出爐的數(shù)據(jù)結(jié)果，忍不住和大家一起分享~~

ONT測序結(jié)果展示

作物類（部分）

林木類（部分）

動物（部分）

水產(chǎn)（部分）

中藥材（部分）

注：Species：分析的物種信息；SeqNum：各個長度范圍內(nèi)序列的數(shù)目；SumBase：指各個長度范圍內(nèi)序列的總長度；N50Len：reads N50長度；N90Len：readsN90長度；MeanLen：平均reads長度；MaxLen：最長reads長度；MeanQual：質(zhì)量值。

以上是總結(jié)的部分作物類、林木類、動物、水產(chǎn)和中藥材的下機(jī)數(shù)據(jù)結(jié)果展示，從以上的數(shù)據(jù)不難看出，平均raeds長度幾乎均在20Kb以上，最長reads高達(dá)1.6Mb以上（不同樣品DNA抽提難易程度不同，會造成一定的影響）。

基因組組裝結(jié)果展示

上表中最后一列MeanQual就是下機(jī)數(shù)據(jù)的質(zhì)量值，與堿基準(zhǔn)確度的換算公式為：準(zhǔn)確度 = 1-10^(-Q/10)，經(jīng)計算? Nanopore下機(jī)數(shù)據(jù)單堿基的平均準(zhǔn)確率約為86%左右，這樣經(jīng)過校正的數(shù)據(jù)再用Canu、SMARTdenovo、WTDBG等軟件進(jìn)行基因組的組裝，再經(jīng)過二代數(shù)據(jù)的polish之后，堿基的準(zhǔn)確度可達(dá)到99.99%以上呢！

廢話少說，直接上組裝結(jié)果！

植物（部分）

動物（部分）

注：Species：分析的物種信息；CtgNum：contig數(shù)目；CtgLen：contig總長度；CtgN50：contigN50長度；CtgN90：contigN90長度；CtgMax：最長contig長度；GC(%)：GC含量占比。

從上表中的組裝結(jié)果展示，ContigN50平均達(dá)到了Mb級別（測序深度對Contig深度也是有一定影響的）Contig N50最長高達(dá)26.9Mb。組裝連續(xù)性還不錯，但是基因完整性怎樣呢？不妨再看一下評估結(jié)果吧~組裝評估結(jié)果

BUSCO評估結(jié)果（部分物種）

注：物種：分析的物種信息；Complete BUSCOs：找到完整基因數(shù)；Complete and single-copy BUSCOs：其中單拷貝基因數(shù)；Complete and duplicated BUSCOs：多拷貝基因數(shù)；Fragmented BUSCOs：預(yù)測不完整基因數(shù)；Missing BUSCOs：沒有預(yù)測出來的基因數(shù)。

評估結(jié)果顯示基因完整度均在90%以上??！說明Nanopore數(shù)據(jù)的組裝連續(xù)性和完整性都是非常好的，是值得廣大科研工作者信賴的哦！

百邁客ONT平臺發(fā)展歷程

百邁客在Nanopore測序方面已經(jīng)積累了大量的經(jīng)驗，也是中國大陸一家全部通過PromthION/GridION平臺及DNA/RNA樣本官方認(rèn)證的公司！若您對Nanopore測序感興趣，可隨時與我們聯(lián)系，我們將為您提供免費的方案，助力您的科研之行！

淺談基因測序

Biomarker — Tue, 16 Apr 2019 10:03:11 +0000

1869年，F(xiàn)riedrich Miescher 發(fā)現(xiàn)和分離出脫氧核糖核苷酸，人類對生命的研究開始向分子方向啟程，自1977年Sanger發(fā)明了雙脫氧鏈終止法一代測序技術(shù)開始，涌現(xiàn)出GS FLX，Solexa，SOLID，PicBio，Oxford Nanopore Technologies（ONT）多種測序平臺，測序技術(shù)發(fā)展至今已有四十多年時間，而每次新興平臺的出現(xiàn)，無不顯現(xiàn)出生物領(lǐng)域人類文明的又一次大的向前邁步，是人類科技奮斗史中的里程碑。而也正是一代代測序技術(shù)的發(fā)展和我們一代代科學(xué)家不斷努力，測序技術(shù)被不斷應(yīng)用于基因組組裝，功能基因定位，進(jìn)化分析，育種以及精準(zhǔn)醫(yī)療等領(lǐng)域，為人類的生活帶來一次次便利的同時也帶來了無限可能。

第一代測序技術(shù)應(yīng)用了Sanger雙脫氧鏈終止法，它的讀長可達(dá)1000bp，準(zhǔn)確率高達(dá)99.999%，但測序前需要對特定區(qū)段進(jìn)行引物設(shè)計且通量低，很難應(yīng)用于組學(xué)方面的研究?；诖颂攸c，涌現(xiàn)出二代測序技術(shù)，它主要的特點為短讀長，高通量。以Illumina?Solexa為例，它采用邊測序邊合成的方法，首先利用超聲波將DNA打斷成200-500bp小片段文庫，加接頭后DNA片段隨機(jī)附著于flowcell表面，經(jīng)過橋式PCR擴(kuò)增形成“DNA簇”，實現(xiàn)堿基信號強(qiáng)度放大，采用邊合成邊測序的方法，進(jìn)行全基因組全面，準(zhǔn)確的測序。

圖1? NovaSeq 6000

百邁客目前主要應(yīng)用2017年Illumina平臺推出的NovaSeq系列測序平臺，雖然較于以往二代平臺，它的測序質(zhì)量值、Index的測序識別、DNA文庫冗余度等指標(biāo)有了明顯提升，但無法克服短讀長的reads 在基因組組裝、大片段變異檢測、轉(zhuǎn)錄組、甲基化等研究中的短板?；诖饲闆r，三代測序應(yīng)運而生。

目前，三代測序的主要代表為PicBio和Oxford Nanopore Technologies（ONT）這兩大測序平臺，以O(shè)NT平臺為例，它主要通過電信號識別堿基序列，單鏈DNA/RNA通過納米孔（蛋白通道），不同的堿基會形成特征性離子電流變化信號，通過對這些信號的檢測，得到堿基序列，完成測序。與二代相比，它主要的優(yōu)勢在于在測序前，不會將DNA樣品打斷成小片段，而是對我們提取DNA進(jìn)行片段篩選，一般篩選10-100kb大小的片段進(jìn)行測序，這就對我們前期提取的DNA質(zhì)量要求較高。

三代測序技術(shù)的出現(xiàn)，為復(fù)雜的多倍體基因組組裝帶來了福音。這種基因組由于倍性多，重復(fù)序列高，而二代測序局限于產(chǎn)生單倍體間的共有序列，導(dǎo)致此類物種的研究停滯不前。而ONT平臺由于其長讀長，跨越完整的重復(fù)區(qū)域，大的結(jié)構(gòu)變異也得到了很好的檢測。eg. 納米孔測序技術(shù)可以將T-DNA結(jié)構(gòu)的分辨率提升到36Kb。這就意味著，在這類突變體功能基因定位時，可以直接通過測序的方式，找到材料中T-DNA的插入位置及拷貝數(shù)，從而找到功能基因，實現(xiàn)基因克隆。和傳統(tǒng)的圖位克隆比較，將大大縮短定位周期。傳統(tǒng)的自然突變材料，如果已經(jīng)有定位區(qū)段，應(yīng)用二代檢測SNP，ONT檢測SV的方式可以讓我們的功能基因克隆方面事半功倍。

在基因組組裝方面，以生菜基因組為例，短讀長的二代測序組裝出21116個contig和2.21G的基因組，基于ONT平臺，則產(chǎn)生了1169個contig，contig N50為7.3Mb。二代數(shù)據(jù)產(chǎn)生了想較于三代數(shù)據(jù)18倍的contig用于基因組組裝，而三代平臺讀長的優(yōu)勢為高質(zhì)量的基因組組裝提供了便利。在轉(zhuǎn)錄組研究方面，ONT平臺的長讀長可以為我們帶來完整的轉(zhuǎn)錄異構(gòu)體的序列，且可做定量研究，這將避免二代短片段數(shù)據(jù)在轉(zhuǎn)錄本組裝上的錯誤，更好的應(yīng)用于轉(zhuǎn)錄組研究。

ONT做為新一代測序技術(shù)，已逐漸廣泛應(yīng)用于科學(xué)研究中。百邁客一直致力于ONT平臺的探索與研發(fā)，目前擁有MinION、GridION X5、PromethION等多種3代測序平臺，且積累了豐富的項目經(jīng)驗，期待你的加入哦~

如果您的科研項目有問題，歡迎點擊下方按鈕咨詢我們，我們將免費為您設(shè)計文章方案。

Nanopore全長轉(zhuǎn)錄組測序數(shù)據(jù)評估

Biomarker — Tue, 05 Mar 2019 03:00:18 +0000

納米孔測序是一種由ONT（Oxford Nanopore Technology）研發(fā)的單分子測序技術(shù)。在轉(zhuǎn)錄組測序應(yīng)用中，相比于傳統(tǒng)二代RNA-Seq測序技術(shù)，長讀長的納米孔RNA測序可以在無需打斷的條件下得到全長序列并進(jìn)行定量，同時直接RNA測序還可以檢測多種堿基修飾，且測序無需擴(kuò)增，減少了PCR過程引入的堿基偏倚。

ONT測序技術(shù)在多個方面具有非常強(qiáng)悍的優(yōu)勢，然而，一份合格的下機(jī)數(shù)據(jù)才是科研成功研究的基礎(chǔ)，為保證得到準(zhǔn)確的轉(zhuǎn)錄組結(jié)構(gòu)分析和定量結(jié)果，需要對測序數(shù)據(jù)進(jìn)行嚴(yán)格的質(zhì)控評估。那么我們今天一起學(xué)習(xí)一下《Summary statistics and QC tutorial》，ONT官方提供的對測序raw?data進(jìn)行全面數(shù)據(jù)質(zhì)控的教程。

介紹

此教程適用于指導(dǎo)對單個nanopore測序芯片產(chǎn)出的數(shù)據(jù)進(jìn)行評估，評估的主要內(nèi)容如下所示：

1、測序產(chǎn)出（測序得到多少reads，多大數(shù)據(jù)量）；

2、測序數(shù)據(jù)的質(zhì)量和長度分布；

3、如果加入了barcode序列進(jìn)行混樣建庫，測序數(shù)據(jù)在不同樣品的分布。

準(zhǔn)備

1、下載教程相關(guān)文件

直接到教程的github頁面下載或通過git命令下載：

git clone https://github.com/nanoporetech/ont_tutorial_basicqc.git QCTutorial

后續(xù)分析會用到下載目錄QCTutorial下的以下內(nèi)容：

1) Nanopore_SumStatQC_Tutorial.Rmd：Rmarkdown文件，說明文檔和用于執(zhí)行分析。

2) RawData/lambda_sequencing_summary.txt.bz2：示例文件，Guppy對測序reads進(jìn)行堿基識別生成的相關(guān)信息文件。

3) RawData/lambda_barcoding_summary.txt.bz2：示例文件，用于區(qū)分混樣建庫時多樣品的barcode信息。

4) environment.yaml：指定分析所需軟件包及計算環(huán)境的文本文檔。

5) config.yaml：配置文件，用于指定分析所需的輸入。

2、創(chuàng)建Conda環(huán)境

為了方便執(zhí)行分析所需軟件包及其依賴的安裝及管理，需要安裝Conda并創(chuàng)建用于此分析的環(huán)境。

1)?Conda安裝（Python3版本的Miniconda）：

wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

bash Miniconda3-latest-Linux-x86_64.sh

bash

2)?創(chuàng)建Conda環(huán)境及環(huán)境激活（第1步中下載的environmen.yaml用于環(huán)境初始化）：

創(chuàng)建環(huán)境：conda env create –name BasicQC –file environment.yaml

激活環(huán)境：source activate BasicQC

分析

進(jìn)行分析之前需先準(zhǔn)備配置文件，通過修改準(zhǔn)備步驟下載的config.yaml中相應(yīng)的參數(shù)來完成，需要修改的內(nèi)容主要有：

修改內(nèi)容	內(nèi)容說明	示例
inputFile	堿基識別的統(tǒng)計信息	sequencing_summary.txt.bz2
barcodeFile	混樣建庫的barcode信息	barcoding_summary.txt.bz2
basecaller	堿基識別工具	Guppy 2.1.3
flowcellId	測序芯片ID	FAK41706

注：如為單樣品測序無barcode信息，則barcodeFile部分為空。

準(zhǔn)備完成后，可以通過命令行啟動分析，命令如下：

R –slave -e ‘rmarkdown::render(“Nanopore_SumStatQC_Tutorial.Rmd”, “html_document”)’

如果習(xí)慣圖形界面操作，也可以通過Rstudio載入Rmarkdown文件執(zhí)行分析：

結(jié)果

上述分析完成后會將分析結(jié)果存放至HTML文件，可用瀏覽器打開Nanopore_SumStatQC_Tutorial.html進(jìn)行查看。對單個芯片約1M reads分析的部分結(jié)果展示如下（結(jié)果來自教程，堿基識別使用Guppy 2.1.3，根據(jù)識別序列的平均質(zhì)量值將其分為pass和fail兩種，質(zhì)量值閾值默認(rèn)為7）：

1、總結(jié)

展示了數(shù)據(jù)產(chǎn)出的總體情況（如下圖，本分析中堿基識別共產(chǎn)出991,715條序列，14.6G堿基）。

2、質(zhì)量長度

此部分展示了對識別出的所有序列質(zhì)量和長度信息的統(tǒng)計結(jié)果，包括序列的平均長度，N50和平均質(zhì)量，序列長度和質(zhì)量的密度分布等

3、測序表現(xiàn)

此部分內(nèi)容統(tǒng)計了隨測序時間變化，測序累計序列個數(shù)，堿基個數(shù)，測序速度和有效工作納米孔數(shù)等指標(biāo)的變化情況。

4、區(qū)分混樣

在加入barcode序列混樣測序的情況下，barcode識別區(qū)分的結(jié)果展示如下，包括barcode識別效率，區(qū)分的文庫個數(shù)及每個文庫中序列個數(shù)占比和長度信息等。

上面展示了分析結(jié)果的部分內(nèi)容，更多細(xì)節(jié)的內(nèi)容可參考底部的相關(guān)鏈接。

rawdata的質(zhì)控評估只是整個信息分析的開始，是為了對測序數(shù)據(jù)有大致的整體認(rèn)識，以便更好地指導(dǎo)后續(xù)分析。然而分析的每個環(huán)節(jié)都會對最終結(jié)果產(chǎn)生影響，因此每一步的處理都要深思熟慮。

小編寄語

2018年8月牛津納米孔公司與百邁客公司達(dá)成長期合作，擁有MinION、GridION X5和PromethION三種型號全套納米孔測序儀。至今已積累了豐富的項目經(jīng)驗，全長轉(zhuǎn)錄組成功案例先后發(fā)表在《Plant Biotechnol J》、《J Hazard Mater》、《Biotechnol Biofuels》、《Sci Rep》、《Fish & Shellfish Immunology》等國際知名期刊，已發(fā)表文章研究物種分別有楊樹、吳松草、風(fēng)箏果、甘薯、野生甘薯、兔子、跳甲、花羔紅點鮭和辣椒，覆蓋領(lǐng)域分別為林木、哺乳動物、昆蟲、水產(chǎn)和作物等。

如您有任何全長轉(zhuǎn)錄組等相關(guān)問題，歡迎點擊下方按鈕，我們將竭盡全力為您答疑、設(shè)計方案和提供高分成功案例等。

參考鏈接:

https@//github.com/nanoporetech/ont_tutorial_basicqc(@換成:)

https@//community.nanoporetech.com/knowledge/bioinformatics(@換成:)

中文字幕一区二区无码一区,嫩BBB搡BBB搡BBB四川

利用第三代納米孔長讀段測序技術(shù)構(gòu)建和注釋蜜蜂球囊菌的全長轉(zhuǎn)錄組

研究背景

材料和方法

結(jié)果

總結(jié)

深度挖掘數(shù)據(jù)和拓展

ONT全長轉(zhuǎn)錄組測序揭示了精神疾病風(fēng)險基因CACNA1C的復(fù)雜剪接特征

研究背景

研究方法

研究結(jié)果

補(bǔ)充圖2

圖2

補(bǔ)充圖3

圖3 C

圖4

總結(jié)

Nanopore測序數(shù)據(jù)展示|基因組

ONT測序結(jié)果展示

作物類（部分）

林木類（部分）

動物（部分）

水產(chǎn)（部分）

中藥材（部分）

基因組組裝結(jié)果展示

廢話少說，直接上組裝結(jié)果！

植物（部分）

動物（部分）

注：Species：分析的物種信息；CtgNum：contig數(shù)目；CtgLen：contig總長度；CtgN50：contigN50長度；CtgN90：contigN90長度；CtgMax：最長contig長度；GC(%)：GC含量占比。

百邁客ONT平臺發(fā)展歷程

淺談基因測序

圖1? NovaSeq 6000

如果您的科研項目有問題，歡迎點擊下方按鈕咨詢我們，我們將免費為您設(shè)計文章方案。

Nanopore全長轉(zhuǎn)錄組測序數(shù)據(jù)評估

介紹

準(zhǔn)備

分析

結(jié)果

小編寄語

廢話少說，直接上組裝結(jié)果！

注：Species：分析的物種信息；CtgNum：contig數(shù)目；CtgLen：contig總長度；CtgN50：contigN50長度；CtgN90：contigN90長度；CtgMax：最長contig長度；GC(%)：GC含量占比。

如果您的科研項目有問題，歡迎點擊下方按鈕咨詢我們，我們將免費為您設(shè)計文章方案。