動(dòng)植物基因組De?novo測(cè)序分析也叫從頭測(cè)序分析,指不依賴于任何參考序列信息就可對(duì)某動(dòng)植物進(jìn)行測(cè)序分析,使用生物信息學(xué)方法進(jìn)行序列拼接獲得某物種的基因組序列圖譜,并進(jìn)行基因組結(jié)構(gòu)注釋、功能注釋、比較基因組學(xué)分析等一系列的后續(xù)分析。三代測(cè)序技術(shù)(以PacBio和Nanopore為代表)具有讀長(zhǎng)長(zhǎng)的特點(diǎn),自2015年開(kāi)始在動(dòng)植物基因組De novo中初露鋒芒,已延用至今。該類(lèi)型測(cè)序分析結(jié)果可以廣泛應(yīng)用于農(nóng)林魚(yú)牧醫(yī)藥及海洋等各個(gè)方面的研究。
圖1 不同測(cè)序技術(shù)讀長(zhǎng),準(zhǔn)確性及基因組連續(xù)性評(píng)估
PacBio測(cè)序原理
采用邊合成邊測(cè)序的方式,以其中一條DNA鏈為模板,通過(guò)DNA聚合酶合成另外一條鏈,進(jìn)一步將熒光信號(hào)轉(zhuǎn)變?yōu)閴A基信號(hào)。同時(shí)PacBio已升級(jí)了CCS測(cè)序模式以獲得長(zhǎng)讀長(zhǎng)的高保真(HiFi)15 kb reads,由此提升基因組組裝的準(zhǔn)確性。
圖2 三代PacBio測(cè)序原理
Nanopore測(cè)序原理
當(dāng)單鏈DNA分子穿過(guò)納米孔時(shí),相對(duì)于每個(gè)核苷酸,都會(huì)獲得不同的電流信號(hào)。記錄每個(gè)孔的離子電流變化,并基于馬爾可夫模型或遞歸神經(jīng)網(wǎng)絡(luò)的方法將其轉(zhuǎn)換為堿基序列。除此之外,Ultra-long reads (ULRs) 是ONT平臺(tái)的另一重要特征,并具有促進(jìn)大型基因組組裝的潛力。
De?novo研究 | 研究?jī)?nèi)容 | |
基因組組裝 | 多軟件組裝、組裝結(jié)果評(píng)估 | |
基因預(yù)測(cè)與注釋 | 編碼基因預(yù)測(cè);重復(fù)序列注釋和轉(zhuǎn)座元件分類(lèi);非編碼RNA注釋?zhuān)患倩蜃⑨尩?/td> | |
Hi-C輔助基因組組裝 | 有效數(shù)據(jù)評(píng)估;Contig聚類(lèi)、排序及定向分析;掛載結(jié)果評(píng)估 | |
生物學(xué)問(wèn)題解析 |
比較基因組學(xué)研究 |
基因家族聚類(lèi); |
系統(tǒng)發(fā)育樹(shù)的構(gòu)建; | ||
基因家族擴(kuò)張與收縮分析; | ||
物種分化時(shí)間推算; | ||
LTR形成時(shí)間估算; | ||
全基因組復(fù)制事件; | ||
選擇壓力分析 | ||
特定生物學(xué)問(wèn)題剖析 | 結(jié)合組學(xué)研究方法,深入對(duì)某物種生物學(xué)問(wèn)題進(jìn)行解析 |
草莓基因家族聚類(lèi)分析
薏苡全基因組復(fù)制事件分析
開(kāi)心果系統(tǒng)進(jìn)化樹(shù)與基因家族收縮擴(kuò)張分析
陸地棉亞基因組共線性分析
公司成立于2009年,深耕基因組測(cè)序領(lǐng)域多年,長(zhǎng)久以來(lái)致力于成為精準(zhǔn)的基因組組裝專(zhuān)家;
擁有三代測(cè)序平臺(tái)PacBio測(cè)序全平臺(tái)和Nanopore測(cè)序全平臺(tái),具有豐厚的雙平臺(tái)組裝及上萬(wàn)種物種基因組組裝經(jīng)驗(yàn)。
Hi-C染色質(zhì)構(gòu)象捕獲技術(shù)文庫(kù)有效數(shù)據(jù)比例高,掛載效率高達(dá)99%,多倍體物種研究經(jīng)驗(yàn)豐富,與三代基因組組裝相結(jié)合,獲得染色體水平基因組的。同時(shí)進(jìn)一步提升基因組組裝質(zhì)量。
期刊:Nature Genetics
影響因子:27.125
發(fā)表單位:中國(guó)農(nóng)業(yè)科學(xué)院棉花研究所、北京百邁客生物科技有限公司等
發(fā)表年份:2018年5月
研究背景:
棉花是研究植物多倍化的有價(jià)值的資源。亞洲棉(Gossypium arboreum)和草棉(Gossypium herbaceum)的祖先是現(xiàn)代栽培異源四倍體棉花A亞基因組的供體。 本研究中,利用了三代PacBio和Hi-C技術(shù),重新組裝了高質(zhì)量的亞洲棉基因組,分析了243份二倍體棉花種質(zhì)的群體結(jié)構(gòu)和基因組分化趨勢(shì),同時(shí)確定了一些有助于棉花皮棉產(chǎn)量遺傳改良的候選基因位點(diǎn)。
研究結(jié)果:
1、亞洲棉三代基因組組裝:
利用三代測(cè)序和Hi-C相結(jié)合的方法進(jìn)行亞洲棉基因組組裝。共計(jì)獲得了142.54 Gb ,組裝1.71 Gb亞洲棉基因組,Contig N50=1.1 Mb,最長(zhǎng)的Contig為12.37 Mb。利用Hi-C技術(shù)將組裝的1573 Mb的數(shù)據(jù)定位到13條染色體上,與已經(jīng)發(fā)表的基因組相比,當(dāng)Hi-C數(shù)據(jù)比對(duì)到更新的基因組后,對(duì)角線外的不一致性明顯減少(圖1 a-b)
2、二倍體棉花群體遺傳進(jìn)化分析:
對(duì)230份亞洲棉和13份草棉重測(cè)序,進(jìn)行基因組比對(duì)、系統(tǒng)發(fā)育樹(shù)、群體結(jié)構(gòu)分析、PCA、LD和選擇性清除分析得出亞洲棉和草棉(A)與雷蒙德氏棉同時(shí)進(jìn)行了分化;亞洲棉起源于中國(guó)南部,隨后被引入長(zhǎng)江和黃河地區(qū),大多數(shù)具有馴化相關(guān)特性的種質(zhì)都經(jīng)歷了地理隔離(圖2)。
3、亞洲棉的全基因組關(guān)聯(lián)分析(GWAS):
對(duì)來(lái)自不同環(huán)境下的11個(gè)重要性狀進(jìn)行全基因組關(guān)聯(lián)分析,鑒定了亞洲棉11個(gè)重要農(nóng)藝性狀的98個(gè)顯著關(guān)聯(lián)位點(diǎn),GaKASIII的非同義替換(半胱氨酸/精氨酸替換)使得棉籽中的脂肪酸組成(C16:0和C16:1)發(fā)生了變化;發(fā)現(xiàn)棉花枯萎病抗性與GaGSTF9基因的表達(dá)激活相關(guān)。選擇了亞洲棉種質(zhì)中的158份有絨毛和57份無(wú)絨毛材料進(jìn)行GWAS關(guān)聯(lián)分析,發(fā)現(xiàn)與毛狀體和纖維發(fā)育有關(guān)信息(圖3)。
研究結(jié)論:
利用三代測(cè)序+Hi-C技術(shù)完成了亞洲棉基因組的重新組裝,將基因組組裝指標(biāo)從72?Kb提升到1.1 Mb,為亞洲棉后續(xù)的群體遺傳學(xué)等相關(guān)研究奠定了基礎(chǔ);通過(guò)群體遺傳進(jìn)化等相關(guān)分析,發(fā)現(xiàn)亞洲棉和草棉(A型)與雷蒙德氏棉(D型)同時(shí)進(jìn)行了分化,并證明了亞洲棉起源于中國(guó)南部,隨后被引入長(zhǎng)江和黃河地區(qū);整合GWAS與QTL等分析方法,對(duì)亞洲棉脂肪酸含量,抗病性及棉絨生長(zhǎng)發(fā)育相關(guān)基因進(jìn)行定位,并進(jìn)行相關(guān)功能驗(yàn)證,促進(jìn)了亞洲棉復(fù)雜農(nóng)藝性狀的改良。
期刊:Advanced Science
影響因子:15.804
發(fā)表單位:河南農(nóng)業(yè)大學(xué)、北京百邁客生物科技有限公司等
發(fā)表年份:2019年11月
研究背景:
花生作為我國(guó)重要的經(jīng)濟(jì)作物,是提供重要的蛋白和油料的基礎(chǔ)?;ㄉ鷮僖还舶?0個(gè)二倍體品種,1個(gè)異源四倍體野生花生(A. monticola)和1個(gè)栽培花生(A. hypogaea)。作為栽培花生農(nóng)藝性狀改良的重要野生資源供體,野生四倍體花生一直是國(guó)內(nèi)外學(xué)者的研究熱點(diǎn)。研究中對(duì)花生屬唯一的野生異源四倍體花生Arachis monticola基因組進(jìn)行了研究,同時(shí)對(duì)17個(gè)野生二倍體花生(AA;BB;EE;KK和CC)與30個(gè)野生和栽培四倍體花生進(jìn)行了重測(cè)序分析。
研究結(jié)果:
1、野生四倍體花生基因組denovo及與栽培四倍體花生的比較分析:
基于 Illumina、PacBio 、Hi-C和光學(xué)圖譜數(shù)據(jù),組裝Arachis monticola(2n = 4x = 40)基因組大小為2.62 Gb ,contigs N50=106.66 Kb,scaffolds N50=124.92 Mb;與栽培四倍體花生A. hypogaea基因組結(jié)構(gòu)變異高度保守,且比野生祖先二倍體更加保守;
2、A、B亞基因組的單系起源和多樣性:
對(duì)17個(gè)二倍體野生種(AA、BB、EE、KK和CC)和30個(gè)野生和栽培四倍體花生進(jìn)行了進(jìn)化樹(shù)和PCA分析。結(jié)果表明,栽培四倍體花生與野生四倍體花生最接近, A和B亞基因組的單系起源(圖1);
3、四倍體花生不對(duì)稱(chēng)亞基因組進(jìn)化及表達(dá)差異 :
栽培花生和野生花生的亞基因組間的同源序列交換率(HSE)分別為2.46%和2.54%。野生花生中A到B的HSE富集的基因?yàn)轭?lèi)黃酮生物合成和晝夜節(jié)律途徑的基因,暗示不對(duì)稱(chēng)HSEs在生物學(xué)功能中的作用;
4、SV對(duì)莢發(fā)育和馴化相關(guān)基因表達(dá)的影響及抗病基因鑒定 :
對(duì)野生四倍體花生和栽培四倍體花生不同發(fā)育階段莢果的SV分析發(fā)現(xiàn)SV在莢果發(fā)育過(guò)程中基因表達(dá)的變化上可能起著重要作用;同時(shí)在栽培四倍體花生中鑒定到190個(gè)SV抗病基因(SV-RGAs),其中32個(gè)基因在接種后易感組或抗性組中表現(xiàn)出顯著的表達(dá)變化(圖2)。
?
研究結(jié)論:
充分注釋了高質(zhì)量野生四倍體花生基因組,揭示了花生亞基因組單系起源和遺傳進(jìn)化模型,表明了野生和栽培四倍體花生亞基因組發(fā)生了不對(duì)稱(chēng)進(jìn)化;此外,野生花生中存在的獨(dú)特等位基因可以改善栽培花生的抗性和莢果大小等形狀,為研究多倍體基因組進(jìn)化、作物馴化和基因組輔助花生生產(chǎn)改良提供獨(dú)特的價(jià)值。