隨著基因組測序爆炸性增長,比較基因組學已逐漸成為每個物種尤其是首次被破譯基因組的物種的必備研究內容之一。那么什么是比較基因組學呢?比較基因組學是通過對系統(tǒng)發(fā)育中的代表性物種之間的基因和基因家族的比較分析、構建系統(tǒng)發(fā)育圖譜,?來揭示基因、基因家族的起源和功能及其在進化過程中復雜化和多樣化的機制。比較基因組學研究有助于進一步闡明物種進化的分子基礎,?探索基因起源機制,?從基因進化的角度研究基因序列與功能的關系。
物種選擇
這么多的物種中該選擇哪些來進行研究呢?又應該怎么挑選呢?“好的”比較基因組研究一般需要遵循以下幾點:
1.?顧名思義,最重要的是這些物種要有參考基因組(即需要有蛋白質序列文件以及基因注釋文件);基因組常用的數(shù)據(jù)下載網(wǎng)站有以下三種:NCBI、ENSEMBLE、Phyzome
2.?為了研究的準確性,盡量選擇基因組組裝連續(xù)性好的物種。若要用作共線性分析,則該物種的基因組需要為染色體水平。
3.?與研究目的物種的親緣關系不宜太遠、數(shù)目不宜過多(通常在6-10個左右)。物種越多,物種間親緣關系越遠,將使得可獲取的單拷貝直系同源基因數(shù)目越少,影響進化樹的準確性。
4.?可從分類系統(tǒng)選擇,將更好的從親緣關系水平尋找近緣物種。

被子植物系統(tǒng)發(fā)育海報
5.?可從已發(fā)表近緣物種基因組文章中的進化樹內進行挑選,以此作為參考;或是直接從基因組發(fā)表網(wǎng)站上進行挑選,從而避免所選物種無基因組數(shù)據(jù)而反復挑選查找的麻煩。

網(wǎng)站查詢方法圖例
6.?為了避免基因家族擴張與收縮分析結果受到干擾,所分析物種的倍性盡量保持一致,異源多倍體通常會拆成亞基因組對應的蛋白質序列進行分析,例如陸地棉AADD,則需要分為AA與DD分別進行。當然,不拆開亞基因組也可以,例如2019年Nature?Communications上發(fā)表的異源四倍體糜子基因組就與二倍體谷子、高粱等一同分析(Zhou?C?et?al.,Nature?communications.?2019)。
7.?需要含有關心的物種:這些物種與目標物種具有相似/相反的生物功能,通過物種間的比較可以解釋說明一定的生物問題,同時也利于后續(xù)基因家族功能故事闡述。
8.?全基因組復制事件加上前期已有研究物種或是研究較為清晰的物種作為比對(葡萄或無油樟可作為內參)。
9.?進化樹選取外群物種,主要基于三個原則:①外群物種要比研究物種先從祖先物種中分化出去;②外群物種與研究物種的親緣關系不宜太遠;③基因組組裝質量較好。目前,外群物種的選取可以從文獻調研、分類系統(tǒng)查找、項目經(jīng)驗等三種途徑進行獲取。尋找已發(fā)表基因組的近源物種文章。文章正文或附錄中的系統(tǒng)進化樹,最外面的物種即為外群物種。百邁客具有豐富的項目經(jīng)驗,實在不會選擇時可與百邁客進行聯(lián)系~百邁客將通過豐富的項目經(jīng)驗為您提供合適的選取建議。

香雪球基因組進化樹 (Huang?L?et?al.Horticulture?Research.?2020)
10.?分析中需要借助于化石時間矯正得到有分化時間的物種樹,因此需要進化樹分支上某一物種具有化石信息,為了分析的準確性,盡量能在每個大分支內有一個化石信息。常用的化石信息查詢網(wǎng)站:TIMETREE?website
分析內容
1.?基因家族聚類
基因家族(gene?family),是來源于同一個祖先,由一個基因通過基因重復而產(chǎn)生兩個或更多的拷貝而構成的一組基因,它們在結構和功能上具有明顯的相似性,編碼相似的蛋白質產(chǎn)物。對物種的蛋白序列進行家族分類,對獲得基因家族進行注釋;對本物種的特有基因家族進行GO和KEGG富集分析。物種共有基因家族中的單拷貝同源基因數(shù)目,用于系統(tǒng)發(fā)育樹的構建等分析。Veen圖中非重疊區(qū)與重疊區(qū)的數(shù)量分別表示幾個物種間特有基因家族和共有基因家族的數(shù)量。

板藍根基因家族聚類
(Kang M et al.Horticulture Research. 2020)
2.?系統(tǒng)進化分析
通過與其它種基因組進行比較,挖掘目的物種與不同種間的系統(tǒng)進化關系。利用單拷貝蛋白序列建進化樹,通過外群的加入,使無根樹轉為有根樹。
3.?分化時間分析通過與其它種基因組進行比較,挖掘不同種間的系統(tǒng)進化關系。根據(jù)各類生物間的親緣關系的遠近,把各類生物安置在有分枝的樹狀的圖表上,簡明地表示生物的進化歷程和親緣關系。借助于化石時間矯正,可以得到有分化時間的物種樹,從而獲得物種之間的親緣關系和分歧時間,有利于闡明物種的進化歷史。

馬蘭及其近緣種分化時間
(分支數(shù)字表示分化時間范圍)
(Xu W et al., Plant Journal.2020)
4.?基因家族擴張收縮
在比較基因組學中往往要研究具有某一類功能或者控制某性狀的基因家族在所研究的物種上是變多了還是變少。這就需要對基因家族進行收縮與擴張分析。通過目標物種和近源物種之間的進化關系,模擬推算共同祖先的狀態(tài),然后兩者都和祖先比較,進而確定收縮和擴張的基因家族使用帶有分歧時間的進化樹和基因家族聚類之后的結果,通過出生死亡率模型估計每個分枝的祖先的基因家族成員個數(shù),從而預測出該物種基因家族相對于祖先的收縮和擴張情況。

二倍體芋頭及其近緣種基因家族擴張收縮(紅色表示擴張數(shù)目,藍色表示收縮數(shù)目)(Yin?J?et?al.,?Mol?Ecol?Resour.2020)
5.?選擇壓力分析
選擇壓力是指外界施加給某物種生物進化過程中的壓力,使得物種適應自然環(huán)境。在遺傳學中,Ka/Ks或者dN/dS表示的是異意替換(Ka)和同意替換(Ks)之間的比例。一般認為,同義突變不受自然選擇,而非同義突變則受到自然選擇作用。如果Ka/Ks>1,則認為有正選擇效應。如果Ka?/Ks=1,則認為存在中性選擇。如果Ka/Ks<1,則認為有純化選擇作用。如2019年百邁客合作發(fā)表于《Molecular?Plant》文章雜草稻基因家族聚類圖例所示:ka/ks值在1.4到1.5之間,雜草稻(WR04-6)比野生稻(w1943)含有更多的基因;明雜草稻基因組中的基因可能積累了比栽培稻更多的功能突變,這意味著雜草稻的半馴化導致了雜草的進化。

雜草稻基因對Ka/Ks值的頻率分布
(Sun J et al.,Molecular Plant. 2019)
6.?基因組共線性分析
線性暗示兩個物種來源與共同的祖先序列,有著相似的功能。通過對物種內或者物種間共線性相關聯(lián),來確定物種內部或者物種間的結構變異,揭示物種染色體進化,研究物種內部多倍化等事件。主要應用:結構變異的挖掘、基因組組裝準確性驗證(與已發(fā)表比較驗證)、觀察全基因組復制事件、功能基因組學研究(有相同生物學功能)。
如2018年百邁客合作發(fā)表于《Nature?Genetics》陸地棉與海島棉基因組文章圖例所示:海島棉染色體D05和陸地棉D12中均存在大的染色體臂間倒位,暗示這些變異出現(xiàn)在多倍化之后;兩個四倍體相對于G.?raimondii共有一些結構變異,例如染色體D09中兩個四倍體發(fā)生了大的反轉。

陸地棉和海島棉D亞基因組與雷蒙德氏棉(DD型)基因組共線性分析 (Wang M et al.,Nature genetics. 2018)
如2019年百邁客合作發(fā)表于《Genome?Biology》開心果基因組文章事例所示:每個無油樟區(qū)域對應三個開心果區(qū)域,每個開心果區(qū)域對應有兩個毛果楊區(qū)域,暗示了開心果在毛果楊之外又發(fā)生了一次獨立的復制事件。

開心果與無油樟及毛果楊共線性
(Zeng lin et al.,Genome Biology.2019)
7.?全基因組復制事件
多倍化(polyploidy)或全基因組加倍(whole?genome?duplication,?WGD)事件使基因組內的所有基因都發(fā)生重復,為生物進化提供了原始的遺傳材料,被認為是進化的加速器。全基因組復制事件在真菌或動植物中都有發(fā)生,是基因組中基因數(shù)量變化、基因新功能的形成、基因重排等的重要推動力。

陸地植物基因組復制歷史
(Wu S et al., Molecular plants. 2019)
由于在同一基因組上共線性的染色體片段中有旁系同源的基因集,因此可以通過這些成對的共線性片段追溯目的物種曾經(jīng)的復制事件。通過研究全基因組復制事件,可以確定物種發(fā)生全基因組倍增時間,同時也通過分化時間的比對來判斷復制是發(fā)生在分化之前還是分化之后。
常用方式:KS/4DTV
KS:全基因組加倍事件會產(chǎn)生大量的同源基因,反映在Ks值上便是會有大量的Ks值接近的同源基因對的產(chǎn)生,Ks值峰就對應了全基因組加倍事件的存在。

茶樹全基因組復制事件(Ks)
(Xia E et al. Molecular Plant.2020)
4DTV:如果密碼子的第三個位點無論是哪種核苷酸,均編碼同樣的氨基酸,則稱這個位點為4倍簡并位點。較多的基因對數(shù)存在4倍簡并位點,說明基因組多樣性較多(or冗余基因較多),可能此刻發(fā)生了物種分化或者基因組復制。

小白菜全基因組復制事件(4DTV)
(Li Y et al., Horticulture Research. 2020)
想學習以上技術應用及實現(xiàn)方法,歡迎參加百邁客生物比較基因組培訓課程,帶你玩轉比較基因組分析。