生命科學(xué)是當(dāng)今世界上最熱門的學(xué)科之一。隨著高通量測序技術(shù)的迅猛發(fā)展,科學(xué)界也開始越來越多地應(yīng)用高通量測序技術(shù)來解決生物學(xué)問題。比如,用從頭測序 (de novo sequencing)獲得該物種的參考序列,為后續(xù)研究和分子育種奠定基礎(chǔ);對有參考序列的物種,進(jìn)行全基因組重測序(whole genome resequencing),在全基因組水平上掃描并檢測突變位點(diǎn),發(fā)現(xiàn)個(gè)體差異的分子基礎(chǔ)。在轉(zhuǎn)錄組水平上進(jìn)行全轉(zhuǎn)錄組測序(whole transcriptome resequencing),從而開展差異表達(dá)基因分析、可變剪接、編碼序列單核苷酸多態(tài)性(cSNP)等研究;或者進(jìn)行小分子RNA測序(small RNA sequencing),通過分離特定大小的RNA分子進(jìn)行測序,從而發(fā)現(xiàn)新的microRNA分子。在轉(zhuǎn)錄組水平上,與染色質(zhì)免疫共沉淀(ChIP)和 甲基化DNA免疫共沉淀(MeDIP)技術(shù)相結(jié)合,從而檢測出與特定轉(zhuǎn)錄因子結(jié)合的DNA區(qū)域和基因組上的甲基化位點(diǎn)。目前,高通量測序也開始廣泛應(yīng)用于 尋找疾病的候選基因上。
與sanger測序相比,高通量測序的顯著特點(diǎn)就是數(shù)據(jù)產(chǎn)出量增大,隨之而來的統(tǒng)計(jì)學(xué)信息增多。曾有人用“找針”來形容兩代測序的區(qū)別,sanger測序 是在黑暗的環(huán)境中找針,高通量測序是把燈點(diǎn)亮后找針。高通量測序的大量數(shù)據(jù)輸出及復(fù)雜的統(tǒng)計(jì)學(xué)信息,就是照亮黑暗的明燈。那么,我們就先來了解一下高通量 測序的基本原理和數(shù)據(jù)分析的基本流程。
現(xiàn)在市場上占優(yōu)勢的高通量測序方法是Solexa法。它是一種基于邊合成邊測序技術(shù)(Sequencing-By-Synthesis,SBS)的新型測 序方法。通過利用單分子陣列實(shí)現(xiàn)在小型芯片(FlowCell)上進(jìn)行橋式PCR反應(yīng)。由于新的可逆阻斷技術(shù)可以實(shí)現(xiàn)每次只合成一個(gè)堿基,并標(biāo)記熒光基 團(tuán),再利用相應(yīng)的激光激發(fā)熒光基團(tuán),捕獲激發(fā)光,從而讀取堿基信息。
數(shù)據(jù)分析流程根據(jù)建庫的類型和研究目的的不同而各有差別,現(xiàn)以有參轉(zhuǎn)錄組信息分析流程為例來說明高通量數(shù)據(jù)分析的基本流程。
高通量測序數(shù)據(jù)以FASTQ格式來記錄所測的堿基讀段和質(zhì)量分?jǐn)?shù)。數(shù)據(jù)產(chǎn)出后,對樣品測序獲得的Reads進(jìn)行統(tǒng)計(jì),通過統(tǒng)計(jì)各樣品Reads長度、數(shù) 量、堿基數(shù)以及GC含量等指標(biāo),評估數(shù)據(jù)量是否滿足信息分析要求。之后對原始數(shù)據(jù)進(jìn)行質(zhì)量評估,過濾低質(zhì)量數(shù)據(jù),應(yīng)用各種序列比對軟件遮蔽數(shù)據(jù)中不屬于表 達(dá)基因的贗象序列,去除鑲嵌克隆,最后獲得高質(zhì)量的數(shù)據(jù)再進(jìn)行后續(xù)組裝和分析。對于有參轉(zhuǎn)錄組數(shù)據(jù)分析,首先將所有測序讀段mapping到參考基因組 上,與參考基因組進(jìn)行比對分析,挑選出匹配好的所有讀段,同時(shí)進(jìn)行讀段的基因定位,這些信息都將用于后續(xù)分析。
后續(xù)數(shù)據(jù)分析主要有基因的結(jié)構(gòu)分析、表達(dá)分析和新基因分析。基因注釋是利用生物信息學(xué)方法,將未知基因序列在公共數(shù)據(jù)庫進(jìn)行相似性搜索比對,通過與數(shù)據(jù)庫中已知基因序列的同源性比對,來推測未知基因的功能。
目前,除了個(gè)別實(shí)驗(yàn)室具有高通量測序數(shù)據(jù)分析能力外,通常情況下,數(shù)據(jù)分析工作需要由專業(yè)的機(jī)構(gòu)或公司來完成,這種形式存在幾個(gè)弊端:
1、根據(jù)客戶的不同分析需求,收費(fèi)標(biāo)準(zhǔn)不同。數(shù)據(jù)的基礎(chǔ)分析結(jié)果不能完全滿足科研需要,而個(gè)性化分析又需要支付高額的分析費(fèi)用;
2、分析結(jié)果和預(yù)判結(jié)果存在差異時(shí),需要經(jīng)過反復(fù)溝通,反復(fù)修改,才可能達(dá)到分析目的;
3、數(shù)據(jù)的利用率低,一次分析后,所用數(shù)據(jù)基本處于擱置狀態(tài),再利用的可能性低,大量的自測數(shù)據(jù)和公有數(shù)據(jù)無法再利用;
4、項(xiàng)目完成周期較長,有可能會因分析公司業(yè)務(wù)量的變化而付出更多的等待時(shí)間。現(xiàn)在,完成高通量數(shù)據(jù)分析工作,我們有了第三種選擇-–百邁客云。
百邁客云(BMKCloud)是一個(gè)基于基因大數(shù)據(jù)的挖掘、管理和科研協(xié)作的整合平臺??梢允共痪邆渖镄畔⒎治龌A(chǔ)的用戶,快速掌握獨(dú)立的生物信息分析能力,實(shí)現(xiàn)高通量數(shù)據(jù)的深度解讀。
百邁客云提供:11大生物信息分析平臺(重測序、外顯子、轉(zhuǎn)錄組、非編碼RNA等),基本分析+個(gè)性化分析,輕松實(shí)現(xiàn)原始數(shù)據(jù)到生物學(xué)問題準(zhǔn)確解讀的轉(zhuǎn)化;158款數(shù)據(jù)分析工具,涵蓋數(shù)據(jù)處理,文件操作,序列比對,基因注釋和圖表制作等,滿足個(gè)性化數(shù)據(jù)分析需求。
百邁客云不僅僅是一個(gè)數(shù)據(jù)分析平臺,更是一個(gè)挖掘研究思路的平臺??蛻敉ㄟ^在數(shù)據(jù)模塊中檢索跟自己研究相關(guān)的公共數(shù)據(jù),然后通過分析平臺進(jìn)行數(shù)據(jù)的挖掘和解讀,即可從中提煉科研思路,站在科學(xué)研究的前沿。
2016年3月,作為BMKCloud公共數(shù)據(jù)庫項(xiàng)目的一部分,動物、植物、微生物、參考基因組、疾病和宏基因組高通量測序數(shù)據(jù)庫正式上線。百邁客云的合 作伙伴現(xiàn)在可以在BMKCloud上免費(fèi)訪問六大數(shù)據(jù)庫了。2016年4月1日,伴隨著BMKCloud的全新改版,數(shù)據(jù)庫的公共數(shù)據(jù)可以直接導(dǎo)入用戶目 錄“我的數(shù)據(jù)”中,利用BMKCloud上的分析平臺進(jìn)行各項(xiàng)基礎(chǔ)分析和個(gè)性化分析,這極大加速了利用公共數(shù)據(jù)進(jìn)行研究的步伐。更加令人期待的是,腫瘤和 腫瘤細(xì)胞系高通量測序數(shù)據(jù)庫也在緊鑼密鼓地籌劃中,不久之后也會在BMKCloud云平臺上與廣大用戶見面。BMKCloud公共數(shù)據(jù)庫項(xiàng)目建立的目的也 是讓科研工作者更高效、更快速的利用公共數(shù)據(jù),提高公共數(shù)據(jù)的利用效率。使大數(shù)據(jù)的挖掘不僅僅局限于癌癥的研究,能夠在動物、植物、微生物等研究中都得到 很好的利用??蒲泄ぷ髡呖梢愿鶕?jù)物種、類型、研究性狀、研究結(jié)果、測序方法等設(shè)置快速檢索感興趣的數(shù)據(jù),所有數(shù)據(jù)均可一鍵導(dǎo)入我的數(shù)據(jù)中保存。然后利用百 邁客提供的11大數(shù)據(jù)分析平臺和158款工具進(jìn)行數(shù)據(jù)的深度挖掘,高效、快速的挖掘基因大數(shù)據(jù)。
百邁客云從2014年5月開始開放試用到2015年10月份正式商用。對于廣大的科研用戶而言,百邁客生物云是一個(gè)完 整的交鑰匙(Turn-Key)解決方案,用戶只需要開通云平臺賬號,就有了屬于自己的生物信息分析平臺,以云治云,用“百邁客云”撥開生命疑云,“百邁客云”已經(jīng)成為進(jìn)行基因大數(shù)據(jù)的分析的常用平臺。