生物信息學(xué)的發(fā)展和基因組學(xué)的發(fā)展是緊密聯(lián)系的,基因組學(xué)更偏向于科學(xué),生物信息學(xué)更偏向于技術(shù),兩者緊密結(jié)合共同發(fā)展。生物信息學(xué)和基因組學(xué)的發(fā)展又和 測(cè)序技術(shù)的發(fā)展緊密聯(lián)系,特別是NGS技術(shù)的出現(xiàn),測(cè)序成本大幅下降,完成一個(gè)人類基因組的測(cè)序從最初的30億美元下降到如今的1000美元,從而大大促 進(jìn)了這兩個(gè)學(xué)科的發(fā)展。我國(guó)的組學(xué)方面的研究和應(yīng)用是走在世界前列的,這與幾代科學(xué)家的努力是分不開 的。
我很有幸在基因組學(xué)在國(guó)內(nèi)剛起步的時(shí)候就進(jìn)入這個(gè)行業(yè),畢業(yè)時(shí)“三證齊全”(生命科學(xué)的學(xué)位證、計(jì)算機(jī)四級(jí)證和英語六級(jí)證),在2001年進(jìn)入了生物信息行業(yè)。這些年也見證了這個(gè)行業(yè)的發(fā)展。
生物信息學(xué)和生物大數(shù)據(jù)發(fā)展的歷程
我把生物信息工具開發(fā)模式的發(fā)展分成三個(gè)階段:第一個(gè)階段:genome center唱獨(dú)角戲。在這個(gè)方向剛興起的初期,人才儲(chǔ)備較少,產(chǎn)出數(shù)據(jù)的成本也很大,只有少量的國(guó)家支持的genome center可以從事這方面的系統(tǒng)研究,做生物信息開發(fā)的目的也比較明確,就是為了完成基因組中心所承擔(dān)的一些重大國(guó)家科研課題,對(duì)生物信息開發(fā)的要求是 “quick and dirty”,很少考慮程序的重復(fù)利用,做好當(dāng)前數(shù)據(jù)的分析即可,這也是在當(dāng)時(shí)歷史環(huán)境下的一種必然,畢竟有太多山頭要打,沒有時(shí)間做打掃戰(zhàn)場(chǎng)的事情。第 二個(gè)階段:NGS技術(shù)的出現(xiàn)和基因科技服務(wù)公司的崛起。當(dāng)很多科學(xué)家看到了有那么多空白的山頭待開發(fā),同時(shí)數(shù)據(jù)產(chǎn)出的成本也大幅降低情況下,科學(xué)家們對(duì)組 學(xué)研究都躍躍欲試,科技服務(wù)的市場(chǎng)需求就出現(xiàn)了,同時(shí)經(jīng)過多年的人才儲(chǔ)備,也有了一定數(shù)量的技術(shù)人員,為科技服務(wù)公司的出現(xiàn)打下了人的基礎(chǔ)。兩者一拍即 合,科技服務(wù)行業(yè)蓬勃發(fā)展。這個(gè)階段生物信息開發(fā)注重的是“pipeline”,這樣能提高服務(wù)的效率,讓公司能更好的發(fā)展。第三個(gè)階段:大數(shù)據(jù)的積累和 豐富多樣的個(gè)性化分析需求。隨著NGS技術(shù)的不斷發(fā)展,測(cè)序成本不斷降低,數(shù)據(jù)積累也越來越快,同時(shí)隨著科學(xué)家對(duì)數(shù)據(jù)理解的深入,大大開拓了科學(xué)家的思 路,各種個(gè)性化的數(shù)據(jù)分析想法大量涌出腦海,“personalized”成為了這個(gè)階段的生物信息開發(fā)要滿足的關(guān)鍵需求。
在進(jìn)入第三個(gè)階段后,隨著海量數(shù)據(jù)的產(chǎn)出和大量個(gè)性化分析需求的出現(xiàn),原有的“quick and dirty”和“pipeline”模式的生物信息開發(fā)就體現(xiàn)的比較低效,科學(xué)家們?yōu)榱说玫絺€(gè)性化分析的結(jié)果往往要付出很大的資金投入、溝通成本和學(xué)習(xí)成 本。要讓科學(xué)家更好的關(guān)注科學(xué),讓工程師更多的關(guān)注技術(shù)開發(fā),讓工程師們不重復(fù)開發(fā),生物云平臺(tái)是優(yōu)化生物信息生態(tài)系統(tǒng)的一個(gè)有效方式,也是生物信息未來 發(fā)展的趨勢(shì)。我們已經(jīng)開始進(jìn)入生物信息的云計(jì)算時(shí)代。
生物云在生態(tài)系統(tǒng)中的定位和作用
生物云的生態(tài)系統(tǒng)包括哪些人及其之間的關(guān)系?隨著測(cè)序成本的大幅下降,手頭有基因大數(shù)據(jù)的科學(xué)家越來越多,圍繞著大數(shù)據(jù)挖掘的從業(yè)人員也越來越多,一個(gè)生 物大數(shù)據(jù)管理和挖掘的生態(tài)系統(tǒng)正在形成。在這個(gè)生態(tài)系統(tǒng)中,包括以下幾方面的人員:生命科學(xué)或醫(yī)學(xué)科學(xué)家,生物信息科學(xué)家,科研機(jī)構(gòu)的生物信息技術(shù)工程 師,科技服務(wù)公司的生物信息技術(shù)工程師,系統(tǒng)軟件和硬件供應(yīng)商。在這個(gè)生態(tài)系統(tǒng)中,各自有著不同的定位。生命科學(xué)或醫(yī)學(xué)科學(xué)家,關(guān)心科學(xué)問題,對(duì)生物信息 工具本身不是很感興趣,能解決他們的科學(xué)問題的,就拿過來用。生物信息科學(xué)家,注重分析方法的創(chuàng)新,提高分析方法的效率和√確度,關(guān)心方法本身的專業(yè)性, 對(duì)于用戶體驗(yàn)層面思考較少??蒲袡C(jī)構(gòu)的生物信息技術(shù)工程師,具體分析課題組PI的項(xiàng)目分析,基本是“quick and dirty”模式,追求項(xiàng)目的效率,不太關(guān)心開發(fā)工具的重復(fù)利用。科技服務(wù)公司生物信息工程師,往往負(fù)責(zé)某研究方向的分析,“pipeline”模式居 多,關(guān)心分析的自動(dòng)化程度,以能處理更多的項(xiàng)目。對(duì)于個(gè)性化分析的提煉有一定的意愿。系統(tǒng)軟件和硬件供應(yīng)商,包括測(cè)序相關(guān)和計(jì)算相關(guān),更多是想提高硬件的 使用效率和銷量。在這個(gè)生態(tài)系統(tǒng)里,大家根據(jù)自己的特點(diǎn)會(huì)有不同的形式來處理生物大數(shù)據(jù)挖掘和管理的問題。對(duì)于較大的課題組來說,即有生命科學(xué)或者醫(yī)學(xué)領(lǐng) 域的科學(xué)家,又有生物信息科學(xué)家和工程師,往往會(huì)選擇自建生物信息分析硬件平臺(tái),自成系統(tǒng)的進(jìn)行數(shù)據(jù)分析。對(duì)于沒有生物信息背景人員的課題組,會(huì)考慮和有 生物信息背景的科學(xué)家進(jìn)行科研項(xiàng)目合作,或者和科技服務(wù)公司進(jìn)行科研外包合作。
生態(tài)系統(tǒng)目前存在的問題?目前的這種合作形式存在較大的問題:1、海量的基因大數(shù)據(jù)放在數(shù)據(jù)庫中,科學(xué)家不方便拿到符合自己需求的整合數(shù)據(jù)庫和分析工具, 分導(dǎo)致大量的基因數(shù)據(jù)沉睡在哪里,不能很好的挖掘出其中的價(jià)值2、生物信息工程師的重復(fù)開發(fā)嚴(yán)重,浪費(fèi)了工程師大量經(jīng)歷,導(dǎo)致整體的開發(fā)效率低下。目前從 事生物信息開發(fā)的工程師也有一定的數(shù)量,但開發(fā)產(chǎn)出卻比較有限,很多工程師從業(yè)了好幾年時(shí)間都沒有開發(fā)一個(gè)標(biāo)志性的工具,主要就是掉到重復(fù)開發(fā)的漩渦里 了,去年開發(fā)過的內(nèi)容,今年再重復(fù)開發(fā)一遍,明年再重復(fù)開發(fā)一遍,沒有系統(tǒng)的規(guī)劃和積累。3、生物信息工程師開發(fā)的工具往往只能自己使用。在現(xiàn)有的評(píng)價(jià)體 系里面,一個(gè)生物信息工程師如果要證明自己的水平,往往需要發(fā)表學(xué)術(shù)論文來證明。從論文的角度比較關(guān)注技術(shù)創(chuàng)新和理論創(chuàng)新,這樣就導(dǎo)致了,工程師往往對(duì)技 術(shù)創(chuàng)新本身感興趣,不注重用戶需求和體驗(yàn),導(dǎo)致開發(fā)的工具科學(xué)家們無法方便的上手使用。4、生物信息分析能力的培養(yǎng)和評(píng)價(jià)體系不夠完善,基本靠自學(xué),開發(fā) 人員水平不容易評(píng)定,魚龍混雜。5、工程師開發(fā)的工具很多,但缺少渠道分享自己的分析工具,主要是生物信息工具無法獨(dú)立傳播,需要部署在服務(wù)器上,對(duì)于大 多數(shù)科學(xué)家來說,拿到一個(gè)分析工具后,要想使用需要配備各種硬件和系統(tǒng)人員,挑戰(zhàn)較大,所以需要有更簡(jiǎn)單的發(fā)布和使用這些工具的渠道。總結(jié)起來就是,生物 信息分析工具的開發(fā)和生物數(shù)據(jù)的積累各自為戰(zhàn),缺少連接,缺少分析工具共享、數(shù)據(jù)共享和經(jīng)驗(yàn)共享的平臺(tái),從而大大影響了整體生物大數(shù)據(jù)挖掘和管理生態(tài)系統(tǒng) 的效率。
生物云(BioCloud)是解決這一系列問題的一種有效手段。互聯(lián)網(wǎng)技術(shù)的發(fā)展,特別是云技術(shù)的發(fā)展為生物大數(shù)據(jù)的管理和挖掘提供了更好的技術(shù)支撐。今 天我們處在信息發(fā)展的第三平臺(tái),所謂第三平臺(tái),指的是以移動(dòng)設(shè)備和應(yīng)用為核心,以云計(jì)算,移動(dòng)網(wǎng)絡(luò),大數(shù)據(jù)分析,社交網(wǎng)絡(luò)技術(shù)為依托的新格局。此前,IT 市場(chǎng)已經(jīng)經(jīng)歷了兩個(gè)平臺(tái),分別是20世紀(jì)60年代開始的以主機(jī)和終端為主的第一代平臺(tái)和80年代開始的以PC為核心,以局域網(wǎng)、服務(wù)器、互聯(lián)網(wǎng)為依托的第 二平臺(tái)。從第一平臺(tái)到第三平臺(tái),面向的用戶數(shù)更多,和人的距離也更近,每一個(gè)獨(dú)立的人,都有可能變成第三平臺(tái)里的用戶或者說是企業(yè)的客戶。因此,對(duì)于IT 服務(wù)供應(yīng)商而言,也意味著更多的機(jī)遇。在信息發(fā)展的今天,如何圍繞云計(jì)算、移動(dòng)設(shè)備、大數(shù)據(jù)分析,社交來促進(jìn)基因科學(xué)領(lǐng)域的發(fā)展。生物云平臺(tái)是互聯(lián)互通, 共享的平臺(tái),生物云時(shí)代的到來是歷史發(fā)展的必然和趨勢(shì)。
生物云的出現(xiàn),能大大優(yōu)化整個(gè)生態(tài)圈,提高科研協(xié)作的效率。生物云既屬于科學(xué)家也屬于工程師,科學(xué)家在這里能管理和挖掘好自己的數(shù)據(jù),工程師在這里能發(fā)布 自己的工具對(duì)接用戶,既能改進(jìn)科學(xué)家的科研效率,也能改進(jìn)工程師的開發(fā)效率和傳播效率,是現(xiàn)有生態(tài)系統(tǒng)的革命性的補(bǔ)充和完善。而且大家都不再需要為了底層 復(fù)雜的IT計(jì)算資源,并行化計(jì)算,系統(tǒng)運(yùn)維等問題擔(dān)心。
百邁客生物云平臺(tái)介紹
百邁客云從2014年5月開始開放試用到2015年10月份正式商用。對(duì)于廣大的科研用戶而言,百邁客生物云是一個(gè)完 整的交鑰匙(Turn-Key)解決方案,用戶只需要開通云平臺(tái)賬號(hào),就有了屬于自己的生物信息分析平臺(tái),科學(xué)家們可以利用這個(gè)平臺(tái)進(jìn)行生物信息的學(xué)習(xí), 培訓(xùn),科研項(xiàng)目的分析以及生物信息軟件的開發(fā)。使得自己的實(shí)驗(yàn)室以較小的成本就能獲得和別的實(shí)驗(yàn)室投資幾百萬平臺(tái)一樣的分析能力。而且這個(gè)平臺(tái)具有很好的 彈性,無需維護(hù),可以按需購買和使用。
對(duì)生物信息開發(fā)者而言,百邁客云提供了集成化的環(huán)境和友好的API,開發(fā)者可以將自身開發(fā)的軟件發(fā)布到云平臺(tái)。對(duì)科技服務(wù)供應(yīng)商而言,百邁客云平臺(tái)是一個(gè) 很好的推廣與應(yīng)用平臺(tái)。對(duì)科研院所而言,百邁客云平臺(tái)是一個(gè)集科研與教學(xué)為一身的平臺(tái),能大大提高科研成果的產(chǎn)業(yè)轉(zhuǎn)化。對(duì)于百邁客企業(yè)自身而言,云平臺(tái)的 自主創(chuàng)新之路顯得水到渠成,百邁客從科技服務(wù)起步,6年多的成長(zhǎng)之路,積累了上萬個(gè)測(cè)序項(xiàng)目經(jīng)驗(yàn),同時(shí)有龐大的數(shù)據(jù)產(chǎn)出,這些真實(shí)有效的大數(shù)據(jù)背后蘊(yùn)藏著 無限的可能,面對(duì)客戶、面對(duì)大數(shù)據(jù)、面對(duì)生態(tài)系統(tǒng)中的問題,生物云平臺(tái)開發(fā)有利用價(jià)值的工具,整合測(cè)序積累的大數(shù)據(jù),研發(fā)兩者之間的高度匹配規(guī)律,此時(shí) 呈現(xiàn)給用戶的是一款好用的生物云平臺(tái)。
百邁客云使得生物信息的分析對(duì)生物學(xué)家,醫(yī)學(xué)研究者變得透明,可重復(fù),這些對(duì)于科研來說是必不可少的。同時(shí),百邁客云能大大節(jié)省成本,用同樣的經(jīng)費(fèi)能做更 多的樣品測(cè)序,完成更多的數(shù)據(jù)分析和解讀。而且,百邁客云使得測(cè)序后的數(shù)據(jù)“活”起來,在云平臺(tái)進(jìn)行數(shù)據(jù)的共享,管理和分析更加方便。未來,百邁客云將在 科研協(xié)作上為用戶提供更多的便利。
百邁客云注重創(chuàng)新和引入人才,我們沒有簡(jiǎn)單的抄襲國(guó)外的同類產(chǎn)品,立志做全球基因大數(shù)據(jù)的挖掘,管理和科研協(xié)作整合平臺(tái)的品牌。百邁客云創(chuàng)新性的引入 了可讀化報(bào)告的自動(dòng)生成和個(gè)性化數(shù)據(jù)的分析。公共數(shù)據(jù)和文章在后臺(tái)與NCBI同步,更加方便用戶對(duì)文章,數(shù)據(jù)的共享和使用。百邁客云從一開始就是自建數(shù)據(jù) 中心,使得所有的系統(tǒng)和軟件更加可控和可以針對(duì)性的進(jìn)行優(yōu)化,未來將支持主流的公有云,使得百邁客云的擴(kuò)展性和靈活性得到更好的保障。此外,百邁客云采用 訂閱的方式進(jìn)行銷售,更加方便用戶的預(yù)算和更多的使用。
百邁客云的團(tuán)隊(duì),是由一批來自海內(nèi)外的專家和學(xué)者組成的。核心管理團(tuán)隊(duì)來自VMware,Microsoft,華大基因。首席技術(shù)官是美籍華人,在硅谷有 近20年的開發(fā)管理經(jīng)驗(yàn)。產(chǎn)品經(jīng)理曾在英國(guó)留學(xué),一直擔(dān)任一線的生物信息學(xué)研究。還有很多在生物信息,人工智能,Spark方面的開發(fā)人員。同時(shí)百邁 客云聘請(qǐng)了近20位的科研顧問指導(dǎo)產(chǎn)品的發(fā)展方向。
對(duì)用戶而言何為高效
在第一點(diǎn)中提到,科學(xué)家們?yōu)榱说玫絺€(gè)性化分析的結(jié)果往往要付出很大的資金投入、溝通成本和學(xué)習(xí)成本。從近些年的行業(yè)發(fā)展進(jìn)程中發(fā)現(xiàn),基因+云計(jì)算的成功融合帶來了轉(zhuǎn)變,不管是傳統(tǒng)的生命科學(xué)領(lǐng)域還是現(xiàn)在精準(zhǔn)醫(yī)療、人工智能、基因測(cè)序等產(chǎn)業(yè)中任何一方面的發(fā)展背后都需要海量數(shù)據(jù)能力的支持。
記得剛?cè)胄械臅r(shí)候就曾有科學(xué)家預(yù)言,21世紀(jì)是生物學(xué)世紀(jì),假如過去生命科學(xué)曾得益于引入物理學(xué)、化學(xué)和數(shù)學(xué)等學(xué)科的概念、方法與技術(shù)而得到長(zhǎng)足的發(fā)展, 那么,現(xiàn)在生命科學(xué)將以特有的方式“云計(jì)算”向自然科學(xué)及計(jì)算機(jī)科學(xué)致敬,但那個(gè)時(shí)候,也就短短的十幾年時(shí)間科學(xué)家們還未能預(yù)言出基因+云計(jì)算的理念,產(chǎn) 業(yè)發(fā)展之快,可見一斑。發(fā)展之快的另一原因我想還有基于云平臺(tái)的業(yè)務(wù)價(jià)值+需求,隨著測(cè)序成本的降低,大量數(shù)據(jù)的涌出快速推進(jìn)了云平臺(tái)的發(fā)展,對(duì)于多數(shù)企 業(yè)而言,挑戰(zhàn)與機(jī)遇大都并行而來,2014年對(duì)關(guān)于開展高通量基因測(cè)序技術(shù)臨床應(yīng)用政策的重新開閘,展現(xiàn)了國(guó)家對(duì)基因產(chǎn)業(yè)的支持態(tài)度,也就是在這個(gè)時(shí)段, 百邁客的云平臺(tái)測(cè)試版正式上線,在生物信息工具開發(fā)模式的第一和第二個(gè)階段,對(duì)于科研工作者來說,如果研究某個(gè)物種或疾病,都要各處翻閱大量文獻(xiàn)比對(duì)大量 基因數(shù)據(jù),而且研究信息不夠集中散落在各個(gè)地方,甚至還需要學(xué)會(huì)很多種分析工具,這勢(shì)必占據(jù)了科研道路上大部分時(shí)間,云平臺(tái)的業(yè)務(wù)需求就顯得尤為重要,科 研工作者可能以前要花掉幾個(gè)月甚至更長(zhǎng)的時(shí)間完成的工作,如果采用云平臺(tái)處理,使用工具一臺(tái)個(gè)人電腦即可,再花上品一杯茶的時(shí)間就可以得到相應(yīng)的數(shù)據(jù)分析 結(jié)果。時(shí)間成本效率的大大提高勢(shì)必會(huì)提升研究經(jīng)費(fèi)使用率,探索中也為科研體系資金的良性運(yùn)轉(zhuǎn)帶來些許的改變。整體而言,用戶更加需要一個(gè)平臺(tái),能幫助其了 解特定研究領(lǐng)域的發(fā)展趨勢(shì),找到所需的論文和可用的數(shù)據(jù),更加方便的進(jìn)行科研思路的交流,數(shù)據(jù)分析的可視化解讀和科研的協(xié)作。大大縮短過去需數(shù)月時(shí)間的科 研工作到一周左右,大大提高行業(yè)的數(shù)據(jù)整合和數(shù)據(jù)使用率。大數(shù)據(jù)的管理和挖掘,這也正是百邁客云努力的方向。
縱觀歷史與經(jīng)濟(jì)發(fā)展歷程,任何行業(yè)都經(jīng)歷著興衰更替是一種恒定不變的規(guī)律,生命科學(xué)與計(jì)算機(jī)科學(xué)(云計(jì)算,大數(shù)據(jù)分析,機(jī)器學(xué)習(xí))高度的雙向滲透和綜合承 載著研究技術(shù)和手段的革新使命,且促使生命科學(xué)向更高層的研究領(lǐng)域突破,“大生態(tài)、大環(huán)境”不再遙遠(yuǎn)!鄭洪坤:生物云讓中國(guó)基因大數(shù)據(jù)管理和挖掘生態(tài)系統(tǒng) 更加高效