轉錄組測序的研究對象為特定細胞在某一功能狀態(tài)下所能轉錄出來的所有mRNA。針對無參考基因組的物種,將小片段拼接出unigene,構建參考序列,以便后續(xù)分析,是研究無參物種分子機制與調控網絡的有效手段。目前已廣泛應用于基礎研究、臨床診斷、藥物研發(fā)和分子育種等領域。
為確保Reads有足夠高的質量,將下機原始測序數據(raw reads)去掉含有帶接頭的、低質量的reads,得到clean reads,保證后續(xù)分析的準確性。測序因受測序儀本身、測序試劑、樣品等因素影響,存在一定的錯誤率。堿基測序錯誤率分布圖可以反映測序數據的質量。
過濾得到的高質量clean reads需通過Trinity軟件進行組裝得到轉錄本序列。轉錄本測序深度除了受測序數據量等影響,還與該轉錄本的表達豐度有關。為了使各樣品中表達豐度較低的轉錄本組裝得更完整,對于同物種的測序樣品推薦合并組裝可以間接增加測序深度,從而使轉錄結果更完整,同時也有利于后續(xù)的數據分析;而對于不同物種的樣品,由于基因組間存在差異,推薦采用分別組裝或分開分析。
利用轉錄組數據檢測基因表達具有較高的靈敏度。通過FPKM密度圖和箱線圖不僅可以反映單個樣品基因表達水平分布和離散程度,還可以直觀的比較不同樣品的整體基因表達水平差異。
生物學重復的相關性不僅可以檢驗生物學實驗操作的可重復性,還可以評估差異表達基因的可靠性和輔助異常樣品的篩查。
差異表達基因以火山圖、MA圖、韋恩圖、聚類熱圖、蛋白互作圖等形式呈現,通過火山圖(Volcano Plot)可以快速地查看基因在兩個(組)樣品中表達水平的差異,以及差異的統(tǒng)計學顯著性。對于有生物學重復的樣本,我們采用DEseq進行樣品組間的差異表達分析,獲得兩個生物學條件之間的差異表達基因集;對于沒有生物學重復的樣本,使用EBseq進行差異分析。篩選差異基因標準一般為:Fold Change≥2,FDR<0.01。
差異表達基因GO注釋分類統(tǒng)計圖,直觀的反映出在生物過程(biological process)、細胞組分(cellular component)
和分子功能(molecular function),所有基因和差異基因注釋GO term的個數分布??缮钊胪诰虿町惢虻墓δ芗八诘男盘柾?,篩選關注差異基因注釋情況。
STRING收錄多個物種預測的和實驗驗證的蛋白質-蛋白質互作的數據庫,包括直接的物理互作和間接的功能相關。結合差異表達分析結果和數據庫收錄的互作關系對,構建差異表達基因互作網絡。
答:可從所有基因,差異基因及SNP三個方面進行數據挖掘。所有基因可通過功能注釋信息,基因ID,基因名稱,序列信息幾個方面進行挖掘,同時還可以做表達基因集維恩圖,WGCNA等分析。差異基因則可通過維恩圖分析不同處理批次幾個差異組合共同的差異基因;通常表達量變化趨勢一致的基因,可能會有相似的功能,故可通過基因共表達趨勢分析來進行差異基因的深入挖掘。SNP則可通過PCA分析,系統(tǒng)進化樹,樣品間差異SNP篩選及目標區(qū)域SNP查詢等進行挖掘。以上這些分析均可在我公司云平臺免費完成。
答:?K number Count指相關的酶的數目,比如8(6)代表8個基因注釋到這個通路,涉及到這個通路的6個酶,某兩個基因(或多個)涉及到同一個酶。
答:Go富集我們使用的是Blast2GO R包;KEGG是我們根據fisher檢驗算法自己編寫的程序。
KS<0.05,這個值和p-value的意義相同,是TopGO軟件包中的一個檢驗方法。
Q-value<0.01,這個值是對p-value值的一個校正,和FDR概念相似,是fisher檢驗中的一個檢驗方法。
測序文章一般不用這兩個指標,涉及到算法的文獻中才有。
答:(1)用實驗的方法: 針對5’端和3’端的序列來設計引物,通過PCR實驗進行延長和擴增.
(2)生信辦法: 將該基因與它的近源物種做同源,如果能找到同源基因,則將該區(qū)域的所有read比對到同源基因上,進而來確定中間部分的序列。