
b)?GEO Sample (GSM) 樣本ID號(hào)
c)?GEO Series (GSE) study的ID號(hào)
d)?GEO Dataset (GDS) 數(shù)據(jù)集的ID號(hào)這些數(shù)據(jù)均可以在ftp(ftp://ftp-trace.ncbi.nih.gov/geo/)進(jìn)行下載。

一般我們?cè)谖恼轮锌吹降亩际荊SE的ID,那我們?nèi)绾瓮ㄟ^GSE的ID進(jìn)行數(shù)據(jù)的下載呢,下面就讓小編手把手教您如何進(jìn)行GEO數(shù)據(jù)的下載。
咱們以下面篇文章為例:
我們?cè)谖哪┱业阶髡邤?shù)據(jù)上傳地址和GSE的ID
然后在GEO官網(wǎng)輸入GSE115354,
首先我們可以看到是關(guān)于該study的描述信息,包括文章信息、測(cè)序物種、實(shí)驗(yàn)類型等等
而我們最關(guān)心的東西在頁面的下方
如果我們想下載作者標(biāo)準(zhǔn)化后的數(shù)據(jù),可以直接在這個(gè)頁面中Supplementary file中進(jìn)行下載,那如果我想下載原始數(shù)據(jù)怎么辦呢,不要著急,您慢慢往下看。
我們點(diǎn)擊頁面中Sample對(duì)應(yīng)的GSM的ID,每個(gè)樣本都對(duì)一個(gè)GSM,我們以第一個(gè)為例,點(diǎn)擊后進(jìn)入以下界面
然后點(diǎn)擊最下方SRA編號(hào),進(jìn)入下面的頁面
這里面包含了這個(gè)樣本的基本信息,包括測(cè)序平臺(tái)、文庫類型、數(shù)據(jù)量等基本信息,然后點(diǎn)擊頁面右上方的Send to按鈕,選擇File,F(xiàn)ormat選擇RunInfo,然后點(diǎn)擊Creat file下載一個(gè)csv文件,打開文件,可以看到一個(gè)下載鏈接
點(diǎn)擊鏈接就可以直接下載數(shù)據(jù)了。
下載完成后您可能有些疑問,我們一般測(cè)序數(shù)據(jù)都輸pair-end的雙端reads,為什么我下載的是一個(gè).sra結(jié)尾的數(shù)據(jù)呢?難道是一個(gè)單端數(shù)據(jù)嗎?這個(gè)當(dāng)然不是,SRA為了節(jié)省空間,一般上傳的數(shù)據(jù)都是.sra的壓縮文件,那我們?nèi)绾螌ra文件轉(zhuǎn)化成常用的雙端數(shù)據(jù)呢?這里就要用到SRA提供的一個(gè)工具:fastq-dump,
下載網(wǎng)址:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software
官方說明文檔:https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc&f=fastq-dump
當(dāng)然,這個(gè)軟件需要在Linux系統(tǒng)下進(jìn)行操作,命令行如下:
fastq-dump?*.sra?--split-3
這里的–split-3會(huì)把原來雙端拆分成兩個(gè)文件,但是原來單端并不會(huì)保存成兩個(gè)文件。運(yùn)行完成后就能獲得了您想要的原始數(shù)據(jù)了。如果您還想學(xué)習(xí)更多實(shí)用的高通量測(cè)序數(shù)據(jù)挖掘和分析的知識(shí),歡迎點(diǎn)擊下方按鈕聯(lián)系我們。
