捕獲Hi-C測序鑒定33個(gè)乳腺癌風(fēng)險(xiǎn)基因座潛在的110個(gè)靶基因
1.研究背景
目前GWAS研究已經(jīng)鑒定了約100個(gè)乳腺癌易感基因座。絕大多數(shù)乳腺癌風(fēng)險(xiǎn)SNP位于非編碼區(qū),可能影響基因轉(zhuǎn)錄調(diào)控;甚至有許多風(fēng)險(xiǎn)SNP位于“基因沙漠”中,即距離最近的蛋白編碼基因數(shù)百Kb遠(yuǎn)。鑒定這些風(fēng)險(xiǎn)位點(diǎn)作用的靶基因有助于深入理解這些GWAS風(fēng)險(xiǎn)位點(diǎn)的作用機(jī)制。鑒定乳腺癌風(fēng)險(xiǎn)位點(diǎn)功能的系統(tǒng)性方法,主要包括大基因組區(qū)域的精細(xì)定位、SNP基因型與鄰近基因表達(dá)之間的相關(guān)分析(eQTL,基因表達(dá)數(shù)量性狀定位)和染色質(zhì)構(gòu)象捕獲技術(shù)(Hi-C、CHIA-PET等)鑒定調(diào)控區(qū)域的靶基因。
2.研究方法
利用Capture Hi-C(CHi-C)技術(shù)在6種細(xì)胞系中對68個(gè)乳腺癌風(fēng)險(xiǎn)基因座進(jìn)行高通量測序,即首先構(gòu)建Hi-C文庫,針對該68個(gè)loci(目標(biāo)區(qū)域共計(jì)14.7Mb)設(shè)計(jì)RNA捕獲探針(Agilent),雜交捕獲目標(biāo)片段,最后上機(jī)測序,off-target(目標(biāo)區(qū)域以外的) di-tags(插入片段兩端的Reads)定義為2端都未比對到風(fēng)險(xiǎn)基因座。
3.技術(shù)路線
4.研究結(jié)果
1、63個(gè)風(fēng)險(xiǎn)基因座的互作peak(loop)分布
在2種ER +乳腺癌細(xì)胞系(T-47D,ZR-75-1)、2種ER-乳腺癌細(xì)胞系(BT-20,MDAMB-231)、1種“正?!比橄偕掀ぜ?xì)胞系 (Bre80-Q-TERT/Bre80)和1種非乳腺類淋巴母細(xì)胞系(GM06990)中進(jìn)行了CHi-C測序。風(fēng)險(xiǎn)基因座定義為包含至少1個(gè)風(fēng)險(xiǎn)SNP位點(diǎn)在內(nèi),且包含與該SNP相關(guān)(r2>0.2)的所有SNP的一個(gè)連續(xù)區(qū)域。每個(gè)細(xì)胞系的互作peak數(shù)目在0-1744的范圍內(nèi),有12個(gè)基因座沒有在以上任何一種細(xì)胞系中鑒定到互作peak。剩余的51個(gè)loci中46個(gè)是與所有乳腺癌或者ER+乳腺癌風(fēng)險(xiǎn)相關(guān)的。
作者發(fā)現(xiàn)ER+乳腺癌細(xì)胞系中互作peak數(shù)目顯著高于ER-乳腺癌細(xì)胞系,且ER+乳腺癌細(xì)胞系中存在很大一部分距離大于2Mb的互作片段。分析樣本間互作peak的Jaccard相似性,發(fā)現(xiàn)ER+和ER-各自組內(nèi)具有更高的相似性。
互作peak示例:下圖為10q26.13基因座的互作peak(loop),在ER+乳腺癌細(xì)胞系和正常乳腺上皮細(xì)胞系中鑒定到了互作peak,但是ER-乳腺癌細(xì)胞系中則未檢測到?;プ靼谢虻霓D(zhuǎn)錄起始位點(diǎn)(TSS)位于捕獲區(qū)域內(nèi),并且和相距幾百Kb遠(yuǎn)的特異的HindIII酶切片段形成環(huán)(互作Peak)。在T-47D細(xì)胞系中,這些遠(yuǎn)距離片段與DNase I超敏位點(diǎn)、CTCF、FOXA1、GATA3轉(zhuǎn)錄因子結(jié)合位點(diǎn)以及雌激素受體ERα結(jié)合位點(diǎn)共定位。
2、定義潛在的靶基因
作者將靶基因定義為至少兩個(gè)細(xì)胞系中,定位到捕獲區(qū)域內(nèi)或捕獲區(qū)域的順式作用區(qū)間(≤5 Mb)的基因,且其轉(zhuǎn)錄起始位點(diǎn)/TSS定位在相互作用片段上。以此為準(zhǔn)能夠?yàn)?1個(gè)基因座中的33個(gè)(64.7%)鑒定到110個(gè)推定的靶基因,其中94個(gè)為蛋白編碼基因,16個(gè)非編碼RNA。作者比較了GWAS風(fēng)險(xiǎn)SNP位點(diǎn)的臨近基因以及本研究中鑒定到的靶基因,發(fā)現(xiàn)其中24個(gè)基因座的鄰近基因是唯一的CHi-C靶基因(N = 9)或幾個(gè)CHi-C靶基因之一(N = 15)。
注:√表示鄰近基因與CHi-C靶基因一致,且有且僅有一個(gè)靶基因;√+表示該基因座鄰近基因?yàn)镃Hi-C靶基因之一;X 表示鄰近基因不是CHi-C靶基因。
3、CHi-C靶基因和eQTL分析
為了評估推定的靶基因在乳腺癌病因中具有因果作用的可能性,作者首先使用風(fēng)險(xiǎn)SNP(或與風(fēng)險(xiǎn)SNP連鎖不平衡的位點(diǎn),r2> 0.8)和TCGA數(shù)據(jù)庫中的RNA-Seq數(shù)據(jù)(N=547)進(jìn)行eQTL分析( TCGA),并對匹配的DNA甲基化數(shù)據(jù)和體細(xì)胞拷貝數(shù)變異進(jìn)行了校正,根據(jù)ER狀態(tài)進(jìn)行分層分析。共計(jì)鑒定到了22個(gè)顯著SNP-基因組合(t檢驗(yàn)p<0.05),其中9個(gè)經(jīng)過多重檢驗(yàn)FDR校正后仍然顯著。其中,3個(gè)基因?yàn)猷徑颉?/p>
4、CHi-C靶基因和疾病特異性生存期(DSS)分析
作者所納入的風(fēng)險(xiǎn)SNP在此之前只有一個(gè)位點(diǎn)(16q12.1-rs3803662)報(bào)道了與疾病預(yù)后相關(guān)。本研究中作者直接分析了代謝型乳腺癌隊(duì)列中潛在的靶基因的表達(dá)水平與的患者預(yù)后之間的關(guān)聯(lián)(分別對ER +和ER-亞組進(jìn)行生存分析)。其中32個(gè)靶基因(33%)與ER +乳腺癌患者的DSS相關(guān),6個(gè)DSS相關(guān)的靶基因?yàn)閑QTL靶基因。
5、CHi-C靶基因和體細(xì)胞突變癌基因分析
CHi-C推定的靶基因與560個(gè)乳腺癌的全基因組測序分析得到的727個(gè)癌基因列表進(jìn)行比較,CHi-C靶基因高度富集這些癌癥基因(n=14),包括證據(jù)充分的癌基因(CCND1、 CDKN2A、CDKN2B、MYC、MAP3K1、 ESR1和FGFR2)以及表征不明的癌基因(TET2、 KLF4、 MLLT10、FADD、TBX3、PAX9 和 ZFP36L1)。
綜合分析體細(xì)胞突變數(shù)據(jù)與eQTL和DSS三種指標(biāo),6個(gè)基因座至少有2個(gè)指標(biāo)支持,見下表。其中4個(gè)基因CDCA7、FADD、ZFP36L1和MRPL34的表達(dá)水平同時(shí)與SNP基因型以及DSS相關(guān)。
怎么樣,Hi-C技術(shù)是不是非常強(qiáng)大,做完GWAS沒有鑒定到位于編碼區(qū)的候選SNP,或者全是基因沙漠區(qū)的候選SNP,如何開展下游機(jī)制研究呢?不妨試一試Hi-C測序。
參考文獻(xiàn):Baxter J S, Leavy O C, Dryden N H, et al. Capture Hi-C identifies putative target genes at 33 breast cancer risk loci[J]. Nature communications, 2018, 9(1): 1028.