? ? ? ?Aging 2019年的影響因子為5.5,去年一共接收了37篇純生信分析的文章,在5分以上的雜志中算得上是對純生信十分友好的了,接下來我們看一個新出爐的案例。
? ? ? ? 題目:六個特征基因預測頭頸部鱗狀細胞癌患者生存
? ? ? ?方法和結果:從TCGA下載了RNAseq、單核苷酸多態性、拷貝數變異和臨床隨訪數據。根據RNAseq數據和臨床隨訪數據,進行單因素回歸分析,篩選到顯著與總體生存相關(OS)的基因。根據單核苷酸多態性和拷貝數變異數據篩選到顯著變異的基因。將與OS相關的基因和變異基因取交集,然后再用隨機森林進一步篩選,最終篩選到6個基因。將TCGA樣本分為訓練集和測試集,用這6個基因作為特征,用訓練集建立預后模型,結果發現模型能很好地預測預后(P
? ? ? ?結論:構建了一個6基因特征作為預測HN SCC患者生存的一個新的預后指標。
? ? ? ?這篇文章分析亮點有兩個:
? ? ? ?1.篩選特征基因的方法,拋棄了傳統的差異表達分析,而是利用回歸分析、變異分析、隨機森林三步篩選,最終確定了特征基因;
? ? ? ?2.多次驗證,本文在建立預測模型之后的所有驗證工作,都在三個不同數據集中進行了驗證,確保結果的穩定性,更有說服力。
? ? ? ?下面,我們來看看詳細的過程吧~
? ? ? ?1、鑒定與OS相關的基因
? ? ? ?單因素Cox回歸分析TCGA頭頸部鱗狀細胞癌患者的RNA表達數據,篩選P
? ? ? ?2、識別顯著變異的基因
? ? ? ?用GISTIC 2.0分析TCGA拷貝數變異數據,以識別顯著擴增或缺失的基因。一共篩選到247個顯著擴增基因和901個顯著缺失的基因。AB分別表示了各個染色體上拷貝數擴增、缺失的情況。
? ? ? ?用Mutsig2分析了TCGA突變注釋數據,以識別顯著高頻突變的基因。本次分析篩選了302個高頻突變的基因。C圖展示了各個基因的不同突變在各個樣本的情況,突變種類包括:同義突變、錯義突變、插入或缺失、移位、無意義突變、剪切位點分布和其他非同義突變。從圖中可以看出,不同的基因發生的突變的種類有很大的不同,但是相同的是,這些基因的突變可能和腫瘤的發生和發展都有一定的關聯。
? ? ? ?3、變異基因的功能分析
? ? ? ?將GISTIC 2.0和Mutsig2分析得到的顯著突變的基因取交集,結果得到1321個基因。對這些基因做GO和KEGG富集分析。KEGG富集分析結果顯示,這些基因顯著富集在癌癥、HPV感染、PI3K-Akt信號通路、人T細胞白血病病毒1感染、人巨細胞病毒感染以及許多其他與癌癥的發展相關的通路(圖A)。GO富集分析顯示,這些基因顯著富集在發育過程、細胞過程正調控、細胞分化和定位調控等通路(圖2B)。這些通路也與癌癥的發生和發展密切相關,也就是說,表現出基因組變異的基因與癌癥密切相關。
? ? ? ?4、特征基因篩選
? ? ? ?將篩選的1321個基因組變異基因和預后相關的425個基因取交集,共得到36個候選基因。然后用隨機森林作進一步的特征篩選,利用誤差率與分類樹數之間的關系,以相對重要性大于0.4的基因作為終止信號,最終篩選到6個特征基因。
? ? ? ?再將TCGA病人分為訓練集和測試集。首先根據訓練集樣本這6個基因的表達量、單因素Cox回歸系數,建立如下的風險評分模型。
? ? ? ? 計算訓練集每個樣本的Risk分數,然后以Risk分數的中位數將樣本分為兩類:Risk分數大于中位數的樣本被定為高風險,低于中位數的樣本被定為低風險。將高風險病人和低風險病人進行生存分析比較,發現高風險病人預后更差(圖CE)。6基因特征的1年、3年和5年平均AUC為0.75(圖D)。
? ? ? ?5、預后模型驗證
? ? ? ?文章用TCGA測試集、TCGA所有數據集和GSE65858數據集分別對預后模型進行驗證。都得到了與訓練集相似的結果(高風險組預后較差)。
? ? ? ?6、預后模型的臨床獨立性分析
? ? ? ?將建立的預后模型與其他臨床數據(年齡、性別、TMN分期和腫瘤分級)進行單因顯示,該預測模型中的6個基因是一種獨立于其他臨床因素的預后指標,在臨床應用時表現出獨立的預測性能。
? ? ? ?7、GSEA(基因富集分析)高風險和低風險人群路徑差異
? ? ? ?在TCGA訓練集中使用GSEA分析高風險和低風險人群中顯著富集的途徑。分析發現:有20條顯著富集的通路,其中局灶性粘附、TGF-β信號通路、WNT信號通路和ERBB信號通路與腫瘤的發生、發展和轉移密切相關,并且這些途徑在高風險樣本中顯著富集。
? ? ? ?這篇文章不用做實驗,所有用到的突變、RNAseq、臨床跟蹤數據都可以在TCGA、GEO數據庫中下載到。由此可見,通過對數據進行靈活挖掘運用,一樣可以發高分文章!