久久99精品亚洲乱码三区_午夜福利亚洲电影_日本一区二区三区欧美在线观看_5g在线视讯年龄确认18_久久久久久久久国产精品2

機(jī)器學(xué)習(xí)識(shí)別腫瘤干性指數(shù)mRNAsi
2021.06.15
2099次

腫瘤干性細(xì)胞指數(shù)si是一種描述腫瘤細(xì)胞與干細(xì)胞相似程度的指標(biāo),可以認(rèn)為是CSCs的量化。干細(xì)胞具有自我更新以及治療耐藥性的特征,在癌癥中發(fā)揮著重要作用。


2018年發(fā)表在Cell上面的一篇文章采用創(chuàng)新的單類(lèi)邏輯回歸(OCLR)機(jī)器學(xué)習(xí)算法,通過(guò)對(duì)干細(xì)胞轉(zhuǎn)錄組、甲基化組和轉(zhuǎn)錄因子結(jié)合位點(diǎn)的多平臺(tái)分析,得到了兩個(gè)獨(dú)立的干性指數(shù),其中mRNAsi可以反映干細(xì)胞的基因表達(dá)特征,另一種mDNAsi則反映干細(xì)胞的表觀遺傳特征。目前研究腫瘤干細(xì)胞大多通過(guò)RNA計(jì)算的mRNAsi進(jìn)行相似程度評(píng)估,因此本次我們也針對(duì)mRNAsi的OCLR計(jì)算過(guò)程進(jìn)行分享。


? 流程大體思路如下:

利用PCBC數(shù)據(jù)庫(kù)中的干細(xì)胞類(lèi)群及其分化的外胚層、中胚層和內(nèi)胚層祖細(xì)胞信息作為初始數(shù)據(jù)集,使用OCLR算法訓(xùn)練推導(dǎo)出干性指數(shù)。然后將基于OCLR的計(jì)算得到的干性指數(shù)對(duì)應(yīng)的轉(zhuǎn)錄組表達(dá)量應(yīng)用于TCGA數(shù)據(jù)集,計(jì)算每個(gè)樣本的mRNAsi。每個(gè)干性指數(shù)(si)的范圍從低(0)到高(1)。


一、加載相應(yīng)R包


微信圖片_20210615114732.png



二、創(chuàng)建genes2hugo函數(shù)


該函數(shù)可以將Ensemble ID轉(zhuǎn)換為HUGO Symbols。


微信圖片_20210615114737.png



三、創(chuàng)建模型訓(xùn)練函數(shù)


首先我們創(chuàng)建函數(shù)main.train對(duì)新數(shù)據(jù)進(jìn)行訓(xùn)練,該函數(shù)的流程分為以下幾步:

1)利用synGet獲取PCBC數(shù)據(jù),包括兩種數(shù)據(jù),其中X是一個(gè)由229個(gè)細(xì)胞樣本的13189個(gè)基因構(gòu)成的表達(dá)矩陣,Y是一個(gè)含有301個(gè)觀測(cè)值的單變量數(shù)據(jù)框;

2)從 metadata 獲取 labels;

3)調(diào)用之前創(chuàng)建的genes2hugo函數(shù),將Ensembl ID轉(zhuǎn)換為HUGO Symbols;

4)計(jì)算每個(gè)基因的平均值中心(初始值-平均值);

5)根據(jù)y是否等于“SC”判斷干細(xì)胞并將所有樣本劃分為干細(xì)胞組X.tr和非干細(xì)胞組X.bk;

6)執(zhí)行g(shù)elnet函數(shù)來(lái)訓(xùn)練模型,gelnet函數(shù)使用協(xié)調(diào)下降的迭代方法,具有四個(gè)主要的參數(shù):

# X: 由( X.r )轉(zhuǎn)置后的矩陣

# y: 如果為`NULL`則為一類(lèi)模型?

# l1: L1范數(shù)懲罰的系數(shù)=> 0?

# l2: L2范數(shù)懲罰的系數(shù)=> 1

7)將signature文件存儲(chǔ)為pcbc-stemsig.tsv;

8)使用留一法交叉驗(yàn)證測(cè)試模型的準(zhǔn)確性。

函數(shù)main.train完整代碼如下:


微信圖片_20210615114741.png

微信圖片_20210615114744.png

微信圖片_20210615114747.png




四、創(chuàng)建預(yù)測(cè)函數(shù)


接下來(lái)創(chuàng)建main.predict函數(shù)預(yù)測(cè)未知樣本的mRNAsi指數(shù),該函數(shù)的流程分為以下幾步:

1)讀入上個(gè)模塊中保存的signature文件,同時(shí)讀入樣本的基因表達(dá)數(shù)據(jù)(該示例從synapse中獲取表達(dá)數(shù)據(jù));

2)過(guò)濾基因ID,保留僅在signature中包含的HUGO symbols, 并將表達(dá)矩陣X轉(zhuǎn)為矩陣形式,其中行為基因名,列為樣本名稱(chēng);

3)使用Spearman相關(guān)性對(duì)矩陣`X`評(píng)分,并將評(píng)分標(biāo)準(zhǔn)化為0到1之間;

4)分?jǐn)?shù)輸出到文件mRNA_StemScore.tsv。

函數(shù)main.predict完整代碼如下:


微信圖片_20210615114750.png


五、執(zhí)行完整分析


在創(chuàng)建完上述函數(shù)main.train和main.predict后,我們使用main函數(shù)將這兩個(gè)函數(shù)打包,最后運(yùn)行main函數(shù)執(zhí)行完整的分析。


微信圖片_20210615114753.png


參考文獻(xiàn):Malta TM, Sokolov A, Gentles AJ, Burzykowski T, Poisson L, Weinstein JN, Kamińska B, Huelsken J, Omberg L, Gevaert O, Colaprico A, Czerwińska P, Mazurek S, Mishra L, Heyn H, Krasnitz A, Godwin AK, Lazar AJ; Cancer Genome Atlas Research Network, Stuart JM, Hoadley KA, Laird PW, Noushmehr H, Wiznerowicz M. Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation. Cell. 2018 Apr 5;173(2):338-354.e15. doi: 10.1016/j.cell.2018.03.034. PMID: 29625051; PMCID: PMC5902191.


在線咨詢
在線咨詢
OA系統(tǒng)入口