久久99精品亚洲乱码三区_午夜福利亚洲电影_日本一区二区三区欧美在线观看_5g在线视讯年龄确认18_久久久久久久久国产精品2

CRISPR篩選分析軟件MAGeCK功能詳解
2021.11.22
7535次

一、MAGeCK概要

MAGeCK是一種基于模型的全基因組 CRISPR-Cas9 敲除的分析計(jì)算工具,可從最近的基因組規(guī)模 CRISPR-Cas9 敲除篩選 (或 GeCKO) 技術(shù)中識(shí)別重要基因。由 Dana-Farber 癌癥研究所劉曉樂博士實(shí)驗(yàn)室的 Wei Li 和 Han Xu 開發(fā),并由國家兒童醫(yī)學(xué)中心的 Wei Li 實(shí)驗(yàn)室積極更新。


二、MAGeCKFlute的主要功能

功能 描述
mageck count 將原始 FASTQ 數(shù)據(jù)映射到library參考文件并計(jì)算每個(gè) sgRNA 的讀數(shù)
mageck test MAGeCK RRA(通過計(jì)算 RRA富集分?jǐn)?shù) 來識(shí)別 CRISPR 篩選中的hits以表明基因的重要性)
mageck mle MAGeCK MLE(通過計(jì)算每個(gè)目標(biāo)基因的“β分?jǐn)?shù)”來衡量目標(biāo)被擾亂后的選擇程度,從而識(shí)別 CRISPR 篩選中的hits)
VISPR MAGeCK 結(jié)果的可視化
mageck-vispr FASTQ 和原始計(jì)數(shù)級(jí)別的質(zhì)量控制;包括所有的MAGeCK 和 VISPR 的功能
BatchRemove 消除CRISPR 篩選raw read-count水平的批次效應(yīng)
mageck test/mle, --cnv-normparameter 更正使用 MAGeCK RRA 和 MAGeCK MLE 識(shí)別hits時(shí)由拷貝數(shù)引起的偏差
mageck_nest.py 提高h(yuǎn)it識(shí)別率并移除outlier sgRNAs
FluteRRA MAGeCK RRA結(jié)果的下游分析
FluteMLE


三、流程摘要


1、使用 MAGeCK 和 MAGeCK-VISPR 進(jìn)行 CRISPR 篩選數(shù)據(jù)分析的基礎(chǔ)知識(shí)


MAGeCKFlute 分別使用 mageck count 和 mageck test/mle 執(zhí)行讀取映射和命中識(shí)別,這是 MAGeCK 和 MAGeCK-VISPR 的主要功能(表 1)。MAGeCKFlute 的典型輸入是 FASTQ 文件或原始read-count表,其中列是樣本,行是 sgRNA。CRISPR 篩選分析通常包含兩個(gè)部分:sgRNA 水平和基因水平分析。sgRNA水平分析模型獨(dú)立讀取單個(gè) sgRNA 的計(jì)數(shù),計(jì)算每個(gè)sgRNA的倍數(shù)變化和P值,類似于RNA-seq分析。基因水平分析整合了 sgRNA 水平倍數(shù)變化和 P 值,以識(shí)別感興趣的基因hits。MAGeCK 首先將測(cè)序讀數(shù)比對(duì)到 sgRNA 文庫,然后標(biāo)準(zhǔn)化 sgRNA 讀數(shù)計(jì)數(shù)以調(diào)整測(cè)序深度。

2、質(zhì)量控制和read-count表生成

在識(shí)別hits之前,需要將reads與已知的 sgRNA 庫對(duì)齊并評(píng)估篩選質(zhì)量(圖 2)。MAGeCK 和 MAGeCK-VISPR 將reads與 sgRNA 文庫文件比對(duì),計(jì)算每個(gè) sgRNA 的read數(shù)量并輸出一組 QC 統(tǒng)計(jì)信息,包括以下內(nèi)容。

● 比對(duì)到的reads數(shù)量(圖 2a);

● 比對(duì)到的reads的百分比(圖 2a);

● 樣本之間的read count相關(guān)性(圖2b);

● Gini 指數(shù)(衡量 sgRNA read count的均勻性)(圖 2c);

● 比對(duì)到0個(gè)reads的 sgRNA 的數(shù)量(圖 2d)。

比對(duì)read百分比過低可能意味著存在寡核苷酸合成錯(cuò)誤、測(cè)序錯(cuò)誤或受污染的樣品。高比對(duì)率則表明樣品制備和測(cè)序成功。缺失sgRNA 量少也是高質(zhì)量樣本的良好指標(biāo)。MAGeCK 和 MAGeCK-VISPR 使用基尼指數(shù)(這是經(jīng)濟(jì)學(xué)上衡量美國收入不平等的常用指標(biāo)。)來衡量 sgRNA 讀取計(jì)數(shù)的均勻性。高 Gini 指數(shù)表明 sgRNA read count在目標(biāo)基因中分布不均勻。這可能是由 CRISPR 寡核苷酸合成的不均勻性、低質(zhì)量的病毒文庫包裝、病毒轉(zhuǎn)染效率低下或篩選過程中的過度選擇引起的。


1.png


3、去除批次效應(yīng)

在多個(gè)批次中執(zhí)行或排序的 CRISPR 篩選可能包含批次效應(yīng)。如果 CRISPR 篩選數(shù)據(jù)是使用不同的試劑或測(cè)序平臺(tái)、在不同的時(shí)間或在實(shí)驗(yàn)條件的任何其他意外變化下生成的,則可以在這些數(shù)據(jù)中觀察到批次效應(yīng)。在這種情況下,去除批次效應(yīng)是數(shù)據(jù)分析的必要步驟。一個(gè)例子是結(jié)腸癌中的公共數(shù)據(jù)庫CRISPR 篩選,它具有很強(qiáng)的批次效應(yīng),其中樣品按批次而不是按條件聚類(圖 3a)。使用 ComBat 函數(shù)(合并到 MAGeCKFlute 中)在 sgRNA 計(jì)數(shù)級(jí)別校正數(shù)據(jù)集中的批次效應(yīng)后,生物重復(fù)正確地聚集在一起(圖 3b),這表明批次效應(yīng)已被移除。


2.png


4、識(shí)別CRISPR 篩選hits

用于識(shí)別基因hits的第一種方法是 MAGeCK RRA。MAGeCK RRA 允許比較兩個(gè)實(shí)驗(yàn)條件。它可以識(shí)別在兩種條件下基本上選擇的 sgRNA 和相應(yīng)的基因。MAGeCK RRA 根據(jù)從負(fù)二項(xiàng)式模型計(jì)算出的 P 值對(duì) sgRNA 進(jìn)行排序,并使用名為 α-RRA 的修改后的 RRA 算法來識(shí)別正選擇或負(fù)選擇的基因。MAGeCK RRA 使用 RRA 富集分?jǐn)?shù)來指示基因的重要性。可以模擬復(fù)雜實(shí)驗(yàn)設(shè)計(jì)的另一種方法是 MAGeCK MLE,它可用于分析來自具有多種試驗(yàn)條件的篩選數(shù)據(jù),例如包含至少三個(gè)條件的典型藥物篩選:第 0 天條件、對(duì)照條件(用媒介,如 DMSO)和藥物治療的條件。MAGeCK MLE 還模擬了 sgRNA 敲除效率,這可能因不同的序列內(nèi)容和染色質(zhì)結(jié)構(gòu)而異。MAGeCK MLE計(jì)算每個(gè)目標(biāo)基因的“beta score”,以測(cè)量基因擾動(dòng)時(shí)的選擇程度,類似于差異表達(dá)分析中的“對(duì)數(shù)倍數(shù)變化”測(cè)量。

MAGeCK-VISPR 進(jìn)一步整合了 MAGeCK 的所有功能,并使用基于 Web 的交互式框架 VISPR 對(duì)所有結(jié)果進(jìn)行質(zhì)量控制和可視化。MAGeCK NEST 為 MAGeCK-VISPR 添加了功能以改進(jìn)hit calling。首先,MAGeCK NEST 可以使用網(wǎng)絡(luò)重要性評(píng)分工具 (NEST) 來整合來自蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)的信息,從而改善結(jié)果。其次,MAGeCK NEST 采用最大似然法去除 sgRNA 異常值,這些異常值通常具有更高的 G 核苷酸計(jì)數(shù)。如果有很多 sgRNA 異常值或如果在篩選數(shù)據(jù)中觀察到高 Gini 指數(shù),用戶應(yīng)該考慮使用 MAGeCK NEST 來改進(jìn)hit calling。

5、使用陰性對(duì)照序列或非必需基因進(jìn)行讀數(shù)歸一化

通常需要在單個(gè)實(shí)驗(yàn)中比較不同條件之間的read-counts。為了在不同生長條件之間進(jìn)行標(biāo)準(zhǔn)化,理想的標(biāo)準(zhǔn)是靶向所有起始細(xì)胞群中完全惰性的基因組位置的sgRNA,這樣在任何實(shí)驗(yàn)條件下細(xì)胞增殖都不會(huì)受到不同的影響。AAVS1 是一個(gè)經(jīng)過充分驗(yàn)證的基因座,可用于承載外源基因序列。它具有開放的染色質(zhì)結(jié)構(gòu)并且具有轉(zhuǎn)錄能力。最重要的是,插入或刪除 AAVS1 基因座 sgRNA 對(duì)細(xì)胞沒有已知的不利影響,靶向 AAVS1 的 sgRNA 在樣本中具有相似的行為(圖 3c),表明靶向 AAVS1 的 sgRNA 可能是讀取計(jì)數(shù)的合適對(duì)照正常化。使用 AAVS1 靶向 sgRNA 作為對(duì)照還可以減輕 Cas9 的核酸酶誘導(dǎo)的毒性并降低整體假陽性率。

與靶向 AAVS1 基因座的 sgRNA 類似,靶向非必需基因的 sgRNA 也可用于標(biāo)準(zhǔn)化讀取計(jì)數(shù)。如果 AAVS1 靶向 sgRNA 不可用,我們編制了一份非必需基因列表(補(bǔ)充數(shù)據(jù) 1),用于 CRISPR 篩選的標(biāo)準(zhǔn)化。從 927 個(gè)在多個(gè) CRISPR 篩選中沒有實(shí)質(zhì)性影響的非必需基因開始,我們刪除了在多個(gè)細(xì)胞系中低水平表達(dá)的基因。我們?cè)诎┘?xì)胞系百科全書(CCLE)細(xì)胞系(補(bǔ)充圖 1b)的 98.3%(1,036 個(gè)中的 1,019 個(gè))中選擇了表達(dá)在第 5-100 個(gè)百分位(補(bǔ)充圖 1a)中的基因。937 個(gè)非必需基因中有 350 個(gè)通過了這些標(biāo)準(zhǔn)(補(bǔ)充圖 1)。這 350 個(gè)基因的表達(dá)分布在數(shù)百種癌細(xì)胞系中是一致的(補(bǔ)充數(shù)據(jù) 1)。這表明靶向這些基因的 sgRNA 是 CRISPR 篩選標(biāo)準(zhǔn)化的合適對(duì)照,如果靶向 AAVS1 的 sgRNA 不可用(圖 3d)。MAGeCKFlute 還支持使用非必需基因列表中的 sgRNA 進(jìn)行讀取標(biāo)準(zhǔn)化,我們建議至少包括庫中的 200 個(gè)非必需基因以確保有效的標(biāo)準(zhǔn)化。

6、拷貝數(shù)偏差校正

在 CRISPR 篩選中,在目標(biāo)基因組位點(diǎn)誘導(dǎo)雙鏈斷裂的過程會(huì)觸發(fā) DNA 損傷反應(yīng)機(jī)制,并可能導(dǎo)致細(xì)胞周期停滯,尤其是在具有高拷貝數(shù)區(qū)域的細(xì)胞中。當(dāng)擴(kuò)增區(qū)域包含目標(biāo)非必需基因時(shí),觀察到的 beta 分?jǐn)?shù)通常比預(yù)期的更負(fù)面(補(bǔ)充圖 2a)。β 分?jǐn)?shù)為負(fù)表示敲除該基因可能會(huì)抑制細(xì)胞增殖或?qū)е录?xì)胞死亡,從而在基本基因鑒定中引入了假陽性。如果用戶提供了相應(yīng)的拷貝數(shù)文件(示例數(shù)據(jù)的相應(yīng)拷貝數(shù)文件作為補(bǔ)充數(shù)據(jù)提供),我們將在protocol中提出一種可選方法(步驟 7A(viii))來糾正與拷貝數(shù)相關(guān)的偏差2)。在這種方法中,基因組拷貝數(shù)和觀察到的必要性之間的關(guān)系是針對(duì)每個(gè)實(shí)驗(yàn)中的每個(gè)基因進(jìn)行定量建模的。然后根據(jù)觀察到的結(jié)果調(diào)整拷貝數(shù)偏差,為所有受影響的基因生成校正的 beta 分?jǐn)?shù)。該功能已被整合到 MAGeCKFlute 流程中,可以在執(zhí)行 MAGeCK RRA 或 MLE 時(shí)應(yīng)用。

7、使用必需基因進(jìn)行 Beta 評(píng)分標(biāo)準(zhǔn)化

暴露于不同條件(有或沒有藥物治療)的細(xì)胞可能具有不同的增殖率。例如,CDK4/6 抑制劑會(huì)影響細(xì)胞周期并通常會(huì)降低細(xì)胞增殖。因此,將倍增時(shí)間較快的細(xì)胞與增殖較慢的細(xì)胞進(jìn)行比較可能會(huì)導(dǎo)致hit 識(shí)別的偏差,因?yàn)榛蛩坪踉谠鲋齿^快的細(xì)胞群中具有更強(qiáng)的選擇性。在比較使用和未使用藥物處理的樣品時(shí),通常會(huì)出現(xiàn)這種情況,因?yàn)樵S多藥物會(huì)影響細(xì)胞增殖。每個(gè)基因的“beta 分?jǐn)?shù)”表示基因正在經(jīng)歷的選擇類型:正 beta 分?jǐn)?shù)表示正選擇,負(fù) beta 分?jǐn)?shù)表示負(fù)選擇。當(dāng)不同樣品在CRISPR篩選中同時(shí)培養(yǎng)時(shí),倍增時(shí)間越短的細(xì)胞選擇周期越多;因此,快速生長細(xì)胞中的基因往往會(huì)產(chǎn)生更高的絕對(duì) β 分?jǐn)?shù)(補(bǔ)充圖 3a)。為了矯正這種偏差,我們生成了一個(gè)包含 625 個(gè)精選的、高可信度的核心必需基因的列表(補(bǔ)充數(shù)據(jù) 3),可用于標(biāo)準(zhǔn)化 beta 分?jǐn)?shù)(有關(guān)詳細(xì)信息,請(qǐng)參閱補(bǔ)充方法)。MAGeCKFlute 使用核心必需基因列表(步驟 11B)對(duì)基因 beta 評(píng)分進(jìn)行歸一化,假設(shè)它們?cè)趦蓚€(gè)樣本之間同樣負(fù)選擇,即使兩個(gè)樣本具有不同的基線增殖率。所有基因的 beta 分?jǐn)?shù)都根據(jù)這組精制的 625 個(gè)必需基因的中值 beta 分?jǐn)?shù)進(jìn)行標(biāo)準(zhǔn)化。歸一化后,兩個(gè)樣本的回歸線的斜率和 x 截距分別接近 1 和 0,這表明在全基因組篩選中對(duì)必需基因進(jìn)行歸一化使樣本之間的 beta 分?jǐn)?shù)具有可比性(補(bǔ)充圖 3b)。對(duì)于經(jīng)過某種處理的 CRISPR 篩選,我們建議用戶對(duì)必需基因進(jìn)行歸一化,以使處理和對(duì)照樣本之間的 beta 分?jǐn)?shù)具有可比性。?

8、細(xì)胞處理后的差異hits識(shí)別

在使用必需基因進(jìn)行 Beta 評(píng)分標(biāo)準(zhǔn)化后,下一步是通過減去它們的 Beta 評(píng)分來確定治療和對(duì)照條件之間的差異hits。此差異 Beta 分?jǐn)?shù)用于識(shí)別與治療相關(guān)的篩選hits。可以在 FluteMLE 函數(shù)中指定截止值,默認(rèn)值為微分 Beta 分?jǐn)?shù)的平均值1 s.d.。我們采用了“分位數(shù)匹配”方法來穩(wěn)健地估計(jì) σ,它是 beta 分?jǐn)?shù) β 的標(biāo)準(zhǔn)差。選擇 σ 使得 β 的絕對(duì)值的 (1 ? p) 經(jīng)驗(yàn)分位數(shù)與先驗(yàn)正態(tài)分布 N(0,σ 2) 的 (1 ? p/2) 理論分位數(shù)相匹配,其中 p 代表β 分?jǐn)?shù)的分位數(shù)。當(dāng)截止值為 1 sd時(shí),p 設(shè)置為 0.32, 當(dāng)截止值為 2sd時(shí),p設(shè)置為0.05,分別對(duì)應(yīng) 68% 和 95% 的 beta 分?jǐn)?shù)落在平均值的 1 和 2 sd 內(nèi)。如果我們將正態(tài)分布的理論上分位數(shù)寫為 Q N (1 ? p),將 β 的經(jīng)驗(yàn)上分位數(shù)寫為 Q |β| (1 ? p),那么 σ 計(jì)算公式為:


34.jpg


9、篩選hit genes的功能分析


篩選hits的功能分析提供有關(guān)在篩選設(shè)計(jì)中查詢的細(xì)胞系統(tǒng)生物學(xué)的信息。目前廣泛使用的功能分析包括 GO 富集分析和 GSEA 分析。正如預(yù)期的那樣,在簡(jiǎn)單的增殖篩選中,管家途徑的核心成分(例如,核糖體和剪接體)通常被負(fù)面選擇,并且已發(fā)現(xiàn)預(yù)測(cè)為細(xì)胞類型特異性的途徑的成分在預(yù)測(cè)的細(xì)胞類型中是必不可少的。


MAGeCKFlute 包含多個(gè)功能模塊,可用于探索篩選hits的生物學(xué)功能。我們包含了從 clusterProfiler、GOstats 和 GSEA 包派生的已發(fā)布的富集函數(shù),并添加了富集HGT 以測(cè)試基于超幾何分布的分子特征的富集。這些功能允許用戶指定由 GO 術(shù)語、KEGG 通路、MSigDB 基因集集合或用戶定義的基因集注釋的基因的大小,然后測(cè)試它們?cè)诤Y選hits中的統(tǒng)計(jì)過度表現(xiàn)。在某些情況下,用戶可能對(duì)具有少量基因的蛋白質(zhì)復(fù)合物或通路的強(qiáng)選擇感興趣,因此限制基因集的大小將允許檢測(cè)到這種富集,而不是被弱選擇的大量通路所淹沒。


在線咨詢
在線咨詢
OA系統(tǒng)入口