SNP的LD剪枝与聚集 LD pruning & clumping

GWAS相关的研究中,很多时候我们需要从总的SNP数据中,基于SNP两两之间的LD,来抽取出一个不含互相关联SNP的子集,目前主要的两种方法分别是 LD pruning 与 clumping。

例如,

在进行主成分分析(PCA)时,我们需要事先对SNP进行LD pruning 以去除互相关联(处于LD)的SNP,以防止高LD区域过高的方差对结果的影响。

在计算风险分数PRS时,我们需要从显著的loci中选取具有代表性的SNP来计算分线分数,这时就需要进行clumping,基于LD的r2,以及GWAS所得到的p值,来筛选出这个LD区域中的代表SNP(重要性最高),这样我们可以获得更准确的风险分数。

LD pruning 与 clumping 方法的异同如下所示:

根据保留主要用途
PruningLD的R2处于LD的一对SNP中MAF最高的PCA
ClumpingLD的R2 与 SNP的P值 处于 LD的一对SNP中P值最显著的 PRS
Pruning 与 clumping 的主要区别

具体算法上,可以简单理解为:

Pruning:选取第一个SNP,然后计算这个SNP与窗口区间里第二个,第三个,等等的r2,当检测到高的相关性时,就会从这一对SNP中去除MAF较低的那个,保留 MAF 高的,也就是说这个过程中可能会去除掉我们选的第一个SNP。完成后下一步就是选取下一个SNP,重复这个过程。

Clumping:首先会依据从GWAS得到的p值对SNP的重要性进行排序,然后选取排序后的第一个SNP, 计算这个SNP与 窗口区间里 其他SNP的r2, 当检测到高的相关性时,就会从这一对SNP中去除重要性低的那个, 这个过程中我们选的第一个SNP一定会得到保留。 完成后下一步就是选取 p值 排序后的下一个 SNP,重复这个过程。


PLINK中提供了 Pruning 和 Clumping 的功能:

Pruning:

我们主要是用–indep-pairwise选项,也就是根据SNP两两之间的LD来pruning。

--indep-pairwise  <window size>['kb']  <step size (variant ct)>  <r^2 threshold>

例 --indep-pairwise 500 50 0.2
这三个参数代表的意思分别是: 窗口大小,每一步移动窗口的距离,以及判定关联的r2阈值
plink -bfile input --indep-pairwise 500 50 0.2 --out input_pruned

输出两个文件
input_pruned.prune.in    #pruning后保留的互不相关的SNP
input_pruned.prune.out  #去除掉的SNP

Clumping:

PLINK提供了多种参数选项,具体可以参考:https://www.cog-genomics.org/plink/1.9/postproc

参考:

https://www.cog-genomics.org/plink/1.9/postproc

https://www.cog-genomics.org/plink/1.9/ld

https://www.biostars.org/p/343818/

《SNP的LD剪枝与聚集 LD pruning & clumping》有3个想法

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Twitter picture

您正在使用您的 Twitter 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s