基于高斯混合模型的关联检验 Bolt-LMM – GWAS方法

Key words: LMM,高斯混合模型,贝叶斯,无穷小模型,长尾分布

TL;DR

Bolt-LMM对SNP的效应拟合高斯混合模型,该算法使用一种快速的方差近似方法,计算近似的表型残差,并通过回顾性的分数检验统计量检验残差与待检验SNP的关联,这样就构建了表型预测的贝叶斯模型与频率学派关联检验的桥梁。同时,基于LD分数回归,还会对统计量进行调整。

背景:

在bolt-lmm论文发表时已出现的LMM方法有以下的不足:

  • 需要大量的计算资源,时间复杂度高。
  • 现有模型由于对遗传结构非最优化(suboptimal modeling assumptions regarding the genetic architectures)的假设,会导致power降低。当前标准的线性混合模型是基于无穷小模型(infinitesimal model),该模型假设所有的变异都是效应量很小的因果变异,各效应量相互独立,服从高斯分布,但实际情况中,对于复杂表型,因果loci的数量大约为1000个左右。

为了解决以上问题,Bolt-LMM采取了贝叶斯的观点修改了混合模型,新模型中SNP效应量服从非高斯的先验分布,以更好地反映效应量大小不同的loci的遗传效应。

方法详解:

BOLT-LMM算法包含四个步骤,每一步都需要若干次时间复杂度为O(MN)的迭代。 (1a) 估计方差系数; (1b) 计算无穷小混合模型下的关联统计量 (Bolt-LMM-inf) (2a) 估计高斯混合模型的系数 (2b) 计算高斯混合模型下的关联统计量 (Bolt-LMM)
简要推导:

标准的线性混合模型如下所示:

Y是表型,x是待检验的SNP,g是遗传效应,e是环境因素 在无穷小模型下,遗传效应g可以表示为:

其中XGRM是一个NxM的矩阵,每一列都是某个SNP标准化后的基因型,βGRM是长度为M的向量,包含了SNP的随机效应,效应都从相同的正态分布中抽取,并且整体上服从协方差矩阵如下所示的多元正态分布,

这里BOlt-LMM为了避免近端污染(proximal contamination),采用了LOCO方法。

这个矩阵在习惯上称为GRM,或是亲缘关系矩阵K,于是有:

σg2是方差系数。 环境效应也被认为是独立同分布,服从多元正态分布,

σe2是方差系数,I是单位矩阵。 实际上σg2与σe2是未知的,所以我们要先通过REML来估计。然后计算前瞻性的卡方检验统计量:

其中,

使σg2与σe2为空模型:β=0是的估计值,在LOCO下,检验统计量变为:

BOLT-LMM-inf 无穷小混合模型统计量:

cinf是一个常数的校正因子,由下式估计:

使得,

实际操作中选取30个伪随机的SNP来估计cinf。我们可以将BOLT-LMM-inf统计量视为前瞻性统计量(将表型视为随机)的近似,或是回顾性的统计量(将基因型视为随机,基于SNP构建空模型)
BOLT-LMM 高斯混合模型关联统计量:
我们注意到,

是以下最优无偏估计(BLUP)的表型残差向量的标量倍数,

因此,BOLT-LMM-inf统计量就等价于计算(并调整)待检验的SNP xtest与BLUP残差的相关系数的平方。 混合模型的power是基于以下事实,SNPs是基于对“去噪声”后的表型残差进行检验,即被混合模型估计的其他SNP的效应已经被矫正。我们可以一般化这个过程,定义:

其中 yresidual-LOCO表示拟合标准LMM的高斯混合扩展(用于待测SNP不在一条染色体上的SNP)后的一般化的表型残差向量,C表示校正因子,通过LD分数回归估计,以使得BOLT-LMM的卡方统计量回归后的截距匹配BOLT-LMM-inf的截距。在无穷小模型下,yresidual-LOCO与Vy成正比,BOLT-LMM的卡方统计量即为BOLT-LMM-inf的卡方统计量。
为了定义高斯混合模型LMM扩展,我们首先构建贝叶斯框架下的标准LMM模型,BOLT-LMM-inf的空模型是

其中,SNP效应βm(m是指除m号染色体之外染色体上的SNP)互相独立且服从以下的高斯先验分布

环境效应也互相独立,服从以下分布:

这里BLUP估计等同于计算遗传效应XLOCOβLOCO的后验均值

为了一般化这个模型(非无穷小模型),对于SNP效应,我们采用一个更一般化的先验分布,在BOLT-LMM中,使用了两个高斯分布的spike and slab的混合分布作为先验分布,如下所示:

这种混合更灵活的表示了遗传效应更为典型的长尾分布(heavier-tailed distributions)。 在这个一般化的模型中,后验均值不再与BLUP相一致,但我们仍可以拟合这个贝叶斯模型以或得残差: 

最后将残差带入前面的算式就可以得到BOLT-LMM 高斯混合模型关联统计量。

参考:

Loh, P. R. et al. Efficient Bayesian mixed-model analysis increases association power in large cohorts. Nature Genetics 47, 284–290 (2015).

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Twitter picture

您正在使用您的 Twitter 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s