孟德尔随机化系列之一:基础概念 Mendelian randomization I

本文是MR系列的第一篇,孟德尔随机化的简介,该系列会介绍孟德尔随机化的基础概念,统计方法分类,常见误区与实践操作等内容。

目录:

  • 1.背景与目的
    • 1.1 明确因果关系
    • 1.2 RCT是金标准,但缺点明显
    • 1.3 孟德尔随机化的本质
  • 2.孟德尔随机化的统计学方法 – 工具变量
  • 3.核心假设
    • 3.1 关联性假设
    • 3.2 排他性限制
    • 3.3 独立性假设
  • 4.孟德尔随机化的优势

1 背景与目的

1.1目的是明确因果关系

在关联分析中我们时常面对的一个问题便是 我们很难确定一个变量是否是真正的因果变量,而非有其他未观测的因素同时影响这个变量与结果,造成这个变量与结果相关联。在循证医学中,或是制定干预策略时,明确因果性是十分必要的。

这个问题实际上与内生性 endogeneity 相关,包括: 反向因果关系 reverse causation, 忽略的混淆变量造成的偏倚 omitted variable bias due to confounding, 测量误差measurement error, 以及双向因果关系bidirectional causality等等问题。(这里的内生性在统计学上是指在回归分析中,解释变量(x)与误差项相关。)

1.2. RCT是金标准,但缺点明显

一般来说,明确因果关系的金标准时随机对照试验 RCT randomized control trial (RCT), 即对受试者随机分为对照组和实验组,以研究某个因素的影响。但现实中,要完成随机对照试验的难度非常高,需要大量的人力物力,有时因为伦理问题,对某个因素的研究几乎是不可能的。这时我们就要借助其他方法,而孟德尔随机化就是其中之一。

1.3. 孟德尔随机化与RCT的相似性

孟德尔随机化(MR,Mendelian randomization)便是为了解决以上问题而开发的方法,MR与RCT直接相关,两者有很高的相似性,如下图所示。

孟德尔随机化的核心其实是利用了孟德尔第二定律,也就是自由组合规律(law of independent assortment),当具有两对(或更多对)相对性状的亲本进行杂交,在子一代产生配子时,在等位基因分离的同时,非同源染色体上的基因表现为自由组合,这一过程类似于随机对照试验中的随机分组,所以我个人理解的孟德尔随机化就是 基于孟德尔第二定律的随机对照试验。

2 孟德尔随机化的统计学方法 – 工具变量

孟德尔随机化在统计学上的本质实际是利用工具变量(Instrumental variables)来研究因果性,这一方法常用在经济学研究中。

工具变量简单来说就是,一个与X相关,但与被忽略的混淆因素以及Y不相关的变量。在经济学研究中工具变量可以是政策改革,自然灾害等等,而在遗传学中,这个变量就是基因。

如果一个基因变异Z 是某个暴露因素X的因果变量,并且对结果Y没有直接因果关系,那么这个基因变异Z与结果Y的关联,只能通过X对Y的因果关系而被观察到(X->Y)。

2.1 两阶段最小二乘法

通常我们可以用两阶段最小二乘法(2SLS,2 stage least squared method)来估计X对Y的效应:

考虑一种最简单的单样本的情况,有一个基因变异Z,与Z相关的因素X,以及与Z不相关的结果Y,

我们想探究X与Y之间的因果关系。

第一阶段,X对工具变量进行回归,

第二阶段,Y对第一阶段X的预测值进行回归,

合并后可以化为Y直接对工具变量进行回归。

我们所关心的系数β2SLS实际上也等同于两段协方差的比值

2.2 两样本MR

另一种常见的情况则是两样本MR,如果我们有一个与X相关联的工具变量,我们只有在X对Y有因果关系的情况下,才能观测到这个工具变量与Y的关联。

这意味着βiv,y = βiv,x 乘以 βx,y。也就是说,我们可以不用通过X与Y的回归来估计β,

而是可以简单地通过 βx,y = βiv,y / βiv,x 来计算 X对Y的效应量。

这就意味着与两阶段最小二乘法相对,我们可以利用两个独立的GWAS 的概括性统计量来计算这个比值。这种方法通常叫做两样本MR.

当然MR还有其他更复杂的统计模型方法,这里不做深究,有兴趣的朋友的可以看这篇文章:预留链接

  1. 核心假设:

当然,既然是统计模型那就要满足模型的基本假设,通常情况下MR建立在几点基本假设之上,

主要假设:

3.1 遗传变异必须与暴露因素X强相关。(关联性假设),例如:弱工具变量的使用会导致估计出现偏倚。

3.2 遗传变异不能与结果直接相关。(排他性限制),例如:可能影响因素包括多效性等。

3.3 遗传变异不能与任何可能的混淆因素相关 (独立性假设),例如:人群分层

其他假设:

3.4 不存在选型交配 No genetic assortative mating,例如:人们经常会与自己教育和经济水平相似的人结婚。

3.5 对所有个体,IV对于X的影响方向是相同的。例如:潜在的上位效应与GxE基因与环境的相互作用都可能会影响此假设。

  1. 总结来看,孟德尔随机化以基因型作为工具变量的优势是:

4.1 遗传相关中,因果关系的方向是确定的,遗传多样性导致了不同的表型,反之则不成立

4.2 一般情况下我们所测量的环境暴露因素都或多或少与行为,社会,心理等因素相关,造成偏倚。但遗传变异则不受这些混淆因素影响。

4.3 相对来说,遗传变异与其效应的测量误差较小。

4.4 并不一定要找到因果SNP,一个与因果SNP处于LD的SNP即可满足假设条件。

4.5.目前GWAS的数据相对容易获取。

参考:

Melinda C. Mills, Nicola Barban, and F. C. T. An Introduction to Statistical Genetic Data Analysis. (2020).

Curr Epidemiol Rep . 2017;4(4):330-345. doi: 10.1007/s40471-017-0128-6. Epub 2017 Nov 22.

One thought on “孟德尔随机化系列之一:基础概念 Mendelian randomization I”

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Twitter picture

您正在使用您的 Twitter 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s