多基因风险分数 PRS( Polygenic risk score)系列之一:概念入门

本文将讲解多基因风险分数PRS(Polygenic risk score,或称PGS) 的相关基础概念,

目录

  1. PRS的背景
  2. PRS的概念与定义
  3. PRS的一般性质
  4. 构建PRS的注意事项
  5. PRS的验证与预测
  6. 相关软件
  7. 参考

1. PRS的背景与概念

(首先复习: 遗传结构 Genetic architecture

一般情况下,对于单基因疾病(孟德尔遗传病)来说,只有单个或少数基因对表型有很大的影响,与之相对,对于复杂疾病来,通常有大量的遗传位点对表型有较小的影响,目前GWAS研究多基于此类无限小的假设(详见:解释复杂疾病的四种主流模型 CDCV/RAME/infinitesimal/Broad-sense-heritability ),这种情况下单个变异不足以用来评估个体对某一复杂疾病的风险,所以为了找到一个能够评估个体疾病风险的值,PRS (多基因风险评分)就应运而生,PRS的概念简单说就是,总和多个遗传变异与表型关系的数值。

2. PRS的一般定义

PRS (polygenic risk score, 多基因风险分数) , 对于非疾病的表型也称为 PGS (polygenic score)

实际研究中,PGS 的数学上的定义一般如下所示:

PGS是基因组上与表型相关等位基因的加权线性组合 (权重通常为GWAS中估计的效应量)。

其中: i 表示第i个个体, j 为第j个SNP, wj为该SNP的权重,a则为第i个个体第j个SNP的等位基因拷贝数

这里要注意:

通常PGS假设潜在的模型是加性模型 (additive model)

上述式子是一个概念性的定义式,实际操作中还需要进行额外操作。

3 PRS的一般性质

PRS可以被认为是多个独立的遗传信号的总和,那么根据中心极限定理,PRS也近似服从正态分布。

4.构建PRS的注意事项

4.1 GWAS discovery阶段的样本量要足够大

大的样本量:

好在从GWAS Diversity Monitor (https://gwasdiversitymonitor.com/)上可以看到,GWAS的样本量是在逐年上升的,目前规模最大的GWAS的样本量已经达到了三百万的级别,这将在未来有效促进PRS的构建。

4.2 选择纳入计算的SNP

这包含了两方面因素,1是纳入计算的SNP的数量如何决定,2是对于纳入的SNP如何施加权重。通常情况下这两方面的选择取决于研究的表型,与应用的类型。

目前主要的方法包括 :

GWAS中对SNP的检验通常是逐个进行的,由于LD的存在,这会使得SNP的效应估计值有偏差,继而导致PRS出现偏倚。为了减弱这种偏差目前有两种主流方法:

4.2.1 p值 clumping + thresholding法 (P+T 或 C+T) :

一种常用的方法就是在PRS的计算中只纳入一部分SNP,也就是先进行clumping(基于p值的pruning) (详见:SNP的LD剪枝与聚集 LD pruning & clumping),筛出各个loci里p值最低的SNP,然后再基于p值的某个阈值,选择纳入的SNP。

4.2.2 beta 缩减法

与第一种纳入部分SNP的思路不同,第二种方法是纳入所有的SNP,但在计算时会基于LD信息调整SNP的权重,例如LASSO回归(lassosum),与一些基于贝叶斯方法的算法 (LDpred等)。

5 PRS的验证与预测

5.1 要注意的是,在PRS研究中要使用独立的样本,也就是在GWAS discovery阶段使用的样本与PRS的目标样本之间不应该有重复。这主要是为了避免overfitting 过拟合的问题。只有当样本量足够大时,才可以使用同一样本。

5.2 目标样本应当为同一族裔。

由于不同族裔之间,MAF,局部LD等等的不同,PRS的泛用性较差。例如由BBJ计算而得的二型糖尿病PRS模型,应用到UKBB的人群中时,预测的r2明显降低。

5.3 提升PRS跨族裔泛用性

值得注意的是,目前也有研究致力于提升PRS在不同族裔间的泛用性。例如Amariuta等就基于转录因子介导的细胞特异的调节的位点的功能注释 (Functional annotations marking the precise location of TF-mediated cell-type-specific regulation )来降低群体特异的LD结构(population-specific LD),以提升PRS在不同族裔间的准确度。

6 目前使用较多的PRS软件包括:

PLINK 多基因风险分数 PRS( Polygenic risk score)系列之二:使用PLINK计算PRS(C+T方法)

PRSice 多基因风险分数 PRS( Polygenic risk score)系列之三:使用PRSice计算PRS(C+T方法)

LDpred 1/ 2

PRS-CS 多基因风险分数 PRS( Polygenic risk score)系列之五:使用PRS-CS计算PRS(beta-shrinkage方法)

Lassosum

等等,我会在后续的文章中介绍具体使用方法。

其他PRS相关文章:

7 参考:

Choi, S. W., Mak, T. S. H. & O’Reilly, P. F. Tutorial: a guide to performing polygenic risk score analyses. Nature Protocols 15, 2759–2772 (2020).

McCarthy, M., Abecasis, G., Cardon, L. et al. Genome-wide association studies for complex traits: consensus, uncertainty and challenges. Nat Rev Genet 9, 356–369 (2008).

Amariuta, T. et al. Improving the trans-ancestry portability of polygenic risk scores by prioritizing variants in predicted cell-typespecific regulatory elements. Nature Genetics 52, 1346–1354 (2020).

《多基因风险分数 PRS( Polygenic risk score)系列之一:概念入门》有6个想法

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Twitter picture

您正在使用您的 Twitter 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s