rsID的介绍与chr:pos转换时的陷阱

很多小伙伴都觉得位置转换rsID是很麻烦的事情,有时会偷懒只用手头文件的chr:pos位置信息匹配rsID,但这样做带来的的问题却少有人讨论,本文将主要介绍什么是rsID,以及rsID在使用和转换中的一些常见问题。

本文内容
什么是rsID
主要优点
rsID可能表示的变异类型
(重点)rsID与chrpos转换时的常见错误
解决办法
参考

什么是rsID

rsID 就是 dbSNP的Reference SNP ID (缩写为rs 或者RefSNP),一个由dbSNP设定的,为了识别变异位点的一串数字编号。rsID设计上是非冗余的,也就是全局唯一的id,用户提交的变异会被归类整理注释,重复的变异会被整合。

主要优点

rsID无关参考基因组版本,不像chrpos会随版本变化而变化, rsID在不同版本间是一致的。对于群体遗传学或是精准医学的大规模的研究来说会更加方便,rsID提供了稳定的变异表示方法。(摘自官网,个人认为有时候rsID的转换带来的问题远超不转换的问题,有好有坏,但是传统上还是需要转换)

rsID表示变异的类型

rsID中的rs尽管是Reference SNP的首字母缩写,但实际上一些其他类型的变异也会被赋予rsID。(通常变异的长度小于50bp)

  • 单核苷酸变异 Single nucleotide variation (SNV)
  • 短多核苷酸变异 Short multi-nucleotide changes (MNV)
  • 较小的短插入或删除 Small deletions or insertions (INDEL)
  • 较小的短串联重复序列 Small STR repeats
  • 逆转录转座子插入 retrotransposable element insertions

rsID是把双刃剑:仅凭chr:pos与rsID互相转换时的陷阱

  • 仅使用chr:pos 转换 rsID时的问题:
  1. 对应位点rsID不存在,可能是新变异等等原因,通常可以以chr:pos:ref:alt的形式替代。但还有个问题就是Alt allele不存在,比如rs123456 对应chr1:123456的 T>C,A 而你手里的数据是chr1:123456的 T>G, 那问题来了,这应不应该给他们相同的rsID?仅凭位点和类型来说应该给,或许下个版本的dbsnp会加上这个变异,但其实我也没有明确的答案(欢迎评论区讨论),不过实际操作中我会倾向于保守一点,用chr:pos:ref:alt 而不是rsID来表示。
  2. 如上rsID的介绍所述,rsID并不止只用来表示单一核苷酸的SNP,也会表示其他变异类型,这会导致同一位点有多个rsID表示的变异,最常见的就是某个位点同时有SNP和INDEL,仅凭chr:pos信息而不管allele的话会混淆并大量的错误匹配SNP与INDEL的rsID,后续功能分析会引起很大的不便,举个例子: rs123456 对应chr1:123456的 T>C ,而rs987654 同样对应chr1:123456这个位置,但是这个变异是个INDEL, T>TA, 如果仅凭chr:pos匹配会混淆SNP与INDEL,虽然是同样的位置,但变异造成的影响会完全不同。解释时本应是rs987654这个INDEL造成的影响却错误地解释到rs123456这个SNP上,这种情况应该被避免。这么做破坏了rsID的唯一性特点,是不是有点违背初衷,本末倒置了。
  3. 还有一个问题就是手头数据里的变异是否已经标准化? 未标准化的变异的chrpos是不准确的,进行左对齐与节俭原则的标准化后可能产生位移,用未标准化chrpos匹配时可能会错位匹配到其他相邻的位点上。比如手头的变异可能是 chr1:123456:AA:AT ,标准化后则是chr1:123457:A:T,向后移了一位,如果你看过1000genome的原始数据就会发现这样的情况大量存在,所以应当注意(参考:GWASLab:变异的标准化 Variant Normalization
  4. 0起点还是1起点的参考系问题,处理数据时应该注意,这里不做过多赘述。(GWASLab:LiftOver 基因组坐标变换 与 01坐标系统

rsID 向 chr:pos 某参考基因组版本的位置转换时,会遇到的问题:

  1. 设计上rsID是唯一对应某个变异的,但实际上由于dbSNP版本的不同或其他原因,手头GWAS的sumstats里的rsID可能对应两个位置, 而多个rsID又可能对应同一个位置上相同的变异
  2. 在对应参考基因组版本上的位置不存在等等

解决办法

rsID转换chrpos时要尽量明确原始数据的dbsnp版本,能确定版本的时候用对应版本,不能的时候要制定统一标准(为了研究的可重复性),转换时要使用统一的dbsnp的版本。

而chrpos转换rsID时,不贪多,不求快,老老实实用先确认标准化,然后利用注释的方法,也就是相应基因组版本的 位置chr:pos以及 ref与alt全部与rsID全部匹配时才进行转换。

可以参考以下内容:

GWASLab:使用ANNOVAR对变异进行功能注释

GWASLab:SNP的rsID与位置信息的相互匹配 rsID/ chr:pos conversion

参考:

https://www.ncbi.nlm.nih.gov/snp/do

《rsID的介绍与chr:pos转换时的陷阱》有2个想法

  1. 你好,看了你的分享之后收获很大,有问题想问一下,我使用的是从UCSC下载的dbSNP155的vcf文件,想问一下这个vcf是未经标准化的吗?还需要进一步标准化吗?

发表评论

Fill in your details below or click an icon to log in:

WordPress.com 徽标

您正在使用您的 WordPress.com 账号评论。 注销 /  更改 )

Twitter picture

您正在使用您的 Twitter 账号评论。 注销 /  更改 )

Facebook photo

您正在使用您的 Facebook 账号评论。 注销 /  更改 )

Connecting to %s