如何使用SnpSift把vcf文件的变异位点注释到clinvar数据库

如何使用SnpSift把vcf文件的变异位点注释到clinvar数据库，相信很多没有经验的人对此束手无策，为此本文总结了问题出现的原因和解决方法，通过这篇文章希望你能解决这个问题。

首先熟悉 clinvar 数据库

ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它的强大在于整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息，形成一个标准的、可信的遗传变异-临床相关的数据库。

clinvar的注释，可以寻找出对应的基因变异信息，发生频率，表型，临床意义，评审状态以及染色体位置等。

首先，我们去clinvar数据库的ftp里面找到数据库文件，然后下载最新版文件，我这里用的是shell命令：

## ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/
mkdir -p ~/annotation/variation/human/clinvar
cd ~/annotation/variation/human/clinvar
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/disease_names
# mkdir vcf_GRCh47 && cd vcf_GRCh47
mkdir vcf_GRCh48 && cd vcf_GRCh48
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh48/clinvar_20200706.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh48/clinvar_20200706.vcf.gz.tbi

这个 ClinVar数据库里面的变异位点记录更新还是蛮快的。

然后熟悉SnpSift 软件

SnpSift 软件非常强大，推荐大家仔细阅读它的说明书，http://snpeff.sourceforge.net/protocol.html

Example 1: Coding variants
Example 2:Software Integration
Example 3: Non-Coding variants
Example 4: Sequencing data analysis
Example 5: Filter variants (dbSnp)
Example 6: Custom annotations

如果要使用SnpSift把vcf文件的变异位点注释到clinvar数据库，我们需要使用的命令示例是：

java -Xmx1g -jar ~/biosoft/snpEff/snpEff/SnpSift.jar  \
    annotate \
    -v  ~/annotation/variation/human/clinvar/clinvar_20200706.vcf.gz  \
    new.filter.sort.vcf  \
    > new.clinvar.vcf

一般来说，注释比例并不会太高，因为clinvar数据库记录的位点很有限，如下：

Total annotated entries : 6231
 Total entries           : 54972
 Percent                 : 11.33%

如果选择其它数据库，比如dbSNP、exac、gnomad注释比例会高很多。

解读clinvar数据库注释结果

实际上，没办法解读，一般来说， WES数据分析结果有10万个变异位点，其中2万左右在外显子区域，那么就会有2千个左右的位点被clinvar注释到，这个数量级仍然是很可观的。

我们必须要有先验知识，比如知道这个WES数据来源的个体是患有某种疾病的，比如，视网膜变性相关疾病就可以搜索：

如何使用SnpSift把vcf文件的变异位点注释到clinvar数据库 - 大数据

"Pigmentary retinal degeneration"
"Rod-cone dystrophy"
"Retinitis pigmentosa"

如果你发现搜索到的突变，都是Benign，没有Pathogenic，就比较麻烦，就需要根据ACMG指南分类分析，重点看：

1、PM1: 位于热点突变区域, 和/或位于已知无良性变异的关键功能域(如酶的活性位点).
2、PM2: ESP 数据库、千人数据库、 EXAC 数据库中正常对照人群中未发现的变异(或隐性遗传病中极低频位点)
3、PP1: 突变与疾病在家系中共分离(在家系多个患者中检测到此变异). 注: 如有更多的证据, 可作为更强的证据.
4、PP3: 多种统计方法预测出该变异会对基因或基因产物造成有害的影响, 包括保守性预测、进化预测、剪接位点影响等. 注: 由于做预测时许多生物信息学算法使用相同或非常相似的输入, 每个算法不应该算作一个独立的标准.

如果这样缩小范围仍然是位点很多，可以直接缩小到基因，比如查询 "Retinitis pigmentosa" 这个疾病相关基因就37个，这样位于这些基因的突变就很少了，从这里面挑选那些有害突变，而且人群频率低的。但是其实有一个问题，既然已经局限于具体的疾病相关基因了，那么为什么还有做WES呢，直接上一个panel不就好了吗？见：家系外显子研究最后反正要定位到已知疾病相关基因

关于ACMG指南分类分析，建议看Germline pathogenic variants of 11 breast cancer genes in 7,051 Japanese patients and 11,241 controls文章的材料与方法部分，主要是很多细致的探索，很有意思。

另外推荐clineff软件

主页是：http://www.dnaminer.com/clineff.html

看完上述内容，你们掌握如何使用SnpSift把vcf文件的变异位点注释到clinvar数据库的方法了吗？如果还想学到更多技能或想了解更多相关内容，欢迎关注云行业资讯频道，感谢各位的阅读！

如何使用SnpSift把vcf文件的变异位点注释到clinvar数据库 - 大数据

首先熟悉 clinvar 数据库

然后熟悉SnpSift 软件

解读clinvar数据库注释结果

另外推荐clineff软件

相关推荐

评论抢沙发

评论前必须登录！

互动交流中心

热门文章

热门标签

网站统计

首先熟悉 clinvar 数据库

然后熟悉SnpSift 软件

解读clinvar数据库注释结果

另外推荐clineff软件

相关推荐

评论 抢沙发

评论前必须登录！

互动交流中心

热门文章

热门标签

网站统计

评论抢沙发