软件介绍ANNOVAR注释软件用法

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2021.08.19

变异检测得到的结果是检测样本的基因组序列与参考基因组序列之间的差异。本质上是一个将真实的变异从文库准备、样本富集、检测/测序和映射/比对产生的产物中分离出来的过程。想要进一步研究每一个变异的实际意义,需要将变异检测的结果和各种数据库进行关联,得到变异对应的基因、变异导致的氨基酸变化和变异的临床信息等生物学功能信息,这个过程叫做变异注释。本文详细介绍annovar注释工具的使用。

ANNOVAR是一个高效的开源注释工具,由perl编写,能够利用最新的数据来分析各种基因组中的SNP和Indel遗传变异,支持包括VCF在内的多种输入和输出文件格式。它能够从不同的基因组的变异位点对其进行功能注释(包括人类基因组hg18、hg19、hg38、以及鼠、蠕虫、酵母等),不过部分物种需要自己构建数据库。

主要包含三种不同的注释方法:gene-based,region-based和filter-based。基于基因的注释(Gene-basedAnnotation)揭示variant与已知基因直接的关系以及对其产生的功能性影响,基于区域的注释(Region-basedAnnotation)揭示variant与不同基因组特定区域的关系,例如:它是否落在转录因子结合区域等,基于筛选的注释(Filter-basedAnnotation)则分析变异位点是否位于指定的数据库中,比如dbSNP,1000G,ESP6500等数据库。

1.ANNOVAR的注册安装

该软件程序是用perl语言写的,所以可以作为独立程序运行于各个已经安装Perl的系统。解压直接用即可。

以下示例皆在linux系统中完成,且保证服务器有足够的存储空间。

2.ANNOVAR的程序模块

ANNOVAR程序有以下几个模块:

3.下载人类变异注释数据库

ANNOVAR的安装包里自带了一些常用的数据库,在humandb/目录下。

在ANNOVAR的主页面有用于注释的各种数据库的描述,如,dbSNP、ExAC、ESP6500、cosmic、gnomad、1000genomes、clinvar、gwas,且提供多个不同参考基因组版本的下载,可根据需求自行下载(注意数据库可能时有更新)。我们默认他们做的工作都是准确无误的,毕竟自己去一个个下载数据库一个个格式化成自己需要的格式,也是不小的工作量。

展示一下我自己下载的:

再展示一下我去隔壁用户那里顺的(符号/软链接):

4.ANNOVAR输入格式转换

(1)输入文件格式

ANNOVAR使用.avinput格式,用空格或者制表符分隔,最少需要5列,分别代表①染色体(Chromosome),②起始位置(Start),③终止位置(End),④参考等位基因(ReferenceAllele),⑤替代等位基因(AlternativeAllele),其他的列作为额外补充信息(可选)。插入或者删除以-表示,“0”代表只指定position,而不指定实际核苷酸。

文件示例:

(2)输入文件格式转换

ANNOVAR主要使用convert2annovar.pl程序进行转换,转换后文件是精简过的,主要包含前面提到的5列内容,如果要将原格式文件的所有内容都包含在转换后的.avinput文件中,可以使用-includeinfo参数;如果需要分开每个sample输出单一的.avinput文件,可以使用-allsample参数,等等。对于含有多个样本的vcf文件,格式转换时只会取其第一个样本进行注释,也就是说即使别的样本在这个位点有变异,只要第一个样本在某个位点没有变异转换时就会将这个位点去掉不会出现在注释文件中。如果想要得到所有样本的变异位点的注释的话,可以先将其拆分为几个样本的注释输入文件。

ANNOVAR主要支持以下等格式转换:VCF、SAMtoolspileupformat、CompleteGenomicsformat、GFF3-SOLiDcallingformat、SOAPsnpcallingformat、MAQcallingformat、CASAVAcallingformat……

注:

1).vcf文件在格式转换时,若突变位点有两个不同的等位基因则在结果文件中会分两行放。

2).在注释时,遇到格式不符合的行会跳过继续注释而不是终止注释,最后那些格式不符合的行会生成另一个文件(*.invalid_input)。

5.ANNOVAR注释功能

annovar提供了两个脚本以供注释使用:annotate_variation.pl一次注释一个数据库,table_annovar.pl一次注释多个数据库。

(1)table_annovar.pl(可一次完成基于基因、区域和filter三种类型的注释)

使用ANNOVAR最简单的方法就是使用table_annovar.pl进行注释,它的输入文件可以是多种格式包括VCF,输出文件已Tab分隔,每一列代表着一种注释。

注释命令示例:

输出的csv文件将包含输入的5列主要信息以及各个数据库里的注释,此外,table_annoval.pl可以直接对vcf文件进行注释(不需要转换格式),注释的内容将会放在vcf文件的“INFO”那一栏。注释结果示例:

(2)annotate_variation.pl

Annotate_variation.pl的注释方式分为三种:1)Gene-basedannotation;2)Region-basedannotation;3)Filter-basedannotation

1)基于基因的注释(Gene-basedAnnotation)

Gene-basedannotation是根据SNPs以及CNVs的位置信息来确定是否会造成编码序列以及开放阅读框的改变从而影响氨基酸的改变,使用者可以自主选择RefSeqgenes,包括UCSCgenes,ENSEMBLgenes,GENCODEgenes,AceViewgenes等来进行注释。注释后会生成两个文件:ex1.variant_function和ex1.exonic_variant_function。揭示variant与已知基因直接的关系以及对其产生的功能性影响。

命令示例:

ex1.variant_function注释所有变异所在基因及位置。第1列为变异所在的类型,如外显子等,第2列是对应的基因名(若有多个基因名用,隔开),第3-7列为输入的那5列主要信息,剩余为注释信息。如果变异找到多种注释,ANNOVAR将根据优先权重进行比较(见下表),取最优的表示,可以使用-seperate参数列出该变异所有注释。

ex1.exonic_variant_function详细注释外显子区域的变异功能、类型、氨基酸改变等。第1列为.variant_function文件中该变异所在行号,第2列为变异功能性后果,如外显子改变导致的氨基酸变化,阅读框移码,无义突变,终止突变等,第3列包括基因名称、转录识别标志和相应的转录本的序列变化,第4-9列为输入文件内容。

其与Gene-basedannotation作用相反,它是用来确认在特定区域的突变造成的影响。揭示variant与不同基因组特定区域的关系,例如:它是否落在已知的保守基因组区域(conservedgenomicregion),预测的转录因子结合区域(transcriptionfactorbindingsite),基因重复区域(segmentaldupliaction),GWAS分析区域等,还可以注释染色体坐标(cytoBand)。基于区域的注释的数据库一般由UCSC提供。此处以Conservedgenomicelementsannotation为例介绍region-basedannotation的使用:命令示例:

输出的注释文件第1列为注释文件库名,这里的phastCons46-wayalignments属于保守的基因组区域的注释,第二列包含评分和名称,可以使用-score_threshold和-normscore_threshold来过滤评分低的变异,剩余部分为输入文件的内容。

3)基于筛选的注释(Filter-basedAnnotation)

Filter-basedannotation是用以确认已记录在特定数据库里的突变。例如想要知道突变是否为novelvariation就需要知道该突变是否存在于dbSNP库里,它在1000genomeproject里面等位基因频率怎样,以及计算一系列突变项目得分并加以过滤。它区别于region-basedannotation就在于它针对突变碱基进行工作,而region-basedannotation针对染色体位置。举例来说就是region-based比对chr1:1000-1000而filter-based比对chr1:1000-1000上的A->G。

下面给介绍常用的两种过滤注释:

运行命令后,已存在于数据库中的变异写入*.droped文件,在数据库中不存在的变异信息将会被写入到*filtered文件。

1>1000GenomesProjectannotations

输出的注释文件第1列为注释文件库名,第二列为等位基因频率,可以使用-maf0.05参数来过滤掉低于0.05的变异,也可以使用-maf0.05-reverse参数来过滤掉高于0.05的变异,推荐使用-score_threshold参数来过滤ALT等位基因的频率,剩余部分为输入文件的内容。

2>dbSNPannotations

通过dbsnpannotation,annovar可以确认已经出现在dbSNP数据库里面的突变并且注释SNPidentifiers命令如下:

THE END
1.irfanview中文版下载irfanview电脑版下载irfanview版本大全irfanview是一款功能强大且十分实用的图像浏览器,软件拥有着丰富的功能,支持浏览图片、视频和音频文件,不仅仅是可以浏览图像文件,同时软件还支持图片的处理功能,等于内置一个图片转换器,支持批量重命名,JPG 无损旋转,支持拖放操作,还支持调节图片的颜色、添加覆盖文字,进行特效处理等,感兴趣的用户快来下载体验吧。 irfanhttps://soft.3dmgame.com/zt/ifvw/
2.roseuml建模工具(123盘分享)rationalrose下载安装rational rose.rar官方版下载丨最新版下载丨绿色版下载丨APP下载-123云盘 可以配合这个B站视频观看 【【2024最新Rational Rose下载安装教程】主要应用与UML建模技术(看了必成功)-附安装包】 https://www.bilibili.com/video/BV1hvhdeLE7w/?share_source=copy_web&vd_source=838777d2ce7aac78a8c91f2cc9e348d1https://blog.csdn.net/m0_73149401/article/details/144319187
3.Encryptor(文件锁定加密)v12.7.0绿色注册版文件管理软件目前,该软件可以使用任何文件作为密码源,提供了一种个性化且安全的加密方式。此外,其灵活的用户界面能详细报告所有操作信息,确保即使是复杂任务也能提供友好的用户体验。无论是初次接触还是经验丰富的用户,都能轻松上手。(注意:软件下载打开前,请先行解压并关闭杀毒软件) https://www.knowr.cn/filemsoft/fastencryptor.html
4.Macv10.4.1功能强大的科学绘图和统计分析工具免激活下载普通用户: 5金币 VIP会员: 免费 永久会员: 免费 购买下载权限 历史版本 详情介绍 常见问题 评论建议 GraphPad Prism 10 Mac版是一款统计分析与数据可视化软件,它集成了强大的数据分析工具和高质量的图形绘制功能,为Mac用户提供了高效、准确的数据处理解决方案。 该软件具备丰富的统计分析方法,包括描述性统计、t检验https://www.macxj.com/14850.html?aff=238
5.亲测能用Tecplot3602024R1英文激活版下载软件介绍 此软件“仅限学习交流,不能用于商业用途”如用于商业用途,请到官方购买正版软件,追究法律责任与“羽兔网”无关! Tecplot 360 2024 R1是一个功能齐全,高性能,易于使用的CFD可视化和分析工具。它可以帮助用户更有效地处理和可视化大型数据集,提高工程决策的准确性和效率。它是科学家和工程师不可缺少的工具。https://www.yutu.cn/softhtml/showsoft_9341.html
6.制作图片的软件哪个好用一点儿,数不落实威解准威这款软件名为“数不落实威解准威_授业解惑版RE35”,是一款制作图片的好用工具。具体评价其好用程度需根据用户反馈和软件功能来判断。 揭秘数不落实威解准威_授业解惑版RE35:制作图片软件大比拼 在数字时代,图片已经成为我们日常生活中不可或缺的一部分,无论是工作、学习还是娱乐,我们都需要用到各种图片处理软件http://juliangyuanshu.com/post/37613.html
7.上annovar官网下载DownloadANNOVARANNOVAR main package You can post questions through Disqus in this website or just email me directly. The latest version of ANNOVAR can always be downloadedhere(registration required). ANNOVAR is written in Perl and can be run as a standalone application on diverse hardware systems where standardhttp://annovar.openbioinformatics.org/en/latest/user-guide/download/
8.annvar下载数据库的网址ywliao比如想下载hg19_gwava数据,那么需要下载原始txt数据和idx文件,路径如下 http://www.openbioinformatics.org/annovar/download/hg19_gwava.txt.gz http://www.openbioinformatics.org/annovar/download/hg19_gwava.txt.idx.gz 下载之后再解压就好了,像refGene(没有idx文件)这些都可以参照上面的下载下载 https://www.cnblogs.com/ywliao/p/12766645.html
9.软件介绍ANNOVAR注释软件用法该软件程序是用perl语言写的,所以可以作为独立程序运行于各个已经安装Perl的系统。解压直接用即可。 以下示例皆在linux系统中完成,且保证服务器有足够的存储空间。 cd~/biosoftmkdir annovar &&cdannovarwget http://www./annovar/download/***/annovar.latest.tar.gz#自行注册,获得下载地址;或迅雷等下载 + WinCP等http://www.360doc.com/content/21/0819/12/76643598_991715327.shtml
10.Annovar下载及使用注册 网站发送邮件 直接邮件下载 拷贝到服务器 (需使用机构邮箱) tar -zxvf annovar.latest.tar.gz 使用 1.数据库下载 下载软件时,会自带部分数据库,存放在humandb文件夹下,根据需要,在http://annovar.openbioinformatics.org/en/latest/user-guide/download/页面下载自己需要的数据库。 https://www.jianshu.com/p/a3cc29b9124b
11.肿瘤外显子全流程notes使用annovar来注释 具体使用方法和数据库的下载我在WGS全流程的学习笔记已经介绍了,不重复说明 gene-based annotation #!/bin/bashdatabase=~/soft/annovar/humandb vcf=/home/ubuntu/WES/mutation/vcf_clean humandb=/home/ubuntu/soft/annovar/humandb https://www.imooc.com/article/269249