科学网—NatureProtocols:使用MicrobiomeAnalyst统计和功能分析微生物组数据

正由于微生物组数据具有这些特征,在处理数据时应该加以考虑,正确处理,目前,R的phyloseq包提供了丰富的功能来处理特征表,分类树和元数据处理。但是基于编码的界面对于临床工作人员等科研人员十分不利。

MicrobiomeAnalyst这是应对这种情况而开发的工具。因此为无需专业编程技能就能可轻松进行微生物组数据的系统综合统计分析,交互式可视化和meta分析。用户可以从多种完善的方法中进行选择,并实时浏览结果,以更好地了解其数据。自2017年首次发表以来,MicrobiomeAnalyst已逐渐在微生物组研究人员中流行。在过去的12个月中,该Web服务器已处理了来自全球20,000多个用户的70,000份数据分析作业。我们一直在积极改进当前功能,并根据用户的反馈和文件的发展添加新功能。为了满足不断增长的用户流量和计算需求,服务器最近已迁移到高性能GoogleCloud平台。

Overviewoftheanalysisworkflowandtheinterfacedesign

MicrobiomeAnalyst的总体工作流程如图1所示。共有四个模块:标记基因/扩增子数据(Marker-geneDataProfiling,MDP)、宏基因组数据(ShotgunDataProfiling,SDP)、综合公共数据(ProjectiontoPublicData,PPD)、分类单元集富集分析(TaxonSetEnrichmentAnalysis,TSEA)。四个模块共享相同的常规工作流程-数据准备,数据分析和可视化探索。在数据准备阶段,上载用户数据以进行过滤和标签化。此后,可以对处理后的数据执行各种统计和可视化方法,以检测例如总体模式、重要功能、潜在的交互作用和功能见解。对于MDP模块,总共提供了19种精心选择的方法(图2)。每种方法的Web界面允许用户调整关键参数,以进行交互式分析和结果的可视化探索。经过基本数据预处理,就数据类别进行对应的下游分析,可通过交互式对核心参数调整。

图1|MicrobiomeAnalyst工作流程概述。MicrobiomeAnalyst包含四个模块:标记基因数据分析(MDP),鸟枪测序分析(SDP),公共数据元分析(PPD)和富集分析(TSEA)。在他们各自的流程里阐明了每个模块的关键功能。PC,主坐标。

图2|全面的数据分析和报告生成。扩增子MDP“分析概述”页面(1)的屏幕截图,展示了可用的分析方法集和。左上角显示导航栏,当前页面以红色突出显示。页面右侧的“R命令历史记录”面板显示所有可在R中分析的R命令。“页面下载”面板显示从当前页面生成的结果。用户还可以点击顶部导航栏中的“下载”链接,进入“结果下载”页面(2)并批量下载所有结果,并生成全面的分析报告(3)。

Fig.2|Comprehensivedataanalysisandreportgeneration.AscreenshotoftheMDP‘AnalysisOverview’page(1)toillustratethecomprehensivesetofanalysismethodsavailable.Thetopleftcornershowsthenavigationtrackwiththecurrentpagehighlightedinred.The‘RCommandHistory’paneltotherightofthepagedisplaysallunderlyingRcommands.The‘Downloadsofthepage’paneldisplaystheresultsgeneratedfromthecurrentpage.Userscanalsoclickthe‘Downloads’linkfromthetopnavigationtracktoenterthe‘ResultsDownload’page(2)andbatch-downloadallresultsaswellastogenerateacomprehensiveanalysisreport(3).

Comparisonwithotherweb-basedtools

目前主流的微生物数据处理的网站有MG-RAST、VAMPS、Calypso。MG-RAST:用于注释和存储原始宏基因组学数据的公共资源,提供基础的统计分析和可视化,高级分析推荐matR包处理;VAMPS:主要提供可视化分析,如热图,饼图和主坐标分析(PCoA)图等;Calypso:支持数据处理以及微生物组数据的多样性,比较和网络分析。与这些工具相比,MicrobiomeAnalyst实时可见分析过程及其具体R命令以提高透明度和可重复性,可轻松导航到指定数据处理步骤;胜任复杂的分析任务。例如,MDP模块当前提供了19种经过精心选择的统计分析和可视化方法。物种富集分析是MicrobiomeAnalyst独有的功能;其次,MicrobiomeAnalyst的用户高度评价的另一个功能是在整个数据分析过程中创建的可用于发布出版物级别的图形输出。MicrobiomeAnalyst通过提供全面的分析报告和R命令历史记录以及其配套的R包提高了数据分析的透明度和可重复性。表1显示了MicrobiomeAnalyst与这三个基于Web的工具之间的详细比较。

Table1|ComparisonsofMicrobiomeAnalystwithotherweb-basedtoolsformicrobiomedataanalysis

Limitations

Experimentaldesign

下面的实验方法分为四个部分,以展示MicrobiomeAnalyst中的所有四个模块:(i)对16SrRNA标记基因丰度数据的全面分析(步骤1至30);(ii)进行预测性功能分析,然后进行《京都基因与基因组百科全书》(KEGG)直系同源(KO)丰度表的途径富集分析和网络可视化(步骤31-49);(iii)使用公共数据集进行视觉数据探索(步骤50-56);(iv)分类单元集富集分析(步骤57-63)。下面的过程中提供了详细的分步教程。

Comprehensiveanalysisof16SrRNAabundancedata

Functionalprofilingandnetworkvisualizationofgeneabundancedata

SDP模块提供了一组相似的方法,用于模式发现和对由预测功能分析或宏基因组学/宏转录组学产生的基因丰度数据进行比较分析。SDP的独特功能是其基于模块,途径和代谢网络的功能注释。MicrobiomeAnalyst使用户可以轻松地可视化这些功能在样本和研究条件中的分布。它还支持显式统计检验以识别丰富的功能。用户可以在新陈代谢网络环境中以交互方式浏览结果,以进一步了解功能。

Visualcomparisonwithapublicdataset

随着公共数据集数量的增加,荟萃分析已成为比较和假设产生的强大方法。PPD模块旨在使用户能够在兼容的公共数据集范围内直观地浏览自己的16SrRNA数据。这些公共数据集主要来自Qiita。用户选择用于荟萃分析的数据集必须共享至少20%的分类学特征才能进行有意义的比较。在此模块中,将对用户和公共数据进行共同处理,然后共同投影到交互式3DPCoA图中以进行视觉比较。用户可以比较样品的分类组成,以找出哪些分类单元在推动组分离。这使用户能够将其数据关联到上下文中以获得全局视角,以便例如识别不同环境或人群之间的成分差异。

Enrichmentanalysisofalistoftaxa

Box1|Preprocessingofraw16SrRNAampliconsequencingdata

此框描述了原始序列数据预处理的一般步骤和可用工具。标记基因的扩增子测序是一种广泛用于跨不同宿主和环境的微生物群落分类学分析的方法。从测序平台获得原始序列后,需要生物信息学流程将原始读取转换为分类信息。传统上,原始读取会转换为OTU,即满足97%相似性阈值划归为一个OTU。现在通常建议将原始读数转换为高分辨率的ASV,可以根据其独特的生物学序列对其进行鉴定,以促进整个研究的荟萃分析。所有生物信息学流程的主要预处理步骤是(i)测序序列的质量控制,(ii)序列的聚类和(iii)分类分配。常用的管道包括QIIME,mothur,UPARSE,以及最近的DADA2。DADA2的工作原理是生成一个参数错误模型,该模型将对所有原始测序数据进行训练,并应用该模型将序列错误纠正和合并为ASV。MicrobiomeAnalystR软件包集成了DADA2,可用于原始16SrRNA扩增子测序数据。

Box2|Dataformattingandupload

此框说明如何为MicrobiomeAnalyst准备处理后的微生物组数据。MicrobiomeAnalyst接受从几个常用的生物信息学流程生成的丰度数据。这些文件可以以纯文本格式(.txt或.csv)上传,也可以直接作为.biom或.shared文件上传。用户还必须提供描述相同样品的组信息的分组信息文件。以下是有关如何格式化MicrobiomeAnalyst的丰度,分类和分组信息文件的简短说明。

丰度表应设置格式,以使特征于行中,样本位于列中。第一行应以“#NAME”开头。如果特征名称包含微生物分类单元名称,请确保用使用分隔符;分隔(例如,Bacteria;Firmicutes;Clostridia)。如果特征不包含特定的分类名称(例如,OTU000001),则还必须提供分类注释文件(请参见下文)。

分类文件的格式应设置为使特征名称在第一列中,表开头必须是‘#TAXONOMY’。应在“Phylum”,“Class”,“Order”,“Family”,“Genus”和“Species”列的下包含所有功特征的分类信息。特征名称必须与出现在丰富文件中的特征名称匹配。

分组数据文件应设置格式,以便第一列包含样本名称,命名为“#NAME”。随后的列包含有关组或其他实验因素信息。样品名称必须与丰度文件中显示的样本名称匹配。

Stage1:Comprehensiveanalysisof16Sabundancedata

大约30分钟,具体取决于数据集的大小

图3|用于beta多样性分析的交互式3DPCoA图。Beta多样性分析生成的3DPCoA图和饼图的屏幕快照。用户可以旋转图形或双击任何样本,以在选定的分类学级别通过饼图查看其微生物丰度信息。显示了两个饼图,一个来自对照样品,另一个来自克罗恩病人(CD)样品。对照样品以拟杆菌属为主导,而CD样品以大肠埃希菌为主导。

Fig.3|Interactive3DPCoAplotforbeta-diversityanalysis.Ascreenshotofthe3DPCoAplotandpiechartsgeneratedbythebeta-diversityanalysis.Userscanrotatethegraphordouble-clickanysampletoviewapie-chartsummaryofitsmicrobialabundancesataselectedtaxonomiclevel.Twopiecharts,onefromacontrolsampleandonefromaCrohn’sdisease(CD)sample,areshown.ThecontrolsampleisdominatedbyBacteroides,whereastheCDsampleisdominatedbyEscherichia.

图4|树形热图的分类差异可视化。树形热图的屏幕截图,用于说明两个选定组之间的分类差异。页面顶部显示比较的两组,注意只能是两组之间比对。颜色渐变以及节点,边缘和标签的大小基于中位数丰度的log2比值。在这种情况下,蓝色和红色表示与对照组相比,克罗恩病患者的相应微生物分类单元分别较低和较高的程度。

Fig.4|Heattreevisualizationoftaxonomicdifferences.Ascreenshotofaheattreetoillustratethetaxonomicdifferencesbetweenthetwoselectedgroups.Thetopofthepageshowsthekeyparameters.Thecolorgradientandthesizeofnode,edge,andlabelarebasedonthelog2ratioofmedianabundance.Inthiscase,blueandredindicatethatcorrespondingtaxaarelowerandhigher,respectively,inCrohn’sdiseasepatientsascomparedwithcontrols.

图6LEfSe分析的图形。重要分类单元按其LDA分数(x轴)降序排列。绘图右侧的迷你热图指示每组中的分类单元是较高的(红色)还是较低的(蓝色)。

图7|可视化“随机森林”结果。“随机森林”分析结果的屏幕截图。右表显示了每个组的分类效果表格。用户可以点击“重要特征”标签查看那些对模型准确性有重大影响的标记物。

Stage2:Predictivefunctionalprofilingandanalysisofgeneabundancedata

大约20分钟,具体取决于数据集的大小。

图8|KEGG整体代谢网络中富集通路的可视化。KEGG整体代谢网络的屏幕截图。顶部工具栏包含用于网络自定义的所有选项,例如背景颜色,突出显示颜色以及是否显示路径名称。左侧面板包含浓富集分析的结果,面板底部提供了所有匹配KO的KEGG网站链接。通过在网络中以不同颜色突出显示标记路径。

Fig.8|VisualizationofenrichedpathwaysintheKEGGglobalmetabolicnetwork.AscreenshotoftheKEGGglobalmetabolicnetwork.Thetoptoolbarcontainsalloptionsfornetworkcustomization,suchasbackgroundcolor,highlightcolor,andwhethertoshowpathwaynames.Theleftpanelcontainstheresultsoftheenrichmentanalysis,andthebottomofthepanelprovidelinkstotheKEGGwebsiteforallmatchedKOs.Selectedpathwaysarehighlightedindifferentcolorswithinthenetwork.

Stage3:Visualdataexplorationwithacompatiblepublicdataset

大约10分钟,具体取决于数据集的大小。

Stage4:Enrichmentanalysisofalistoftaxa

图9|TSEA结果。页面顶部是一个可缩放的网络。用户可以单击任意节点,以通过右侧的“TaxonSetView”选项来查看有关基础分类单元集的更多详细信息。带有详细统计信息的结果表显示在页面底部。

Fig.9|TSEAresults.Atthetopofthepageisanenrichmentnetwork.Userscanclickanynodetoviewmoredetailsabouttheunderlyingtaxonsetviathe‘TaxonSetView’optionontheright.Theresulttablewithdetailedstatisticalinformationisshownatthebottomofthepage.

此框描述了MicrobiomeAnalyst中可用于数据过滤和标准化的不同方法。微生物组数据会受到从样品制备到测序的各种系统变异的影响。过滤和标准化的目的是消除或减少这种系统的可变性。下面将进一步讨论最常用方法的优缺点。但是,方法的选择取决于要执行的分析的类型。

抽平通常用于解决不均匀的文库大小。此方法通过随机进行二次采样而不替换不认为有缺陷的最小文库的大小。由于有用信息的潜在丢失而受到批评。但是,该方法已被证明对于组之间非常小的(<1,000个读长/样本)或非常不均匀的库大小(差异大于>10倍)有用,对于比较生态群落(β多样性)也很重要。

缩放涉及将特征数量乘以样本比例因子以解决不均匀的测序深度,将原始读长频数转换为相对丰度。最常用的方法是总和缩放(totalsumscaling,TSS),其中数据除以每个样本中读长的总数。该方法受到批评,因为读长数量的总数可能受少数几个最丰富的特征所支配,这会导致相对丰度不够准确。此外,TSS并未考虑跨测量值的特征方差的异方差性。已经提出了其他标准化方法,例如:高分位数(upperquantile,UQ)和累积总和缩放(cumulativesumscaling,CSS),以解决此类问题。特别是在进行差异分析时,建议使用CSS来控制具有较大组大小的数据中的FDR。但是,在进行群落级别的比较(例如估算β多样性)时,建议使用TSS,因为它可以最准确地捕获原始群落的组成,而UQ和CSS会使群落变形。

数据转换的目的是稳定数据的方差。由于微生物组数据性质,通常建议使用中心对数比(centeredlogratio,CLR)。此外,其变体,相对对数表达(relativelogexpression,RLE)和修整均(mean,M)值(TMM)在识别差异特征方面一直表现出较高的性能。

Box4|Alphaandbetadiversity

此框描述了MicrobiomeAnalyst中可用于群落分析的α和β多样性分析。Alpha多样性是样本内多样性的一种度量,而β多样性是样本间多样性的一种度量。可以将Alpha多样性视为单个样本多样性的汇总统计,而可以将β多样性估计值视为成对样本之间的相异性结果。对于后者,这些措施允许通过聚类或降维技术进行进一步分析。可以使用各种统计检验来评估差异是否显着。更多细节请往下看。

Alpha多样性概括了样本中物种的丰富度(物种总数)和/或均匀性(物种间的丰度分布)。MicrobiomeAnalyst当前支持六种alpha多样性度量,每种评估群落的不同方面。“Observed”可计算每个样本的特征总数,而“ACE”和“Chao1”可通过计算由于丰度低而未被检测到的特征来估算分类单元丰富度。“Shannon”和“Simpson”考虑了物种的丰富性和均匀性,对均匀性的重视程度各不相同。最后,“Fisher”将群落的丰度结构转化为对数。

Beta多样性评估样本之间群落组成的差异。可以将所得的β多样性估计值合并到距离矩阵中,并用于进行排序。彼此接近的样品在其微生物群落特征方面更为相似。MicrobiomeAnalyst支持五种最常用的β多样性指标。“Jaccard距离”仅使用特征的存在与否来计算微生物成分的差异;“Bray-Curtis差异”使用丰度数据并计算特征丰度的差异;“Jensen-Shannondivergence’”评估两种概率分布之间的距离,这些概率分布说明了微生物特征的存在与丰富度;“UnweightedUniFrac”和“weightedUniFrac”使用特征之间的系统发生距离-前者仅基于系统发生距离,而后者则根据特征的相对丰富度进一步加权。

Box5|Correlation,comparisonandclassification

随机森林(RandomForest,RF)是一种有监督的机器学习算法,已应用于微生物组数据进行分类以及识别对分类具有重要作用的微生物分类群。RF非常适合用于大型和大噪音的数据,例如微生物组的数据,因为它能够识别非线性关系,处理可变的相互作用并且可以处理过度拟合。RF通过使用随机选择的训练数据子集构建多个决策树来工作。每棵树是通过在每个节点上随机选择一小组要分割的特征而形成的。通过所有树的多数投票来实现分类预测。为了评估分类准确性,在树构建过程中将1/3个样本去除,随后使用模型对这些样本进行分类,以计算袋外或OOB错误率。

Box6|Functionalprediction

故障排除建议可在表2中找到。

第1步至第30步,阶段1,对16S丰度数据进行全面分析:约30分钟,具体取决于数据集的大小

该方法使用户能够对其微生物组数据进行全面分析。提供了三个示例数据集:每个分别用于儿童IBD样本,老年小鼠样本和耕地土壤样本。在分析过程中产生的主要图形输出如图3–9。用户不仅能够描述其微生物群落并识别重要特征,还可以通过富集分析和基于代谢网络的可视化获得功能见解。PPD和TSEA模块还允许用户通过将其数据与兼容的公共数据集或已知的微生物标签进行比较来进行潜在分析或新颖见解,从而进行元分析。

链接到本文的《自然研究报告摘要》中提供了有关研究设计的更多信息。

THE END
1.统计分析软件大全数据统计分析软件app免费下载常用这里小编就给大家整理出来了比较常用的统计数据分析软件,例如为微软excel、千瓜数据分析、阿里云、金数据、抖查查等等,这些数据统计分析软件app可以对收集到的数据进行总结和分析,轻松满足用户的需求,并且功能强大,界面清爽简洁,还有清晰的图表来展示数据的分布,非常实用。如果你正在找一块好用的统计数据分析软件,那你一定https://www.ddooo.com/zt/tjsjfxrj.htm
2.统计分析软件排行榜前十名偏玩手游盒子分享十大统计分析软件排行榜前十名手机应用,编辑为您推荐手机统计分析软件排行榜第一名到前5名到前十名的应用。找统计分析软件有哪些、统计分析软件哪个好用,上偏玩手游盒子https://m.pianwan.com/s/zj-1482232
3.3d大数据分析预测软件哪个好数据分析预测软件手机版在当今这个数据驱动的时代,3D大数据分析预测软件成为了众多企业和个人洞察未来趋势、优化决策的重要工具。随着移动技术的飞速发展,数据分析预测软件的手机版也日益受到青睐,它们旨在为用户提供更为便捷、高效的数据处理体验。面对市场上琳琅满目的选择,从专业级的3D可视化分析到适合大众用户的直观预测工具,找到那个“最好”https://www.duote.com/tech/202407/689550.html
4.3d大数据分析统计软件有哪些帆软数字化转型知识库3D大数据分析统计软件有很多,其中包括FineBI、Tableau、Domo、QlikView和Power BI。FineBI是一款领先的大数据分析与统计软件,它具备强大的数据处理能力、灵活的可视化展示、易用的操作界面和高效的数据分析功能。FineBI特别适合企业级用户,它可以帮助企业快速整合多源数据,实现数据的深度挖掘和分析,提供决策支持。FineBI的https://www.fanruan.com/blog/article/84537/
5.Grapher2D/3D数据式XY科学绘图和统计分析软件专业2D、3D 绘图和统计分析软件, 深入了解您的数据。 可视化数据 以专业状态显示您的数据。Grapher 提供高品质的绘图工具,因此您可以充分利用您的数据。Grapher 提供了 80 多种不同的 2D 和 3D 图形选项,以最好地显示您的数据。 分析数据 不要错过任何机会。您的数据可能隐藏了有价值的信息。利用 Grapher 广泛的https://www.aiviy.com/item/grapher
6.3DCS软件功能介绍3DCSMBD/CAD公差分析5.可视化和数据展示: 3DCS提供了直观且易于理解的可视化工具,可以将尺寸控制仿真和分析的结果以图表、图形和动画的形式展示出来。这有助于工程师更好地理解产品的尺寸控制情况,做出准确的决策和改进。 总的来说,3DCS是一款功能强大的尺寸控制和装配仿真软件,可以帮助工程师进行尺寸控制方案的优化、装配工艺的改进和装https://www.ruanfujia.com/11167763/
7.数据分析软件中,Excel和sPSs哪一个更好用?就复杂程度来说,Excel相比于SPSS要更加的容易操作,更加的简单。https://www.3d66.com/answers/question_857966.html
8.上千款精选软件合集,您专属的软件太空舱有氧周末今天有氧君给大家分享一个宝藏资源库,免费为大家提供一个新型的网上软件资源服务,整合了网上最新最丰富的软件项目,提供开发者们下载各类软件资源,并即时更新,以便大家及时获取新软件项目,从而大大提高效率。 它就是您专属的软件太空舱(以下简称太空舱)。 https://www.shangyexinzhi.com/article/6755516.html
9.手把手教你使用NIRSKITnirskitNIRS_KIT:NIRS-KIT是朱朝喆老师研究团队,于2019年发布的一款同时支持任务态和静息态 fNIRS 数据分析的图形化界面软件。该工具箱涵盖了近红外数据整个分析流程,包括数据准备、质量检查、预处理、个体水平分析、组水平统计和结果可视化。对于任务 fNIRS 数据,基于 GLM 进行个体层面的分析以检测与任务相关的神经激活。对于静https://blog.csdn.net/u011661076/article/details/119644658
10.智能化集成系统软件平台物联网数据中台软件古河物联网数据中台作为项目中智能化设备运行信息和项目运营信息数据的交汇与处理的中心,对汇集的各类信息进行分析、处理和判断,采用最优化的监控手段,对各类智能化设备进行 集中监控和管理,使各子系统和设备始终处于有条不紊、协调一致的管理,保证设备在最佳 状态下运行,最大限度地节省能耗和日常运营管理的各项费用,https://www.ghibms.com/index.php?act=content&cid=483
11.许嘉宾–西安图谱云端信息技术有限公司五、医学、生物、机械设计和制造、统计学计算和分析软件 (1)3D Printing CAM数据整理软件:WPS-Excel、Microsoft Word-Excel、PPT、PDF (2)统计学数据分析和计算软件:R、SAS、JMP、Matlab、和SPSS (3)二维设计软件:AutoCAD、浩辰CAD、CAXA电子图版 (4)三维设计软件:CATIA、Solid Works、UG、ProE(Creo)、Sketch Uphttps://www.mapsciencecloud.com/author/adminxujiabin
12.数据分析和绘图软件OriginLabOriginPro2019b破解版含序列号OriginPro2019破解版是一款功能强大的一体化数据分析处理和绘图软件,您可以对数据进行数值分析,包括各种统计操作,信号处理等。通过导入、绘制、探索、分析和解释他们的数据。通过点击式界面和批量操作工具来优化日常的工作流程,提升效率,减少错误的几率http://www.sd173.com/soft/8237.html
13.8D报告范文12篇(全文)(1)初级统计管理方法:又称为常用的统计管理方法。它主要包括控制图、因果图、相关图、排列图、统计分析表、数据分层法、散布图等所谓的QC七工具(或叫品管七大手法)。运用这些工具,可以从经常变化的生产过程中,系统地收集与产品质量有关的各种数据,并用统计方法对数据进行整理,加工和分析,进而画出各种图表,计算某些https://www.99xueshu.com/w/file0dw9rlzk.html
14.永青集团有限公司7、 连铸主控工 1名38岁以下,高中及以上学历,有1年以上相关工作经验,主控的职责就是负责传达指令到各车间,浇铸过程中监视好温度、提速、水量以及铸坯情况等,熟练操作办公软件,服从工作安排。8、 数据统计员 1 名35岁以下,大专及以上学历,有1年以上相关工作经验,熟练办公软件,负责修磨转运车间数据和修磨数据统计https://www.etsingshan.com/Art/Art_27/Art_27_276.aspx