蛋白质二级结构预测-人工神经网络方法(图)

神经网络可以有效地学习蛋白质二级结构形成的复杂规律或模式,提取更多的信息,并利用所掌握的信息进行预测。利用神经网络方法可以提高二级结构预测准确率。早期的神经网络方法能够得到63-65%的二级结构预测准确率,利用多序列比对的信息对二级结构预测的准确率能够达到70%。

用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层、隐含层以及输出层。每一层由若干神经元组成,输入层神经元与隐含层的神经元是完全连接的,即任何一个输入层神经元都与任何一个隐含层的神经元连接。同样,隐含层神经元与输出层的神经元也是完全连接的。

输入层用于接收蛋白质窗口序列数据。沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码,窗口包括中心氨基酸残基及左右m个(共2m+1个)残基,每一个残基用21个神经元编码,因此,输入层共有2undefined(2m+1)个神经元。输出层有3个神经元,分别对应于窗口中心残基的H、E、C三态。输入层中编码一个残基的21个神经元只有一个处于激发状态,即设置为1,其余为0,对应于一种氨基酸残基。类似地,代表中心残基二级结构状态的输出单元的期望输出为1,其它两个单元为0。

在这样一种神经网络模型中,隐含层的神经元是完成从氨基酸序列到蛋白质二级结构映射的关键,这种映射是非线性的。通过隐含层的信息处理,可以检测残基及所处环境与二级结构的复杂关系。隐含层的神经元个数一般从2个变化到几十个,隐含层的神经元越多,则神经网络对训练实例的记忆能力越强,但是神经网络的推广能力将越弱,对新蛋白质二级结构预测的准确率越低。因此,在实际应用中需要通过大量实验,选择合适的隐含层神经元个数。在实际应用中,窗口的大小影响预测结果,Qian和Sejnowskit实验结果表明窗口的大小取13个残基为佳。

神经网络通过神经元之间的连接存贮信息或知识,因此,神经网络学习的过程实际上是调整网络中各连接权值的过程。神经网络中各层之间的连接权值调整采用反向传播BP算法(相应的网络称为BP网)。在训练或学习过程中,将结构已知的蛋白质序列由输入层输入,不断调整神经网络神经元之间的连接权重及网络节点的偏置,直至实际输出与期望值差别最小为止。在训练过程的每一步,取一个窗口中的序列及窗口中心氨基酸所对应的二级结构作为已知的映射结果,调整网络映射行为,使之与已知映射关系相一致。训练完毕后,得到一个已确定参数并且可以进行结构预测的实际神经网络。

与前述其它方法相比,神经网络具有应用方便、计算能力强、预测准确率较高的特点,网络一旦训练完毕,就可以进行快速预测。目前二级结构预测识别率不高的主要因素是许多预测方法没有使用足够的进化信息和全局信息。蛋白质序列家族中氨基酸的替换模式是高度特异的,如何利用这样的进化信息是二级结构预测的关键。

基于人工神经网络模型的预测软件PHDsec使用简介:

PHDsec的第一步工作是形成同源序列的多重对比排列。对于一个待预测的蛋白质,PHDsec首先利用BLAST在SWISS-PROT数据库中搜索同源序列,然后再利用MaxHom程序将这些同源序列对比排列起来,并对每个比对的位置进行统计分析。

PHDsec的第二步工作是将得到的多重比对的统计结果送到一个神经网络中计算。这里的神经网络是一个多层的前馈网络,

整个网络模型包括两个层次:第一层网络进行序列到结构的映射,对于第一层网络的输入包括两个部分,如上图中(a)、(b)所示。一部分是序列的局部信息,取自窗口内w(缺省值为13)个氨基酸残基,另一部分是来自整个序列的全局信息。首先,取多重序列比对的w列,上图中(a)所示,这里w=7;然后,计算序列局部统计数据以及序列全局数据。局部数据有24个,其中20个数据对应于20种氨基酸,1个数据对应于“空缺”氨基酸(这使得窗口位置可以在序列的两端,蛋白质的第一个或最后一个氨基酸都可以作为窗口的中心,不存在的部分用“空缺”符号代替),2个数据分别表示多重序列比对中该位置的插入(ins)和删除(del)的次数,1个数据表示该位置的保守程度(cons)。

全局数据有32个,其中20个数据表示各种氨基酸所占百分比,表示蛋白质长度的数据有4个(分别对应与4个区间,(b)),当前窗口到蛋白质N-端和C-端的距离分别有4个。第一层次网络的输出是窗口中心残基二级结构的状态,H代表螺旋,E代表折叠,L代表其它。第二层次网络是一个结构到结构的映射,作用是对前一层网络的输出进行校正。第二层网络的输入主要是第一层网络的输出,同时还包括所有全局信息以及局部的保守信息(cons)。所有第二层网络的输入表示为:3(二级结构)+1(空缺)+1(cons)+32(全局数据)。第二层网络输出的含义与第一层网络的输出一样。

建立好系统的模型后(开始的时候系统仅仅是一个空壳),PHDsec对神经网络进行训练,通过训练教会神经网络如何正确地预测蛋白质二级结构。训练是一个反复的过程,要求神经网络至少能够正确处理训练数据。PHDsec的训练数据是随机选取的。

由于PHDsec在进行二级结构预测时采用序列多重比对的统计结果,而序列多重比对反映了蛋白质家族的共同特征,提取了结构保守的信息。序列多重比对结果也反映了在进化过程中,哪些部分的结构容易发生变化,而哪些部分的结构对蛋白质的功能非常重要,不能随意改变。

这些信息对于蛋白质结构预测来说,是非常关键的。多重序列比对所携带的进化信息也暗示了蛋白质中长程相互作用:假设蛋白质中氨基酸残基i与残基i+100在三维空间中靠在一起,残基i可能的替换类型受到残基i+100理化特性的约束。这样的长程相互约束关系会反应在多重序列比对中。总之,利用多重序列比对的信息,可以提高二级结构预测的准确性。另外,PHDsec通过两层神经网络的体系,加强了预测结果的校正,由此提高了对β折叠结构预测的准确性。正因为这样,PHDsec预测的准确率比较高,对二级结构预测的准确率达到72%,而且还对序列上每个位点的预测可信度给予统计分析。PHDsec是第一个预测准确率超过70%二级结构预测方法,比基于单条序列的预测方法提高了近10个百分点。

人工血浆Artificialplasma/Syntheticplasma

¥10

神经网蛋白CopineVI抗体

¥2400

蛋白序列二级结构如何预测

¥600

人工唾液ArtificialSaliva/SyntheticSaliva

¥20

人工全血ArtificialWholeBlood/SyntheticWholeBlood

请问如何能从二级质谱为蛋白定性?

蛋白质的提取方法有哪些?

蛋白质纯度分析的方法有哪些?

RAP-PCR方法

2022-02-11

AP-PCR方法

蛋白质序列分析和结构预测实验

2024-05-14

推荐阅读

蛋白质二级结构预测-最邻近方法(NearestNeighboringmethods)

THE END
1.预测准确率怎么计算股票频道如何计算预测准确率 在财经领域,预测准确率是一个重要的参考指标,用于衡量分析师、机构或投资者在市场分析中的预测能力。本文将介绍如何计算预测准确率,以帮助您更好地了解这一指标。 预测准确率的计算方法 预测准确率的计算方法是通过以下几个步骤进行的: https://stock.hexun.com/2024-03-28/212350220.html
2.销售预测准确率的计算智造前沿月销售预测的准确率只要将每周的数量相加来计算。 二、销售预测准确率的意义 1. 通过跟踪和持续提高销售预测准确率,增强对需求的监控,从而减少对供应链带来剧烈波动,降低运营成本,提高供应的稳定性,提高客户满意度。 2. 作为设置安全库存的重要依据。 三、提高销售预测准确率的方法 https://www.wethinks.com/shows/26/315.html
3.预测准确率怎么计算理想股票技术论坛想了解如何计算预测准确率?本文介绍了预测准确率的计算方式,帮助你评估预测模型的准确性。了解预测准确率的计算方法,可以提高对股票市场的预测能力。 ,理想股票技术论坛https://www.55188.com/tag-07009520.html
4.一种煤层突出危险性区域预测临界值的确定方法及系统与流程目前,国内尚未形成一套系统的确定区域突出危险性预测临界值的方法和系统。根据相关经验,区域突出危险性预测临界值试验常通过煤巷掘进进行试验考察确定,但试验过程中采用顺层钻孔测定原始瓦斯压力,则存在封孔难度大、测试时间长、成本费用高、压力测定不准确等不利条件,因此在生产实际过程中常将瓦斯含量8m3/t(地质构造带http://mip.xjishu.com/zhuanli/47/202210741774.html
5.2024清宫表完整版分享,掌握计算方法准确率高达100%现如今,虽然重男轻女的观念基本上很少了,但依旧有很多宝妈在怀上后想知道胎儿的性别。最常见的就是用清宫表来预测生男生女,即根据虚岁,以及怀孕月份来推算怀的是男孩还是女孩。不过需要注意的是,这类方法往往准确率不高,在50%左右。建议最好通过医学手段检测,可信度更高。 https://www.shengbb.net/wenda/d68cb54b4b4d798f0b1e.html
6.模型测试集上准确率(ACC)精确率precision召回率recallAUC评估指标本文探讨了混淆矩阵的基本概念,包括TP、TN、FP和FN,以及准确率、精确率、召回率和F1分数的计算方法。重点介绍了AUC(ROC曲线下的面积)在评估模型性能中的作用,通过实例演示如何使用sklearn库进行准确率和AUC的计算。 摘要由CSDN通过智能技术生成 参考: https://zhuanlan.zhihu.com/p/530885866?utm_id=0 混淆矩阵https://blog.csdn.net/weixin_42357472/article/details/123889415
7.预测准确率计算公式实际上是这样的,预测准确率,一般来讲有两种算法,一种是21131-误差绝对值/预测,一种是1-误差绝对值https://iask.sina.com.cn/jxwd/6ctz0REKLl5.html?ivk_sa=1024320u
8.性能评价范文12篇(全文)(2) 试验结果计算包括主蒸汽流量计算、发电热耗率、汽耗率、汽水损失率等指标的计算。 (3) 试验结果修正 对于试验时汽机偏离设计运行条件的情况, 应对试验结果进行修正。按照ASME PTC6A-2000标准方法, 对试验热耗率进行热耗修正, 得到最终的热耗率。所有修正根据电厂业主、制造厂与试验单位协商确定的修正曲线或修https://www.99xueshu.com/w/ikeynsi4e0rm.html
9.生男生女计算公式预测男女准确率超高(快收藏)举例说明:女性怀孕农历月份为7月,女性虚岁年龄为25岁。根据以上生男生女公式计算为:49+7-25+19=50;结果为双数生女宝。 4、68+女性怀孕的农历月份-怀孕时女性的虚岁=结果;结果为单数生男宝,结果为双数生女宝。 举例说明:女性怀孕的农历月份9月,怀孕时女性的虚岁28岁。根据以上生男生女公式计算为:68+9-28=49;https://www.snsnb.com/zixun/60792-1.html
10.基于机器学习的足球比赛结果预测与方法研究.docx粗略的统计数据如进球、射门和助攻仍然是分析球员表现的最常用的方法;这样的预测方法所得到的结果准确性低于以机器学习方法为基础的分析预测准确率,机器学习预测模型在各个领域的应用充分的证明了这一点。事实证明,本文并非是单纯的在预测足球比赛,而是“事后诸葛亮”,通过对比赛各项数据统计与比赛结果进行分析,找出对https://max.book118.com/html/2022/0613/5122144000004242.shtm