分子对接CADD蛋白对接AIDD机器学习代谢组学

分子对接、CADD、蛋白对接、AIDD、机器学习代谢组学

CADD(ComputerAidedDrugDesign):计算机辅助药物设计,依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果,针对这些基础研究中所揭示的包括酶、受体、离子通道及核酸等潜在的药物设计靶点,并参考其它类源性配体或天然产物的化学结构特征,以计算机化学为基础,通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用,考察药物与靶点的结构互补、性质互补等,设计出合理的药物分子。它是设计和优化先导化合物的方法,CADD的应用,包括基于结构的药物设计(SBDD)、基于配体的药物设计(LBDD)、高通量虚拟筛选(HTVS)等技术,突破了传统的先导物发现模式,极大地促进了先导化合物发现和优化。特别是在食品、生物、化学、医药、植物、疾病方面应用广泛!靶点的发现与确证是现代新药研发的第一步,也是新药创制过程中的瓶颈之一。CADD的应用可以加快靶点发现的速度,提高靶点发现的准确度,从而推进新药研发。

AIDD(AIDrugDiscovery&Design):是近年来非常火热的技术应用,且已经介入到新药设计到研发的大部分环节当中,为新药发现与开发带来了极大的助力。随着医药大数据的积累和人工智能技术的发展,运用AI技术并结合大数据的精准药物设计也不断推动着创新药物的发展。在新型冠状病毒的治疗方案中,通过一系列计算机辅助药物生物计算的方法发现一大类药物分子可以有效阻止新冠病毒的侵染,为治疗新冠提供了新思路。倾向于机器对数据库信息的自我学习,可以对数据进行提取和学习,一定程度上避免了化合物设计过程中的试错路径,同时还会带来很多全新的结构,为药物发现打破常规的结构壁垒。

代谢组学是对某一生物或细胞在一特定生理时期内所有代谢产物同时进行定性定量分析的学科,被广泛用于揭示小分子与生理病理效应间的关系。目前,代谢组学已经被应用于药物开发的各个阶段(如药物靶标识别、先导化合物发现、药物代谢分析、药物响应和耐药研究等)。基于代谢组学的高性价比特性,它被药学领域的研究者给予了厚望,有望加速新药开发的进程。然而,代谢组领域还面临着严重的信号处理与数据分析问题,对其在新药研发中的应用构成了巨大挑战。为了有效消除由环境、仪器和生物因素所引入的不良信号波动,就需要开发针对代谢组信号系统优化的新方法,为不同组学研究量身定制最优的数据分析策略。

一:CADD计算机辅助药物设计

第一天上午

背景与理论知识以及工具准备

1.PDB数据库的介绍和使用

1.1数据库简介

1.2靶点蛋白的结构查询与选取

1.3靶点蛋白的结构序列下载

1.4靶点蛋白的下载与预处理

1.5批量下载蛋白晶体结构

2.Pymol的介绍与使用

2.1软件基本操作及基本知识介绍

2.2蛋白质-配体相互作用图解

2.3蛋白-配体小分子表面图、静电势表示

2.4蛋白-配体结构叠加与比对

2.5绘制相互作用力

3.notepad的介绍和使用

3.1优势及主要功能介绍

3.2界面和基本操作介绍

3.3插件安装使用

下午

一般的蛋白-配体分子对接讲解

1.1分子对接的概念及基本原理

1.2分子对接的基本方法

1.3分子对接的常用软件

1.4分子对接的一般流程

2.常规的蛋白-配体对接

2.1收集受体与配体分子

2.2复合体预构象的处理

2.3准备受体、配体分子

2.4蛋白-配体对接

2.5对接结果的分析

第二天

虚拟筛选

1.小分子数据库的介绍与下载

2.1openbabel的介绍和使用

2.2chemdraw的介绍与使用

3.虚拟筛选的前处理

4.虚拟筛选的流程及实战演示

案例:筛选新冠病毒主蛋白酶抑制剂

5.结果分析与作图

6.药物ADME预测

6.1ADME概念介绍

6.3预测结果的分析

第三天

拓展对接的使用方法

1.蛋白-蛋白对接

1.1蛋白-蛋白对接的应用场景

1.3目标蛋白的收集以及预处理

1.4使用算例进行运算

1.5关键残基的预设

1.6结果的获取与文件类型

1.7结果的分析

以目前火热的靶点PD-1/PD-L1等为例。

2.涉及金属酶蛋白的对接

2.1金属酶蛋白-配体的背景介绍

2.2蛋白与配体分子的收集与预处理

2.3金属离子的处理

2.4金属辅酶蛋白-配体的对接

2.5结果分析

以人类法尼基转移酶及其抑制剂为例

3.蛋白-多糖分子对接

4.1蛋白-多糖相互作用

4.2对接处理的要点

4.3蛋白-多糖分子对接的流程

4.4蛋白-多糖分子对接

以α-糖苷转移酶和多糖分子对接为例

5.核酸-小分子对接

5.1核酸-小分子的应用现状

5.3核酸-小分子的结合种类

5.4核酸-小分子对接

以人端粒g-四链和配体分子对接为例。

操作流程介绍及实战演示

第四天

1.柔性对接

1.1柔性对接的使用场景介绍

1.2柔性对接的优势

1.3蛋白-配体的柔性对接

重点:柔性残基的设置方法

以周期蛋白依赖性激酶2(CDK2)与配体1CK为例

2.共价对接

2.1两种共价对接方法的介绍

2.1.1柔性侧链法

2.1.2两点吸引子法

2.2蛋白和配体的收集以及预处理

2.3共价药物分子与靶蛋白的共价对接

2.4结果的对比

以目前火热的新冠共价药物为例。

3.蛋白-水合对接

3.1水合作用在蛋白-配体相互作用中的意义及方法介绍

3.2蛋白和配体的收集以及预处理

重点:水分子的加入和处理

3.4蛋白-水分子-配体对接

3.5结果分析

以乙酰胆碱结合蛋白(AChBP)与尼古丁复合物为例

第五天

分子动力学模拟(linux与gromacs使用安装)

1.linux系统的介绍和简单使用

1.1linux常用命令行

1.2linux上的常用程序安装

1.3体验:如何在linux上进行虚拟筛选

2.分子动力学的理论介绍

2.1分子动力学模拟的原理

3.gromacs使用及介绍

重点:主要命令及参数的介绍

4.origin介绍及使用

第六天

溶剂化分子动力学模拟的执行

1.一般的溶剂化蛋白的处理流程

2.蛋白晶体的准备

3.结构的能量最小化

4.对体系的预平衡

5.无限制的分子动力学模拟

6.分子动力学结果展示与解读

以水中的溶菌酶为例

第七天

蛋白-配体分子动力学模拟的执行

1.蛋白-配体在分子动力学模拟的处理流程

3.蛋白-配体模拟初始构象的准备

4.配体分子力场拓扑文件的准备

4.1高斯的简要介绍

4.2ambertool的简要介绍

4.3生成小分子的力场参数文件

5.对复合物体系温度和压力分别限制的预平衡

6.无限制的分子动力学模拟

7.分子动力学结果展示与解读

8.轨迹后处理及分析

部分模型案例图片

编辑

二:AIDD人工智能药物发现与设计

(第一天)

人工智能药物发现(AIDD)简介

机器学习和深度学习在药物发现领域的应用

工具的介绍与安装

1.人工智能药物发现(AIDD)简介2.机器学习和深度学习在药物发现领域的应用

1.2环境搭建

python

anaconda

工具包

RDKit

scikit-learn

pandas

numpy

(第二天)

机器学习

机器学习药物发现

2.1机器学习

2.1.1随机森林RandomForest(RF)

2.1.2支持向量机SupportVectorMachines(SVMs)

2.1.3卷积神经网络

梯度下降

反向传播

随机梯度下降

学习率和激活函数

卷积神经网络CNN

常用框架介绍

Pytorch

TensorFlow

2.1.4机器学习任务

分类任务:classification

回归任务:regression

聚类任务:clustering

2.1.5机器学习验证和评估指标

验证:K折交叉验证K-foldcrossvalidation

性能评估指标:

Sensitivity

Specificity

Accuracy

ROC-curve

AUC

2.2ChEMBL数据库介绍和使用

compoundactivitymeasures

IC50

pIC50

2.3化合物的编码方式及化学相似性

2.3.1化合物编码方式

SMILES

InChI

Chebi

分子指纹

MACCS:MolecularACCessSystemfingerprints(MACCSKeys)

MorganFingerprints:Extended-ConnectivityFingerprints(ECFPs)

2.3.2化合物的化学相似性

Tanimoto系数

Dice系数

2.4项目实战

2.4.1Classification:基于分子指纹的化合物活性预测

2.4.2Clustering:基于Butina算法的分子聚类方法研究

(第三天)

图神经网络与药物发现

3.1图神经网络

图卷积网络GCN

图注意力网络GAN

图同构网络GIN

Pytorch_Geometric

DGL

Tox21

ToxCast

ClinTox

3.3项目实战:基于图神经网络的分子毒性预测

3.4经典论文讲解:DeepTox:ToxicityPredictionusingDeepLearning

(第四天)

(第四天)

自然语言处理与药物发现

4.1自然语言处理

循环神经网络RNN

LSTM

Seq2seq

Transformer

常用框架介绍:

4.2.1有机反应的表示方法

4.2.2有机反应的产量

4.3项目实战:基于Transformer的有机化学反应产量预测

4.4经典论文解读:Extractionoforganicchemistrygrammarfromunsupervisedlearningofchemicalreactions

(第五天)

生化代谢路径设计与药物发现

5.1生化数据集介绍与使用

KEGG

BiGG

BioCyc

PubChem

5.2搜索方法

基于化学计量矩阵的搜索方法

基于逆合成的搜索方法

基于图结构的搜索方法

基于进化算法的搜索方法

5.3评估方法

通量平衡分析FBA

理论产量计算

热力学可行性分析

5.4项目实战:基于逆合成的生物代谢路

5.5经典论文讲解:PredictingOrganicReactionOutcomeswithWeisfeiler-LehmanNetwork

免费视频:深度学习AiphaFold2蛋白质结构预测实例讲

蛋白质结构与功能的概述。

蛋白质的组成

蛋白质的结构

蛋白质的功能

常见蛋白质结构预测的网站及方法。

常用网站及软件的使用方法及说明

机器学习在蛋白质结构预测的应用。

蛋白质结构与小分子药物库获取

机器学习加速预测小分子药物

AlphaFold2机器学习模型对蛋白结构预测

实战蛋白结构预测目前最好的人工智能模型AlphaFold2。

AlphaFold2模型的获取及安装

AlphaFold2模型的实战操作

三:机器学习与代谢组学专题课表内容

第一天

A1代谢物及代谢组学的发展与应用

(1)代谢生理功能;

(2)代谢疾病;

(3)非靶向与靶向代谢组学;

(4)空间代谢组学与质谱成像(MSI);

(5)代谢流与机制研究;

(6)代谢组学与药物和生物标志物。

A2代谢组学实验流程简介

A3色谱、质谱硬件原理

(1)色谱分析原理;

(2)色谱的气相、液相和固相;

(3)色谱仪和色谱柱的选择;

(4)质谱分析原理及动画演示;

(5)正、负离子电离模式;

(6)色谱质谱联用技术;

(7)LC-MS的液相系统

A4代谢通路及代谢数据库

(1)几种经典代谢通路简介;

(2)能量代谢通路;

(3)三大常见代谢物库:HMDB、METLIN和KEGG;

(4)代谢组学原始数据库:MetabolomicsWorkbench和Metabolights.

(3)样本及代谢物的运输与保存问题;

B2LC-MS数据质控与搜库

(1)LC-MS实验过程中QC样本的设置方法;

(2)LC-MS上机过程的数据质控监测和分析;

(3)XCMS软件数据转换与提峰;

B3R软件基础

(1)R和Rstudio的安装;

(2)Rstudio的界面配置;

(3)R的基本数据结构和语法;

(4)下载与加载包;

(5)函数调用和debug;

B4ggplot2

(1)安装并使用ggplot2

(2)ggplot2的画图哲学;

(3)ggplot2的配色系统;

(4)ggplot2画组合图和火山图;

C1无监督式机器学习在代谢组学数据处理中的应用

(1)大数据处理中的降维;

(2)PCA分析作图;

(3)三种常见的聚类分析:K-means、层次分析与SOM

(4)热图和hcluster图的R语言实现;

C2一组代谢组学数据的降维与聚类分析的R演练

(1)数据解析;

(2)演练与操作;

C3有监督式机器学习在代谢组学数据处理中的应用

(1)数据用PCA降维处理后仍然无法找到差异怎么办?

(2)PLS-DA找出最可能影响差异的代谢物;

(3)VIPscore和coef的意义及选择;

(4)分类算法:支持向量机,随机森林

C4一组代谢组学数据的分类算法实现的R演练

(1)数据解读;

D1代谢组学数据清洗与R语言进阶

(1)代谢组学中的t、fold-change和响应值;

(2)数据清洗流程;

(3)R语言tidyverse

(4)R语言正则表达式;

(5)代谢组学数据过滤;

(6)代谢组学数据Scaling原理与R实现;

(7)代谢组学数据的Normalization;

(8)代谢组学数据清洗演练;

D2在线代谢组分析网页Metaboanalyst操作

(1)用R将数据清洗成网页需要的格式;

(2)独立组、配对组和多组的数据格式问题;

(3)Metaboanalyst的pipeline和注意事项;

(4)Metaboanalyst的结果查看和导出;

(5)Metaboanalyst的数据编辑;

(6)全流程演练与操作

E1机器学习与代谢组学顶刊解读(2-3篇);

(1)NatureCommunication一篇代谢组学小鼠脑组织样本database类型的文献;

(2)Cell一篇代谢组学患者血液样本的机器学习与疾病判断的文献;

THE END
1.大数据进行数据清洗的基本流程数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。下面通过一张图描述数据清洗的基本流程,具体如图所示。 接下来针对图中数据清洗的基本流程进行详细讲解。 1.数据分析 https://www.jianshu.com/p/1bc63211e025
2.数据分析基本流程有哪些数据分析主要有八个流程:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、将数据展现和输出;7、洞察结论;8、报告撰写。 1、目标的确定 只有弄清分析的目的是什么?才能准确定位分析因子,提出有价值的问题,提供清晰的思路。 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来https://www.linkflowtech.com/news/614
3.数据清洗的基本流程包括()步骤。A数据分析B定义数据清洗的数据清洗的基本流程包括()步骤。A、数据分析B、定义数据清洗的策略和规则C、搜寻并确定错误实例D、纠正发现的错误搜索 题目 数据清洗的基本流程包括()步骤。 A、数据分析 B、定义数据清洗的策略和规则 C、搜寻并确定错误实例 D、纠正发现的错误 答案 解析https://easylearn.baidu.com/edu-page/tiangong/bgkdetail?id=aa83547addccda38376bafbe&fr=search
4.机器学习的基本过程流程图好的,以下是机器学习的基本过程流程图: 数据预处理:收集并清洗数据,包括去除异常值和缺失值等。 特征工程:对数据进行特征提取和转换,以便于机器学习算法的处理。 模型选择:选择适当的机器学习算法,根据数据类型和问题类型进行选择。 模型训练:使用训练数据对所选模型进行训练,调整模型的超参数。 https://wenku.csdn.net/answer/5ac401b46e804515af9fa3a25c881f30
5.大数据处理流程中数据清洗工作是在()阶段完成。确保数据换装质量和作业安全的前提下,由变化的线路所属铁路局决定在施工地点两端临近车站进行固定径路列车担当机车的 。 查看完整题目与答案 IC卡数据文件编制软件维护、管理由 负责,有关参数由电务段、机务段共同确定。 查看完整题目与答案 计算机结构化程序设计用( )种基本结构。 查看完整题目与答案 IC卡数据文件https://www.shuashuati.com/ti/2188e57ea66f4b41b60079e6f0873d76.html?fm=bd3b7f0d25f4f0ca340ecbbca695862350
6.大数据毕设基于Hadoop的音乐推荐系统的设计和实现(六)可以基于不同的用户数据,来分析并且产生最优的推荐结果,这样可以在系统对外扩展的时候能够减少投入的、并且能够快速取得预期结果。在设计该系统时,要设计一个完整的数据处理流程:数据清洗,数据上传,数据分析,数据存储,数据可视化。这个系统主要是针对于数据,对于数据进行处理,然后分析,能够得到推荐的结果,主要是基于协同https://developer.aliyun.com/article/1404874
7.数据清洗流程包括哪些步骤?数据清洗流程包括哪些步骤? 数据清洗是指对采集的数据进行初步处理,使其符合分析要求和标准,从而提高数据质量和可信度的过程。数据清洗流程包括以下六个步骤: 数据收集 数据收集是数据清洗的第一步,这个步骤是获取数据的初始状态,可以是从数据库、API、爬虫等多种途径获得数据。在这一步骤中需要注意的是,要根据需求https://www.cda.cn/bigdata/202779.html
8.科学网—系统:R语言贝叶斯网络模型R语言贝叶斯模型进阶R语言3.掌握利用R实现贝叶斯静态和动态网络学习的步骤和流程 4.掌握利用R进行贝叶斯网络推理的要点 5.通过理论知识学习与上机实践操作,具备构建贝叶斯网络模型的能力,实现科研和生产实践目的 专题一:R语言实现Bayesian Network分析的基本流程 R语言的数据类型与基本操作 https://wap.sciencenet.cn/blog-3539141-1414917.html
9.无锡政府采购网·无锡市城市信息模型(CIM)基础平台(一期工程)项目充分调研相关业务现状、数据资源现状、系统建设现状,明确无锡市城市信息模型(CIM)基础平台的发展定位和总体目标、实施计划及步骤,对平台定位、总体设计、技术路线、平台构成及数据资源体系等进行合理、可行、先进的设计,为无锡市城市信息模型(CIM)基础平台建设提供纲领性、框架性、指导性目标,推动CIM平台在城市规划、设计、https://cz.wuxi.gov.cn/doc/2024/04/17/4290410.shtml
10.数据处理全流程解析(如何进行数据处理)当完成这几步操作后,此时数据就已经脱离APP了,开始往数仓的方向流动,数仓承担着接收数据并最终将数据落地到应用的职责。 02 数据是如何被接收的 数据在到达接入层后会经历解包、解析转换、数据清洗、数据存储四个技术流程。只有经过了这一系列的步骤,数据才能够以规整的形式呈现出来,以供下一个环节的消费。 https://www.niaogebiji.com/article-114218-1.html
11.数据清洗标准与规范(31页)数据清洗流程和基本原则 数据清洗工具和技术介绍 数据清洗实例展示与分析 数据清洗常见问题及解决方案 数据清洗管理与质量保证 数据清洗未来发展趋势ContentsPage目录页 数据清洗定义与重要性数据清洗标准与规范 数据清洗定义与重要性数据清洗定义1.数据清洗是指对原始数据进行审核、纠正、转换和整理,以提高数据质量、准确性https://m.book118.com/html/2023/1228/8035074044006021.shtm
12.面向公众版“天地图”的地名地址数据库动态更新方法*收集民政局的门牌及地名数据、工商局的企事业单位登记信息、公安局的地址信息以及其他来源的地名地址信息。以上一期“天地图”地名地址数据库为本底数据并继承其数据结构、要素分类与编码。提取基础地理信息数据库的注记、居民地、道路等图层。按照一定的清洗规则和相关流程把相似重复、不一致、属性缺失的信息进行数据清洗,https://www.fx361.com/page/2022/0424/15802407.shtml
13.hadoop清洗数据流程mob649e815bbe69的技术博客在大数据处理中,数据清洗是一个重要的步骤。Hadoop作为一个分布式计算框架,可以帮助我们进行高效的数据清洗。本文将介绍使用Hadoop进行数据清洗的步骤和所需的代码。 流程图 开始文本文件导入HDFSMap阶段Reduce阶段结果输出结束 步骤说明 下面将分步骤介绍如何使用Hadoop清洗数据。 https://blog.51cto.com/u_16175464/7074610
14.数据分析的八个流程8、报告撰写。 1、目标的确定 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来的,但第一次的数据报告中,需要你自己来提出并确定目标。 数据分析的八个流程 企服解答 数据分析的八个流程包括:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、展现和输出;7、洞察结论;8https://36kr.com/p/1491281074089859