DNAmicroarray相关的基因表达数据处理攻略

基因表达谱的发展有助于科研工作人员进一步的理论知识充实及应用到研发等领域中。基因芯片是最近几年发展起来的基因表达重要工具,本文主要对这种技术的数据分析和管理方法作具体介绍。

一、引言

因此,Southernblot可被看做是最早的基因芯片。在八十年代,BainsW.等人就将短的DNA片断固定到支持物上,借助杂交方式进行序列测定。1995年,斯坦福大学开发出第一片cDNA芯片并用于生命科学研究,1998年美国Affymetrix公司将第一片带有13.5万个基因探阵的寡聚核苷酸芯片推向市场,标志着DNA微阵列的产业化,从此基因芯片或DNA微阵列的研究和应用得到了广泛的重视,可以说在生命科学研究界和产业界掀起了基因芯片热潮,1999年Nature出专刊介绍这门基因芯片及其应用。

基因芯片可用于DNA序列的再测序、基因SNP或多态性检测和基因表达分析。由于基因芯片技术是一种高通量检测技术,它可是并行的同时检测成百上千,甚至成千上万个基因的活动情况或DNA片段,改变了传统的每次只能检测一个基因的情况,因此能大大提高检测效率,降低检测成本,并保证了检测质量。

基因芯片技术可广泛应用于疾病诊断和治疗、药物筛选、农作物的优育优选、司法鉴定、食品卫生监督、环境检测、国防、航天等许多领域。它将为人类认识生命的起源、遗传、发育与进化、为人类疾病的诊断、治疗和防治开辟全新的途径,为生物大分子的全新设计和药物开发中先导化合物的快速筛选和药物基因组学研究提供技术支撑平台。

通过基因表达谱的研究可以进行进一步的理论研究或应用研究。

1、理论研究。根据基因组基因表达谱可以进一步分析共表达基因是否存在共同的顺式调控元件,发现新的调控元件。此外,可以研究基因的调控规律,构建调控网络。

2、应用研究包括疾病诊断和药物开发。根据不同疾病状态下的差异表达谱的研究可以确定疾病的类型和进展。研究药物作用后基因表达谱的改变可以确定药物的毒性、预后和疗效,从而指导药物开发和临床合理用药。

在基于DNA微阵列的基因表达分析研究中,数据的分析和管理是一个关键性的问题,它直接影响了实验结果的准确型和实验的可靠性。

二、数据分析

数据的分析包括了三个部分:芯片图像处理获得单次实验的基因表达水平;整合多次实验得到基因表达矩阵;根据基因表达矩阵进行知识挖掘。下面简单介绍一下其中涉及的关键技术:包括归一化和聚类分析。

归一化对于cDNA微阵列技术,包含Cy3和Cy5两个通道,通常存在两个通道荧光亮度不平衡的问题,Cy3的亮度低于Cy5[Quackenbush,2001]。归一化的目的是平衡实验过程中Cy3与Cy5两个通道的相对荧光亮度。

它基于如下的假设:芯片上的所有的基因,一组基因子集或一套外源的控制在标记前产生RNA,其平均表达率等于1。使用归一化因子调整数据,弥补实验的变化,“平衡”待比较的两个样本的荧光信号。主要有3种被广泛使用的技术用于来自同一个芯片杂交的基因表达数据的归一化。

1、总亮度归一化

总的亮度归一化数据依赖于假设:两个标记的样本的起始量是一样的,此外,假设一些基因在待检测的样本中相对于控制样本是上调的,另外一些是下调的。对于芯片上成百上千或成千上万的基因,这些变化应该是平衡的,因此,总的与芯片杂交的RNA的量是一样的。因此,芯片上所有的元素计算得到的总的累加亮度在Cy3和Cy5通道上是一样的,在这种假设下,计算归一化因子,并用于芯片上每个基因的亮度比例计算。

2、用回归技术归一化

3、使用比率统计归一化

除了以上三种在应用中被广泛使用的除外,还有一些复杂的、非线性的方法用于归一化。归一化后,每个基因的数据以表达率或表达率的对数报告。应用对数值的优点是理解更简单,如果值大于0,则表示该基因的表达率大于1,反之小于1。

对于合成寡聚核苷酸微阵列不存在cDNA微阵列荧光不平衡导致的系统歪曲的问题,但是对于相比较的两组实验来说,需要用两块芯片与两个样本杂交两次,产生的原因包括两个样本中mRNA数量的差异或用于标记样本的染料的质量不同,都可能导致错误。在这里归一化的目的也是去除这些错误。

聚类分析

通过图1的数据获取过程,可以得到细胞的基因表达矩阵。基因的表达矢量定义为每个基因在表达空间的位置。用基因表达的观点看,每个实验在空间中表达一个隔离的和不同的轴,在该实验中的基因的测量值log2(比率)代表了几何坐标。

例如,如果我们有三个实验,对于一个给定的基因在实验1种的log2(比率)值是它的x坐标,在实验2中的值是y坐标,在实验3中的值是z轴,因此,我们能表示所有的信息,一个基因在x-y-z表达空间中用一个点表示。第2个基因,对于每个实验近似相同的值(log2(比率))将在表达空间中空间相近的点表示。不同表达模式的基因将于最初的基因离的较远。

对于更多的实验这种推广是直接的(尽管很难画出),表达空间的维度的增加与实验的数目相等。用这种方式,表达数据可以表示为n维表达空间,n是实验的数目,每个基因表达矢量表示为该空间内的单个点。

有了测量基因间距离的方法后,聚类算法根据在表达空间中的分离度选择基因和将基因分组。需要提及的是如果我们感兴趣聚类实验,我们将每个实验表示为一个实验矢量,包括每个基因的表达值。这里定义的实验空间,维度等于每个实验中分析的基因数目。同样的方法定义距离,我们能够应用任何的聚类方法来分析和分组实验。

为了解释多个实验分析的结果,直觉的可视化表示是很有帮助的。通常使用的方法依赖于表达矩阵的建立,矩阵的每一列表示单个实验,每一行表示特定基因的表达矢量。根据表达数据用不同的颜色表示矩阵元素建立多个实验的基因表达模式的可视化。表达矩阵有无数的方案来着色和表示。最常用的方法是根据每个实验的log2(比率)值,log2(比率)等于0用黑色,大于零的用红色表示,负数的用绿色表示。

对于矩阵中的每一个元素,相对亮度表示了相对表达水平,约亮的元素表示差异表达越大。对于任何特定的实验组,表达矩阵通常没有明显的模式或顺序。设计程序来聚类数据通常重组行、列或两者。当以这种方式可视表示可以看到明显的表达模式。

在聚类数据前,有两个问题需要考虑:

1、数据需要用某种调整方式来增强某一种关系

1、层次式聚类法(hierarchicalclusteringmethod)

这是多元统计分析中常用聚类方法,对于n个样本构成的n个矢量,看作是n个类,先计算所有两类之间的相似性关系,将相似关系最近的两类生成一个新类,继续以上过程,直到最后只有一个类为止。在这个过程中每次形成一个新类,类的数目间减少一个,最后形成一棵树,反映样本之间的相似关系。

在计算新类与其它类的相似关系时有不同的方法,有最小距离法、最大距离法、平均距离法、重心法、离差平方和法等。如最小距离法是将组成新类的两个类分别与第三个类相似关系最近的值为新类和第三个类之间的相似关系。该类方法可以直观的反映基因之间的关系,而且计算速度快,但使用不同的类间距离计算法会产生不同的聚类结果,而且对于一个样本被分类后,就不能再参与分类,因此它不能将所有的数据作为一个整体进行分析,是一个局部决策的方法。同时当样本集非常大时,树型结果非常复杂,树的剪枝和类的确定比较模糊。

最简单、结果可视。是用于分析基因表达数据用得最多的方法,它是一种合成分析的方法,单个基因被连接形成组,继续直到形成单棵层次树。对于基因表达数据,平均连接聚类给出可接受的结果。主要问题是随着类数目的增加,表达某一类的表达矢量也许不再表示类种的任何成员。此外,与最初的基因顺序有关。

2、自组织神经网络法(SOM,self-organizingmap)

自组织映射是Kohonen,T提出的类似大脑思维的一种人工神经网络方法,是一种竞争学习算法,可以被看作是一种将N维模式空间各点到输出空间少数点的映射。这一映射由系统本身完成,没有外部的监督,即聚类是以自组织的方式实现的。SOM采用无教师学习训练,训练完成后,分类信息存储在权值向量中,具有与权值向量相似的输入向量将分为一类。

3、模糊聚类法(FuzzyClusteringmethod)

模糊聚类是模拟人类的思维方法,通过隶属度函数来反映某一对象属于某一类的不确定程度[15],从而建立起样本对于类别的不确定性的描述,准确反映样本之间的关系。模糊聚类分析方法的基本原理是将模糊数学中的有关概念与方法引进聚类分析,通过建立模糊相似关系来生成模糊等价关系,进而产生不同的水平截集,得到对样本的动态聚类结果。

由于动态聚类图的建立,可以方便的获取有明显特征的类,并能看到类的扩展,清楚地反映了类之间的关系,这样就克服了k平均法和自组织神经网络法必须事先确定类数目的缺点;同时对于每个λ值,所有的基因都重新参与分类,所以模糊聚类分析方法具有全局性,这是层次聚类法所不具有的。

4、k-平均法

它先将样本分成若干类,然后计算每类的中心矢量(每类样本的平均值),对于所有的样本重新计算与各类中心矢量的距离,然后根据距离调整分类,得到新的聚类中心,再次重复该过程,直到能满足一定条件为止。它是层次聚类法的很好的替代,其分类结果与SOM的聚类结果接近。主要问题是在聚类开始时必须指定类的数目。

5、主元分析法PCA(alsocalledsingularvaluedecomposition)

主要思路是减少矢量的维数而不损失用于分类的信息。属于多元统计分析中一种常用的方法,它通过矩阵转换,有效的将对能对分类提供主要信息的参数提取出来,从而便于分析。

6、SVM(Supportvectormachine)方法

是机器学习的一种方法,它的最大的优点是用小样本可以将样本集分成若干类,但它需要一个学习的过程,通过学习确定核心机函数。

7、SAM(SignificanceAnalysisofMicroarrays)方法:

聚类分析虽然能发现一致的基因表达模式,但不能提供统计显著性的信息,用SAM方法来研究那一些基因会在用于癌症病人的致电离辐射疗法中产生副作用。这个问题是,每一次细微改变分析方法,得到不同的基因,使用一个非常低的辐射剂量,需要挑选出真正细小的变化。来自微阵列数据分析的最大的困难是确定哪一个结果是显著性的。SAM通过降低错误率和揭示哪一个基因被辐射影响解决了这个问题。

三、数据管理

DNA微阵列的应用,产生了大量的基因表达数据,现在有许多存储这些数据的数据库,通常与发表的论文结合起来,提供后来的研究者比较全面的信息。这些数据的共享、发布和再利用成为目前重要的研究内容。一些知名的研究机构如NCBI,EBI等正在试图建立新的标准,建立一些公共的知识库,如美国NCBI的GeneExpressionOmnibus(GEO),英国EBI的ArrayExpress,日本DNA数据银行开发的基因表达库CIBEX。目前有一些比较有名的基因表达数据库:

ArrayExpress:

GeneExpressionOmnibus

为了支持基因表达数据公共使用和分发,NCBI启动了GEO项目。GEO是一个基因表达和杂交阵列数据仓库,同时作为获取来自不同有机体的基因表达数据的在线资源。到2002年7月9日,数据仓库中包含内容:Platforms:99个(114M),

StanfordMicroarrayDatabase(SMD)

SMD存储微阵列实验的原始和归一化数据和对应的图像文件。另外,SMD提供数据获取、分析和可视化的界面。自从2002年1月1日,到6月3日,新增加789个新的阵列。达到总数2375个。45篇不同的论文。

ArrayDB

软件包,提供交互式用户界面挖掘和分析微阵列基因表达数据,所有的分析表达数据来自微阵列实验。

BodyMap

ChipDB

可以根据基因分类、菌株、样本和实验查询。

ExpressDB

是关系型数据库包含酵母和大肠杆菌RNA表达数据,2000年10月,包含20m条来自众多出版物和内部研究的信息。

GXD(thegeneexpressiondatabase)

老鼠的基因表达数据

HuGEIndex(HumanGeneExpressionIndex)

目的是提供全面的数据库来理解人类基因在正常组织中的表达,现有19个组织59个样本的数据库

YaleMicroarrayDatabase(YMD)

多个实验室和研究中心的合作项目,包括微阵列图像的归档和通过查询语句查找,伴随着成百上千不同研究者的数据分析。

目前有几个因素阻碍了微阵列数据的广泛使用:

1、这是一个年轻的领域,仅仅是在最近才意识到需要识别数据的重要方面,以获取更多的信息。

2、基因表达数据比序列数据要复杂的多,仅仅在有具体的关于实验条件的描述时才是有意义的。与有机体的基因组相比,由细胞类型乘以环境条件一样多的转录本。

3、比较基因表达数据是相当困难的,因为目前,微阵列并不是在任何客观的个体上测量基因表达水平。事实上,大多数测量报告的仅仅是基因表达的相对变化,使用一个罕见标准化的参考样本。

4、不同的微阵列平台和实验设计以不同的格式和单位产生数据,用不同的方式归一化,所有这些使的这些数据的比较和集成是一种错误倾向的练习。

有许多实验室建立了自己的数据库,微阵列数据和论文用不同的格式在作者的网页站点上发布,目前大多数公共数据没有用足够的材料进行注释,供不同的独立小组使用。事实上,通常不进行注释。关于数据质量、可靠性和特定数据点可能的错误水平的所有细节被完全剥离了。例如,对于两通道的微阵列数据,通常仅仅给出信号去除背景后的比例,没有提示关于信号和背景水平的绝对信息,但是这些信息对于评价每一个基因表达的可靠性是很重要的。

有必要建立公共的微阵列数据仓库得到了公认。它的功能包括提供支撑基于微阵列实验的论文的数据的访问。这样的数据仓库在建设中,例如NCBI的GEO,日本的DNA数据库,和EBI开发的ArrayExpress,然而,那些必需的信息应该存在这些数据库中是不清晰的,存储原始的微阵列扫描图像,或每一个阵列元素最终的值(如两通道平台的每一个点的绿/红比率)是足够的吗或者一些中间的数据,例如来自特定图像分析软件包的完整的输出与原始数据发布或归一化的数据实验中的那些信息是必须的微阵列元素必须被注释使实验结果更容易被理解。

数据库中存储的信息必须有特定数据库或仓库的功能决定。如果仅仅是发表论文的数据支撑,对于实验的一些细节已经在论文中说明。建立论文与数据库的访问接口就行。这样的系统不大可能是有效的和可扩展的,更重要的是非标准化数据库的价值和使用是非常受限制的。例如,使用这些数据库对于高通量的自动化的数据分析和挖掘是非常困难的。过去几十年序列数据库的经历证明了在数据产生的早期阶段应用的结构和一致的注释的策略是很重要的。

1、关于实验的信息应该足够解释该实验,必须有足够详细的说明来与相类似的实验进行比较,允许实验的重复。

2、信息必须以某种方式结构化,保证有效的查询和自动化的数据分析和挖掘。

目前在基于微阵列的基因表达数据管理的主要成果是MIAME和MAGE-ML。

MIAME(theminimuminformationaboutamicroarrayexperiment):

由微阵列注释工作组开发。目的是描述对于明白解释微阵列数据所必需的最少的信息,随后可以独立的验证这些数据。MIAME不是微阵列实验必须遵循的教条,而是一组指导方针,它将帮助微阵列数据库和数据分析工具的开发。MIAME中包含的信息如图2所示。

图2MIAME的结构表示

MAGE-ML:

微阵列基因表达标记语言是一种语言,用来描述和基于实验的微阵列信息的通讯,它基于XML,可以描述微阵列设计、微阵列制造信息,微阵列实验组织和实施信息,基因表达数据和数据表达结果。MAGE-ML直接自动来自MAGE-OM,后者是使用UML开发和描述——描述对象模型的标准语言。首先使用图形化表示法描述不同实体间的相互关系,比DTD更容易。然后,UML图表主要是针对人的,而DTD是面向计算机的。因此MAGE-OM可以认为是初级模型。

这两个标准已被许多大的基因芯片研究和制造机构采用,可以预言它们很可能将成为一种该领域的一个标准。

小结与展望

随着DNA微阵列技术的完善和在生命科学研究中的广泛应用,产生了大量的基因表达数据,这些数据中蕴含着大量的信息,如基因调控规律的信息,不同条件下表达差异的信息等等,利用这些信息可以进行基因启动子区域顺式调控元件的研究、基因表达调节途径或网络的研究、疾病或药物作用特异表达谱的研究等等。数据的增多直接带来的两个问题是数据的管理和知识发现。

数据的管理主要通过建立数据库的方式,目前已由较大的数据库服务器,这些数据间的共享和再利用迫切需要建立某种标准,从而提高利用效率,MIAME和MAGE-ML在这方面作了有益的尝试,有望成为一种规范。知识发现是从海量的数据中获取有生物学意义的信息,并形成新的生物学知识。在这方面的研究还处于初始阶段,最常采用的是统计学方法,如聚类分析、SAM等,但发展速度很快,目前已有大量的研究论文和分析软件。

THE END
1.www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c5知识库 知识分类:|知识来源: |发布日期:https://www.stats.gov.cn/zsk/snapshoot?reference=33e2b9cdb6391521c53328be6244e40b_E0674EF1D588ECF83FBFA8A59D967D14
2.机器学习数据预处理—统计分析方法条件概率权重信度系数核心原理是增加样本数较少类别中的部分样例达到类别平衡。过采样法因增加样例而增大了时间开销,但要注意防止过拟合。过采样法的代表性算法是SMOTE。 3 连续值离散化 连续属性离散化(Discretization of Continuous Attributes)是指将连续数据分段为一系列离散化区间,每个区间对应一个属性值。连续属性离散化的主要原因: https://blog.csdn.net/mnwl12_0/article/details/137429779
3.常用的数据分析方法常见问题常用的数据分析方法有:1、对比分析法;2、分组分析法;3、结构分析法;4、留存分析法;5、交叉分析法;6、漏斗分析法;7、矩阵分析法;8、象限分析法;9、趋势分析法;10、指标分析法;11、综合评价分析法。其中“对比分析法”是对数据进行比较以分析数据间的差异,包括静态比较和动态比较。 1、对比分析法 即比较分析https://m.php.cn/faq/572257.html
4.大数据分析五步法数据分析五步法是啥大数据分析五步法 数据分析五步法是啥 数据驱动的时代,无论你的工作内容是什么,掌握一定的数据分析能力,可以帮助你更好的认识这个世界,更好的提升工作效率。 数据分析流程主要分为五个关键环节:明确数据分析目的、明确数据源及数据口径、数据处理、数据分析、输出。https://blog.51cto.com/u_16213595/7028099
5.数据分析的三大方法是什么指数平滑法是一种用于预测未来数据趋势的方法。通过指数平滑法可以了解数据的趋势和波动,进而作出相应的决策。例如,企业可以通过指数平滑法预测产品销售量在未来一段时间内的趋势和波动,进而制定相应的生产计划和销售策略。 3.回归分析 回归分析是一种用于预测未来数据和因素之间关系的方法。通过回归分析可以了解数据和因素https://www.linkflowtech.com/news/2717
6.数据分析的八种方法数据分析的八种方法1.指标对比分析法 指标对比分析法,又称比较分析法——是统计分析中最常用的方法。是通过有关的指标对比来反映事物数量上差异和变化的方法。有比较才能鉴别,单独看一些指标,只能说明总体的某些数量特征,得不出什么结论性的认识; https://www.cda.cn/view/14770.html
7.《谁说菜鸟不会数据分析(入门篇)》,读书笔记萱草yy1定义:数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。 2目的:把隐藏在一大批看似杂乱无章的数据背后的信息集中和提炼出来,总结出所研究对象的内在规律。 3分类:数据分析可划分为描述性数据分析,探索性数据分析和验证性数据分析。描述性分析是日常工作中主要的数据分析,有对比分析法、平https://www.cnblogs.com/xuancaoyy/p/5816757.html
8.「数据分析」十六种常用的数据分析方法分享三、逻辑回归分析法。 「数据分析」十六种常用的数据分析方法分享,该模型要求变量为连续的正态分布变量,且自变量与变量呈线性关系,而逻辑回归模型对变量的分布没有要求,通常用于变量的离散。 类别: 逻辑回归模型有条件和非条件两种,条件Logistic回归模型与非条件Logistic回归模型的区别在于参数报价是否使用了条件概率,其它https://www.dtstack.com/news/7370
9.学会看数据流,向高级诊断师进发3、因果分析法 指对相互之间有因果关系(或有联系)的数据间响应情况和响应速度进行对比判断。如压缩机的工作,并不是直接由AC开关直接控制,而是ECU对多种信号进行评判后再确定是否让压缩机进行工作。 4、关联分析法 指对彼此有关联的数据进行分析,对比后来查看故障是否存在。如电子油门踏板的位置信号与节气门位置传感器https://www.yoojia.com/ask/17-12215014079437050870.html
10.数据分析的概念与方法(3)数据处理 数据处理是指对收集到的数据进行加工、整理,以便开展数据分析,它是数据分析前必不可少的阶段。这个过程是数据分析整个过程中时间占比最大的,也在一定程度上取决于数据仓库的搭建和数据质量的保证。 数据处理主要工作包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法,利用这些方法将各种原始https://www.jianshu.com/p/d236c74f6e62