工具|Orange3:机器学习入门神器澎湃号·湃客澎湃新闻

Orange3主要的功能特性有交互式数据可视化、可视化编程、数据科学教育和附加组件扩展功能,接下来就让我们一起来看看这些功能具体分别都能干些什么:

在交互式数据可视化方面,可以通过巧妙的数据可视化执行简单的数据分析。例如探索统计分布、箱线图和散点图,或者深入了解决策树、层次聚类、热图。有助于发现隐藏的数据模式,在数据分析程序背后提供直觉,其可视化小部件包括散点图、框图和直方图,以及特定于模型的可视化,如树图、剪影图和树可视化,仅举几例。许多其他可视化在附加组件中可用,包括网络可视化、文字云、地理地图等。

在可视化编程方面,由于在用户界面中用户可以专注于数据分析,而不是繁琐的编码,这使构建复杂的数据分析管道变得简单,这对于初学者和数据科学家来说,是一个很好的数据挖掘工具。那么你肯定会有疑惑,Orange3的可视化编程到底为什么这么简单呢?有3点可以说明:

第一,它是基于组件的数据挖掘。在Orange3中,数据分析是通过将组件堆叠到工作流程中来完成的。每个组件都称为小部件,嵌入了一些数据检索、预处理、可视化、建模或评估任务,在工作流程中组合不同的小部件,让你能够构建全面的数据分析模式。

第二,交互式的数据探索。在Orange3中的各组件之间可以相互通信,从读取数据并将其输出连接到另一个小部件(例如数据表)的文件小部件开始,就可以有一个正常运行的工作流程。在文件小部件中的任何更改,都会通过下游工作流程即时传播并触发所有下游小部件中的响应。如果小部件是打开的,便可以立即看到该数据的任何更改结果、方法参数或交互式可视化中的选择。

第三,便捷的工作流程设计界面。即使对于新手来说,Orange3也很容易使用,从文件小部件开始,Orange3将自动建议可以连接它的下一个小部件。例如,Orange3知道在设置了距离小部件后,你可能想要分层聚类。小部件中的所有其他默认值的设置方式也有助于进行简单的分析,即使对统计学、机器学习或一般的探索性数据挖掘了解。

在数据科学教育和方面,Orange3也是一个动手训练的完美工具。教师可以用清晰的程序设计以及对数据和模型进行视觉探索,学生可以受益于该工具的灵活性。例如,教师可以通过绘制数据,用每个新数据点让学生观察到线性回归如何适合这条线。

(二)下载与安装

官网下载最新版本Orange并安装(没有其他复杂操作,直接下一步即可,选择适合自己电脑系统的安装包,若想修改安装位置可自定义修改)。

在这里需要说明的是,Orange3自带最新或最近版本的Python环境,对于复杂的数据集,若Orange自带组件处理不便时,通常先将文件数据连接至,通过Python处理后再转换成Orange.Tabel()形式进行后续操作。

具体的使用Python进行处理的方法及代码可参考官方文档:

二、Orange3功能介绍及示例

(一)界面导航说明

在Orange3界面,有八大主要板块,分别为数据(Data)、可视化(Visualize)、模型(Model)、评估(Evaluate)、非监督(Unsupervised)、强化学习(Reinforcement)、深度学习(Deeplearning)、图像文本挖掘(ImageAnalytics)。下面列举几个Orange3主要功能的思维导图,可以让你对软件整体概况有所了解。

(二)数据整理清洗(Transform)

上一节我们讲了orange这个软件怎么导入数据,在展现数据之后,我们要对这数据进行整理,或者说对着数据进行清洗。

1.进行数据行过滤

2.双击SelectRows功能

3.点击添加自己设置的条件,即可进行简单的数据清洗

4.在上面三栏中设置数据的种类、条件、和数值即可完成简单的数据整理

(三)数据可视化(Visualize)

下一个讲我们再用经常用到的一个散点图数据可视化功能。在图中可以系统看到,数据中各类条件的分布范围。

1.表格数据

2.制成可视化散点图

3.功能总结

①此文件小部件设置为读取Iris数据集。双击图标以更改输入数据文件,并观察此工作流如何适用于其他一些数据集,如住房或自动mpg。

②双击“散点图”图标以可视化数据。然后通过从散点图中选择点来选择数据子集。

③数据表小部件显示在散点图中选择的数据子集。

④尝试将一些其他小部件连接到散点图的输出。比如,二个方框图小部件(工具箱,可视化窗格)。方框图将显示散点图中所选数据子集的分布。

(四)模型(Model)

分类树(Tree)是一种简单的算法,可通过类别纯度将数据拆分为节点。它是随机森林(RandomForest)的前身。

树(Tree)可以处理离散数据集和连续数据集,可以用于分类和回归任务。

1.散点图结果展示:

三、Orange3具体操作介绍

(一)加载数据(Excel)

1.认识数据

数据集(Datasets),即从在线存储库加载数据集。此小部件从服务器检索选定的数据集,并将其发送到输出。文件下载到本地即可使用,之后使用无需联网。每个数据集都提供了关于数据大小、实例数量、变量数量、目标和标签的描述和信息,如下图所示:

2.具体操作

(1)双击打开左边导航栏Data(数据)中的File文件小部件,如下图所示:

(2)点击浏览文档数据集,加载出现有的数据文件,如下图所示:

(3)选择列:设置属性类型和角色

方法一:双击数据表(DataTable)查看具体内容,即核查目标变量与元信息变量是否正确。通过表格,可见该软件正确地推断具有基因名称的列为元信息,该列在数据表中以浅棕色阴影显示。但是它没有正确推断出function(第一个非元属性列)是类别数据。要纠正此问题,可先点击文件(File)小部件,然后在列显示中调整属性角色,如下图2.5所示。双击功能行中的功能标签,然后改为目标,因为运行目标是推测基因功能,结果如下图所示:

方法二:将数据发送到选择列(SelectColumns)小部件:打开“选择列(SelectColumns)”将显示其属性分类。目的是将所有的连续属性成为数据特征,function作为目标变量,而gene被视为元属性。可通过在“选择列”中拖动属性名称来设置这些信息,如下图所示:

(4)头与属性类型信息:

lc:类属性。类是用来描述具有相同的属性和方法的对象的集合。例如“人”可以看作一个类,然后这个类可以定义出每个具体的对象。类具有的属性可以理解为“人”本身的一些特征,如名字、身高、体重等。

lm:元属性。元属性又名元数据(MetaData),是用于描述其他数据的数据,或者说是用于提供某些资源的有关信息的结构数据。元属性描述了数据定义、数据约束、数据关系等。

li:忽略属性。忽略实体类中的某个属性不返回给前端。

lw:实例权重和类型

lC:连续值。连续值是指可以取任意实数值的变量,例如人的身高、体重。

lD:离散值。离散值是指只能取有限或可数个数值的变量,即它们的取值只能是整数或某个离散集合中的元素,例如人的年龄、性别、婚姻状态等。

lS:字符串

结果如下图所示:

②使用“文件(File)”小部件来加载此数据集,将其呈现在“数据表(DataTable)”中,如下图所示:

3.保存数据

点击保存数据(SaveData)小部件,将输入通道中提供的数据集保存到具有指定名称的数据文件中。它可以将数据另存为制表符分隔或逗号分隔的文件。注意该软件不会自动保存,仅在设置了新文件名或用户按下”Save“按钮之后才保存数据,如下图所示。

(二)文本分析实例

实操数据的分析基于44篇格林童话,搭建链接所需工作流。

1.语料库Corpus:词云可视化展示高频词

(1)从本地读取.tab格式的格林童话文本文件,生成语料库Corpus。

(2)链接CorpusViewer组件浏览语料库。

(3)PreprocessText组件作分词等处理,后链接词袋Bagofwords用于获取词频统计的二维表格,作为挖掘算法应用的基础。

2.数据表DataTable:展示词袋Bagofwords

在PreprocessText的基础上,产生词袋Bagofwords,输出成DataTable展示。

3.文本处理ProcessText:对语料库的每篇文本作分词处理

4.分析实例一:一致性检查

这个例子分析单词的用法,检查它使用的语境是否一致。

(1)从词云中选中一个词,此处与“said”为例。

(2)链接词上下文Concordance组件,用于显示该词在语料库中出现的上下文。

(3)从B中选中的语料Corpus,可以通过CorpusViewer中查看整篇语料。

5.分析实例二:文本相似性分析

(1)计算各篇文档间的距离(可选择欧式、马氏等)。

(2)通过层次聚类分析文档的相似性。

(3)通过MDS图可视化展示相似性,相似的文档在图上的距离较近。

(三)图片预测

实操案例基于一个简单的mnist手写数字识别数据,搭建所需工作流。使用卷积神经网络学习器设置卷积神经网络结构,图片加载器加载训练和测试数据,图片加载器(1)加载想要预测的图片,模型训练与测试对模型训练并测试,其结果可以通过散点图进行观察,还可以在卷积神经网络预测进行预测。

1.卷积神经网络学习器(CNNLearner)

使用默认参数,点击“观察并输出模型”按钮,得到右侧主界面出现模型结构和参数。

2.图片加载器(ImageLoader)

开始模型训练,选择需要训练,载入mnist数据集。训练时长约为1min左右。

3.模型训练与测试(train&test)

打开“模型训练与测试”,使用默认设置,开始训练。测试数据集的准确率约为98.87%。

4.卷积神经网络预测(CNNPredict)

链接神经网络预测CNNPredict组件,得出预测结果。

(四)Visualize数据可视化

从左工具栏中可知orange3只有19种图表

1.导入数据

左工具栏Data取File拖移于空白处,双击入定接口,橙色方框内取用数。

2.设置属性类型和作用

3.选取subset

从左侧工具栏Data中提取DataTable拖移至空白处,连接File使得数据得以传送。双击即可进入设定界面,提取要分析的数据作为subset,如下图所示:

(五)ScatterPlot散点图

1.连接

2.设定接口

橙色方框内可调整X&Y轴的项目,黄色框则是调整点的颜色、形状、大小等。

3.选取Data

值得探索的数据不只有在DataTable可提取,也能从ScatterPlot中提取并显示在后面连接的DataTable(1)上。

(六)其他

1.调整颜色

2.下方列表

①调色盘:由左至右第五个,用于调整图表的字体

②12/150:从150个点之中有12个点被提取,点进去能分别看见提取及非提取的详细列表

四、小结

虽然与其他数据分析平台或工具相比,Orange3在专业性方面并不具有优势,但作为一款免费获取和开放使用的工具,Orange3灵活、友好的使用方式,较低的使用门槛,使其具有在多个领城快速普及的潜力。代码门槛给社会科学类研究者挖掘分析数据带来了一定的阻碍,使其无法在研究时享受大数据的红利,而Orange3有望成为这些非计算机专业、少代码基础或无代码基础的研究人员从事科研工作的必备工具。

THE END
1.数据处理和分析之数据预处理:数据清洗项目案例分析与实践数据清洗,也称为数据清理,是数据预处理过程中的关键步骤,旨在识别和纠正数据集中的错误、不一致和遗漏。这一过程对于确保数据分析的准确性和可靠性至关重要。数据清洗涉及多种技术和算法,用于检测和处理数据中的质量问题,包括但不限于缺失值、异常值、重复记录和格式不一致等问题。 https://blog.csdn.net/2401_87715305/article/details/142836939
2.数据清洗的概念及实战案例(配图)!!!51CTO博客# 数据分析的过程和别的过程没什么区别 只要明确思路 其他都不难 拿做菜举例 # 类比定义 数据分析过程 做菜过程 明确需求 明确做什么菜品 收集采集 去菜市场买菜 数据清洗 洗菜切菜配菜 数据分析 炒菜 数据报告 + 数据可视化 拍照发朋友圈吃 # 专业定义 https://blog.51cto.com/u_15127637/4278148
3.数据清洗案例分析袋鼠社区数据清洗案例分析 - 在大数据时代,数据已经成为企业的重要资产。然而,原始数据往往存在许多问题,如缺失值、异常值、重复值等,这些问题会影响数据分析的准确性和可靠性。因此,数据清洗成为了数据处理过程中不可或缺的一步。本文将通过一个实际的数据清洗案例,详细介绍https://www.dtstack.com/bbs/article/12691
4.国外客商数据清洗示例不完整的数据会污染数据库,降低其业务质量。 数据清洗,通常也称为数据清理,实际上不是对数据库的单个活动,而是涉及多种技术使用的整个过程。他们的目标是:拥有一个干净、可靠、一致和完整的数据库。干净的数据无非就是高质量的数据,我们可以信任的数据,并可以根据这些数据做出正确的决策。在商业领域,据估计每年有25https://36kr.com/p/2707385155614849
5.数据清洗? 清理数据 3 例子 数据清洗 编辑 数据清理,包括用于删除和更正数据库或其他信息系统中数据错误的各种方法。 例如,错误可能包括不正确的(最初是错误的或过时的)、冗余的、不一致的或格式错误的数据。 数据清洗的基本步骤是重复检测(相同数据集的检测和合并)和数据融合(合并和补全不完整的数据)。 数据清洗是对提https://vibaike.com/347397/
6.数据仓库中的数据清洗(精选十篇)运用数据仓库技术对各类水利业务系统中产生的海量信息进行综合分析处理,实现宏观统计数据与详细业务数据之间的联系。通过数据仓库逻辑模型的设计与实现,从综合数据库或外部系统中抽取数据进行数据清洗、转换,并装载到数据仓库中等过程,方便快速地为水利系统各行业提供统计分析信息,并可对信息进行多维统计分析,通过OLAP和数据挖https://www.360wenmi.com/f/cnkeykil00hn.html
7.如何进行数据清洗和预处理?如何进行数据清洗和预处理? 收藏 在数据分析和机器学习任务中,数据清洗和预处理是非常重要的步骤。这些过程可以帮助我们从原始数据中提取有价值的信息,并减少由于数据质量问题导致的误差和偏差。 本文将介绍数据清洗和预处理的基本步骤和技术,并提供一些实践建议和例子。https://www.cda.cn/bigdata/202679.html
8.数据清洗HRTechChina.com如何清洗人力资源分析数据?给你6个详细的步骤指南!数据清理是人力资源分析中的关键因素。在你分析数据之前,你需要对数据进行 "清洁"。在这篇数据清理指南中,我们将解释为什么数据清理很重要,以及你如何进行数据清理。在文章的底部,我们附上了一个有用的数据清洗信息图。 在数据分析中常说的一句话是。"垃圾进,垃圾https://www.hrtechchina.com/tag/%E6%95%B0%E6%8D%AE%E6%B8%85%E6%B4%97/
9.机器学习数据清洗之识别异常点数据是现代社会中的一种宝贵资源,但在利用数据之前,我们需要进行数据清洗以确保数据的质量和准确性。 异常值是数据中常见的问题之一,它们可能会对分析和建模产生负面影响,因此识别和处理异常值是数据清洗过程中的重要步骤之一。 本文将介绍异常值的概念、危害以及与缺失值的比较,并探讨了多种识别异常值的方法,包括基于https://www.jianshu.com/p/6676be6cdae4
10.SPSS分析实战数据清洗数据-标识异常个案模块来操作,这部分是通过算法来查找异常值,只能作为参考,而不能作为唯一标准。比如我们举的这个例子,这几个样本都不算异常。 算法基本原理 聚类:将所有个案分为若干类 评分:对每一个个案在其所属类别的异常度进行评分,并计算相应的异常Index 报告:对每一个异常个案,列出导致异常的具体变量的情况https://www.medsci.cn/article/show_article.do?id=83631855e8d6
11.手把手教你搞定4类数据清洗操作腾讯云开发者社区3)以其他变量的计算结果填充缺失值。举个最简单的例子:年龄字段缺失,但是有屏蔽后六位的身份证号信息,那么就可以轻松找出出生年月,算出目前年龄。 4)以业务知识或经验推测填充缺失值。 4. 重新取数 如果某些变量非常重要同时缺失率高,那就需要和取数人员或业务人员进行沟通,了解是否有其他渠道可以取到相关数据。https://cloud.tencent.com/developer/article/1955170
12.大厂的调查问卷如何设计样本填答调查者被访者无意义的分类不但不能帮助完成调研目标,还会增加后期分析数据的任务量。 举个例子:性别在以消费为核心的产品中会有明显的区别,男性和女性就是两个相异的群体,应该进行分群,但是在某些工具类的APP中,或许就没那么必要了。 3. 了解行业情况 阅读相关的行业研究报告或做竞品分析研究,通过吸取现有的经验和教训,可以提https://www.163.com/dy/article/H73PNDPF0511805E.html
13.如何用Excel实现多重条件匹配与分段计价2、生成的Excel不能直接使用,需要数据清洗。大概就是: a、去掉样式,去掉空白行列。 b、替换无法识别的字符,数据转为纯数字。 c、从文本中识别数据,比如要将9行和11行的包裹类型、长、宽、高提取出来,转化为我们需要的标准化数据表格式,这种格式能够被函数识别并匹配包裹类型和报价。 https://www.douban.com/note/815266757/
14.研究生学术训练营之信息素养系列回顾(2018Python进阶之数据爬取与清洗(海南医学院副教授 余本国) 内容提要:本节课开始以统计美剧《老友记》英语台词词频的案例,对上节课关于模块的应用进行了复习,随后老师以上海外国语贴吧和研究生讲座网站为例,为同学们展示了如何利用Python快速爬取网页上的文本及数据。 https://wmcj.shisu.edu.cn/1a/15/c990a137749/page.htm
15.深入浅出数据科学很多人是某一个(或者两个)领域的专家,但合理地使用数据科学需要同时精通以上3个领域。我们将深入讨论这3个领域并解决复杂的问题。我们将清洗、探索和分析数据,得出科学、准确的结论。我们还将利用机器学习和深度学习技术解决更加复杂的数据问题。 本书涵盖的内容 第1章:如何听起来像数据科学家。本章将介绍数据科学https://labs.epubit.com/bookDetails?id=N8339