数据清洗工具OpenRefine简明入门

数据一多,就有可能出现名目不统一、残缺或者冗余等问题,数据量越大错误可能越多。如何才能使杂乱无章的数据变得清晰有致?免费开源的数据清洗工具OpenRefine是你的好帮手。它不但可以清洗数据、转换格式,借助网络服务和外部数据帮你扩展,而且还能链接数据库。

何为OpenRefine

OpenRefine(原来是GoogleRefine,2012年10月2日后改名)是一款数据清洗软件,帮你在使用数据之前挖掘、清洗数据。它以你的网页浏览器作为界面,这就意味着它看上去是在网上运行,但所有数据其实保存在你电脑里。

OpenRefine免费开源,可供所有人使用。现在可下载GoogleRefine2.5和OpenRefine2.6beta版本。

1归类在该部分中,你会学到如何使用OpenRefine的归类功能来清理国家名。我们的测试数据是一个来自不同国家的大学名称单,大学名称信息是从维基百科抓取来的。

1.首先我们得载入数据文件

打开OpenRefine,点击屏幕左侧的“新建项目”(CreateProject)

先点击“这台电脑”(ThisComputer),然后点击“选择文件”(ChooseFiles)。在你的数据文件中选择UniversityData.csv。你就会看到数据。

该文件中有些中文文字(列的名字)。如果中文显示不对,你也许需要告诉OpenRefine使用正确的字符集。要做到这一点,点击“字符编码”(Characterencoding)旁边的空白空间,从中选择UTF-8。

然后点击右边的“新建项目”(CreateProject)键。

2.你可以看到country(“国家”)这一列中,国家名字不统一。例如,美国即叫UnitedStates,也叫USA。我们要通过创立一个文字归类,让OpenRefine给我们看country一列中所有的值。摁下country旁边的小下箭头,选择归类Facet->文本归类TextFacet。

片刻后,该归类中所有国家的值就会在屏幕左侧显示出来。

你可以看到美国有多个不同叫法,还有一些错误的名字,比如有一行美国叫UnitedStates),还有一个捏造的国家叫Utopia(乌托邦)!每个不同的国家名叫一个归类,OpenRefine给你显示了每一个归类里有多少行数据。

点击任何归类名字,你会只看到那个归类里的行。在我们这个例子里,你只会看到那些国家列里数据和你点击的名字相符的行。

3.你只要点击任何一个归类名,就能对其进行编辑。现在我们来把美国所有不同的叫法都变成UnitedStates。你鼠标指向US这一归类时,一个“编辑(edit)”选项就会出现。点击编辑edit。

请打入UnitedStates,然后点击应用Apply。

现在所有是US的2609行都变成了UnitedStates。对每一个别的叫法都同样进行编辑,直到美国所有的叫法都变成UnitedStates。你做完后,你的归类应该如下:

2清理数字

我们现在来清理有关学生数目的数据。这些数据里,有的值不是数字,很多值里除了学生数目的数字外,还包含有文字片段。要找出那些条目需要清理,我们需要使用数值归类Numericfacet:

如果你看不到数字Numericfacet的选项,你可能首先需要将学生数那一列转换成数字。你可以通过选择编辑单元格Editcells->常用转换Commontransforms->数字化Tonumber

这儿显示的是值的直方图,并列出每种类型numeric(数值型),non-numeric(非数值),blank(空白)或者error(错误))条目的数目。你一定要只选择非数字型的行,这可以通过把numeric,blank和error排除掉来实现。

我们已经可以看出有问题了,因为有的格里包含有+和~符号。要解决这个问题,我们需要做编辑单元格Editcells->转换Transform

这使得我们可以打入替换字符序列的命令:

每格里的现值总是由value(“值”)这个名称代表的。replace(“替换”)这个命令做的是让系统针对value进行文字搜索和替换运作,把+换成什么都没有(两个引号里什么都没有)。

做这个命令时,你其实是在用一点编程语言。系统还有很多高级功能(本教学材料中没包括),如果你想在此方面获得更多知识,可以参考GoogleRefineExpressionLanguage(GREL)reference

如果你发现有多个东西需要被替换,没有必要通过不断点击编辑单元格Editcells->转换Transform来逐个替换。相反,你可以将这些命令连在一起,同时来解决多个问题,不管你有多少问题都行:

value.replace(“~”,“”).replace(“,”,””)

为了更新对非数字型值的选择,有时候有必要将各列的值转变为数字(编辑单元格Editcells->常用转换Commontransforms->数字化Tonumber)。你做完这一步以后,应该看到非数字型值少了。

文件名是Weiboairpollutiondata.txt。你可以以跟以前同样的方式载入。文件是这样:

如果想学习更多功能?

深度君还推荐:

Git-HubOpenRefine

数据学院-CleaningdatawithRefine

BigDataUniversity的线上课程

RefinePro提供的OpenRefine使用建议/方法合集

FreeYourMetadata的教学指南

原文:《中国数据新闻工作坊培训手册》第四章–实操:使用OpenRefine清理数据

深度网编辑/周炜乐

戳“阅读原文”,即可查看深度君总结的“数据新闻收集和处理工具一览”哦

THE END
1.干净的数据:数据清洗入门与实践(豆瓣)第1章 为什么需要清洗数据 1 1.1 新视角 1 1.2 数据科学过程 2 1.3 传达数据清洗工作的内容 3 1.4 数据清洗环境 4 1.5 入门示例 5 ··· (更多) "干净的数据:数据清洗入门与实践"试读· ··· 大数据、数据挖掘、机器学习和可视化,近来计算界的几件大事好像总也绕不开数据这个主角。从统计学家到软件开发https://book.douban.com/subject/26781011/
2.数据清洗入门与实践pdf下载数据清洗入门与实践高清干净的数据 数据清洗入门与实践是一本数据清洗指导学习书籍,由美国的Megan Squie编著,本书从文件格式、数据类型、字符编码等基本概念讲起,通过真实的示例,探讨如何提取和清洗关系型数据库、网页文件和PDF文档中的数据。 最后提供了两个真实的项目,让读者将所有数据清洗技术付诸实践,完成整个数据科学过程,适合任何一个对https://www.ddooo.com/softdown/100992.htm
3.《干净的数据数据清洗入门与实践》([美]斯夸尔(MeganSquire当当网图书频道在线销售正版《干净的数据 数据清洗入门与实践》,作者:[美] 斯夸尔(Megan Squire),出版社:人民邮电出版社。最新《干净的数据 数据清洗入门与实践》简介、书评、试读、价格、图片等相关信息,尽在DangDang.com,网购《干净的数据 数据清洗入门与实践》,http://product.dangdang.com/23959039.html
4.干净的数据:数据清洗入门与实践数据清洗基础与实践 作者:谢东亮 ISBN:9787560654607 出版社:西安电子科技大学出版社 出版年:2019 Python 数据清洗 作者:沃克尔 ISBN:9787302609360 出版社:清华大学出版社 出版年:2022 Python数据清洗 作者:沃克尔 ISBN:9787302609360 出版社:清华大学出版社 https://www.las.ac.cn/front/book/detail?id=5400f772c88948629455c6c78921ce50
5.干净的数据:数据清洗入门与实践.pdf文章浏览阅读782次。干净的数据:数据清洗入门与实践.pdf下载链接转载于:https://blog.51cto.com/4456998/2361970_数据清洗的教程pdfhttps://blog.csdn.net/weixin_34319374/article/details/92172504
6.干净的数据:数据清洗入门与实践PDF下载内容简介 本书主要内容包括:数据清洗在数据科学领域中的重要作用,文件格式、数据类型、字符编码的基本概念,组织和处理数据的电子表格与文本编辑器,各种格式数据的转换方法,解析和清洗网页上的HTML 文件的三种策略,提取和清洗PDF 文件中数据的方法,检测和清除RDBMS https://cmsblogs.cn/3273.html
7.干净的数据:数据清洗入门与实践中文pdf扫描版[39MB]电子书下载☉ 如果遇到什么问题,请评论留言,我们定会解决问题,谢谢大家支持! ☉ 本站提供的一些商业软件是供学习研究之用,如用于商业用途,请购买正版。 ☉ 本站提供的干净的数据:数据清洗入门与实践 中文pdf扫描版[39MB]资源来源互联网,版权归该下载资源的合法拥有者所有。https://www.jb51.net/books/567054.html
8.干净的数据数据清洗入门与实践.pdf下载文件名: 干净的数据 数据清洗入门与实践.pdf 附件大小: 38.78 MB 举报本内容 下载通道游客无法下载, 注册 登录 熟悉论坛请点击新手指南 下载说明 1.下载一个附件只会扣除您一次免流量下载次数或通用积分。 2.论坛支持迅雷和网际快车等p2p多线程软件下载,请在上面选择下载通道单击右健下载即可(不会算多次下载次数https://bbs.pinggu.org/a-2410496.html
9.数据分析从入门到进阶的必看书单!文末附16本书的PDF下载2、《干净的数据:数据清洗入门与实践》 推荐指数:★★★☆☆ 由数据清洗开始窥窃数据分析,介绍了很多有意思的东西,轻松读物,适合没有编程基础的同学阅读学习! 豆瓣评分:评分:6.2分 优点:算是还可以的爬虫入门书籍,有技术讲解,最后也有案例说明; 缺点:内容过于杂乱,而且对于已经有编程基础的人来说非常简单,没有看https://www.shangyexinzhi.com/article/5048539.html
10.QLExpress资料入门指南:从基础到实践QLExpress 是一款高效的数据处理工具,专为专业数据分析师和数据科学家设计,简化了资料探索、清洗、分析和可视化的流程,提供强大的性能、直观的语法和丰富的整合能力。通过本文,您将从安装环境、资料导入与预处理、查询与分析,以及数据可视化等多个关键环节深入了解QLExpress,包括示例代码演示。本文还提供了实践项目案例,帮https://www.imooc.com/article/347782
11.研究生学术训练营之信息素养系列回顾(2018Python进阶之数据爬取与清洗(海南医学院副教授 余本国) 内容提要:本节课开始以统计美剧《老友记》英语台词词频的案例,对上节课关于模块的应用进行了复习,随后老师以上海外国语贴吧和研究生讲座网站为例,为同学们展示了如何利用Python快速爬取网页上的文本及数据。 https://wmcj.shisu.edu.cn/1a/15/c990a137749/page.htm
12.科学网—系统:R语言贝叶斯网络模型R语言贝叶斯模型进阶R语言本教程包括回归及结构方程模型概述及数据探索;R和Rstudio简介及入门和作图基础;R语言数据清洗-tidyverse包;贝叶斯回归与混合效应模型;贝叶斯空间自相关、时间自相关及系统发育相关数据分析;贝叶斯非线性数据分析;贝叶斯结构方程模型及统计结果作图等。教程不仅适合R语言和生态环境数据统计分析初学者,也适合有高阶应用需求的研https://wap.sciencenet.cn/blog-3539141-1414917.html
13.Python数据分析实战,小费数据集应用本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行业收集的数据,其中total_bill为消费总金额、tip为小费金额、sex为顾客性别、smoker为顾客是否吸烟、day为消费的星期、time为聚餐的时间段、size为聚餐人数。 一、数据来源 本节选用的是Python的第三方库seaborn自带的数据集,该小费数据集为餐饮行https://www.51cto.com/article/623941.html
14.技术分析数据清洗后的深度分析与洞察:探索数据背后的故事上涨常态找变态卖空点,下跌常态找变态买补点。https://www.55188.com/thread-27847026-1-1.html
15.Spark大数据入门与实践本实训路径以任务为导向,较为全面地介绍了 Spark 大数据技术的相关知识。具体内容包括 Spark 概述;SparkRDD 编程;Spark 编程进阶;Spark SQL:结构化数据文件处理;Spark Streaming:实时计算框架:功能强大的算法库;项目案例:餐饮平台菜品智能推荐。通过练习和操作实践,帮助你巩固所学的内容。 https://www.educoder.net/paths/691
16.PQ入门手册(数据清洗手册powerquery).pdfPQ入门手册(数据清洗手册power query).pdf,PQ 入门手册 轻松入门 Excel 报表自动化利器——PowerQuery PQ in Excel By JaryYuan 目录 入门案例 5 获取文本文件 5 更改数据类型 6 将数据返回 Excel 8 连接数据类型 9 基本界面功能 11 Excel 文件的导入 11 从外部导入 11 从https://mip.book118.com/html/2023/0524/8112015120005071.shtm