本文使用pandas读取数据并且进行数据清洗和预处理。具体步骤如下:1.首先国家的ISO3166-1alpha-3代码对本文的分析没有多大用处,就过滤掉该字段。2.由于该数据是从1750年开始收集的,由于种种原因,总有一些国家的某些年数据是丢失的。因此,过滤掉某个国家某年数据全为空的行。3.该数据集中存在“global和InternationalTransport”。这两个字段表示全球和国际排放量。特别地,这两个数据不代表国家,因此过滤掉这两个数据。处理数据集的python代码和处理后的数据集展示如下:
由于读入的文件是csv文件,是结构化的数据,因此可以将数据创建为DataFrame方便进行分析。为了创建DataFrame,首先需要将HDFS上的数据加载成RDD,再将RDD转化为DataFrame。下面代码段完成从文件到RDD再到DataFrame的转化:
本小节使用python语言,使用了SparkCore、SparkSQL、SparkMLlib组件,分析结果也可以保存到csv文件中。
THE END