近年,随着信息技术和信息产业的飞速发展,不仅数据量得到了爆发性的增长,数据处理技术的得到的突飞猛进的发展,我们终于有了从海量数据中发掘信息,并将其转化为智慧的能力.数据开始了从量变到质变的转换过程,信息社会迎来了新的时代--也就是我们现在所说的大数据时代.
现在我们能利用的数据源不仅有来自企业的数据库,以及外部文件中规范好的结构化数据.
还有产生于社交网络,影音,数字相片,感知硬件,移动端设备等等这样的非结构数据.
为了挖掘出这些数据背后隐藏的价值,数据分析人员通过使用一些行之有效的数据分析方法,将数据进行整理,分析,并最终通过数据可视化手段,将这些数据以我们人类可以认知的图表,表格,或是文字描述的形式呈现出来.
这些数据分析方法根据数据分析人才市场的需求,大致可以分为3大类:
在后面还有会关于这三种方法的详细介绍.
成功的数据分析案例非常多,比如大家比较熟知的谷歌流感趋势预测,以及啤酒与尿布的故事,就是其中比较有代表性的成功案例.
数据分析是什么呢一句话概括就是连接数据与人类认知之间的桥梁.
下面的三角形将数据分为3层,自下而上,数据越来越少,但信息的价值越来越高.最下面的数据层的信息是零散的数据,这一层的数据是人类无法认知的.而最上面智慧层的信息是我们做决策时真正所需要的,可以理解及把控的信息.
数据分析将人类无法认知的数据,转化为我们需要的知识及智慧.
下面是数据分析师常用的一些分析工具.
在本次课程中将主要介绍Excel和SQL这两个工具的操作及使用方法.
Excel+SQL是业务数据分析中最重要也是最基础的分析工具.
SQL用来做数据的存储,收集整理以及调用,Excel用来做数据的加工以及结果的展现.
数据分析几乎涵盖了企业运营管理的所有方面.现在比较流行一个词--数据化驱动型业务.想要让企业取得市场的竞争优势,充分挖掘数据价值是必不可少的.无论将来你是否要决定成为一名数据分析师,即便是在某个业务岗位工作,具备一定的数据分析技能也是有必要的,在将来的企业工作中,不会数据分析就好比现在不会使用office一样,是难以想象的.
一个数据分析项目,一般是有多个不同角色的人,而不是一个人独立完成的.
一般参与到数据分析中角色人员有三类:
前面我们提到了数据分析方法,按照数据分析人才市场的需求,可以分为3大类.
业务数据分析
数据挖掘分析
大数据分析
在这三类分析方法中,业务数据分析需求量是最大的,应用场景也是最为广泛的.因为在有业务工作或者有业务数据的地方,就需要业务数据分析.
同时业务数据分析的门槛也是最低的,不需要具备专业的数理统计知识及编程技能就可以进行.
人才需求量:业务数据分析>数据挖掘分析>大数据分析
业务数据分析虽然需求大,但是因为门槛低,薪资情况也是最低的.通过下图我们可以知道,业务数据分析的薪资是最低的,数据挖掘的薪资是最高的.
薪资:数据挖掘分析>大数据分析>业务数据分析
在业务数据分析分析流程中,按顺序可以分为下面6个步骤.
我们的实战课程也是主要介绍在Excel平台上制作业务数据的BI分析报表为主.
接下来我们再来进一步了解一些商业智能分析的详细内容.下面的几个截图是本课程中将会涉及到的几个商业智能分析案例.
常与商业智能一同出现的词有一个叫做商业洞察,商业智能通过可视化交互式报表的形式,将阅读大量信息的主动权交到报表阅读者手中,报表阅读者根据自己的实际需要,通过页面操作,有选择性的从BI报表中,及时,准确,全面的得到自己需要的数据可视化信息.那么这个过程就叫做实现商业洞察.
商业智能是实现商业洞察的重要手段,商业洞察是深入商业现象发现问题本质的过程.
与传统的静态业务数据分析报告相比,BI数据分析报告具有交互式和可视化两大特点.
其中可视化指的是数据可视化图表,在BI报表中,大量的数据信息都是通过可视化图表的形式进行传递的,阅读者通过这些图表可以非常准确的直观的读懂数据背后发生的真实业务情况.
在业务数据分析中,主要有以下四类数据可视化分析方法:
这些方法在后面的内容中还会带着大家进行详细的展开.
BI报表中的另外一个特点是交互式,通过交互式操作,获取数据信息的主动权才能真正的从报表制作者的手中移交到报表阅读者的手中.
下图是静态数据报表和BI报表的比较图
静态报表中的信息是"死"的信息,因为没有任何交互式途径可以帮助报表阅读者根据自己的需要进行筛选.所以报表制作者提供什么信息,报表阅读者就只能被动的读到是什么信息.这时获取信息的主动权在报表制作者手中.
而BI报表中提供了不同字段的切片器,切片器是Excel中的一种交互式工具,所以阅读者可以根据需要进行选择操作.从而主动的得到自己真正需要的数据信息.这时获取信息的主动权才真正的落到报表阅读者的手中.
在复杂的业务环境下,一份静态报表是没有能力涵盖所有业务信息的,所有只有将这些信息封装在一个可交互式的报表中,才有可能全面及时的获取到它们.这就是BI报表中交互式真正的意义.
下面我们来看一份静态报表和BI报表的对比案例.

在上图的财务数据静态报表中,我们只能看到一大堆数字的罗列,如果不是资深财务分析人员,一般人是很难从这些财务数据中发现财务问题的.
同样的一份数据,只是因为呈现的方式不同,带给我们的价值也就截然不同.所以课程主要是教授如何制作具有高使用价值的BI报表为主.
了解一个工具,首先应该从了解工具的发展历程开始,Excel也不例外.下图就是Excel的发展历史.
如果说以前的Excel就是一个单纯的制表工具,那么我们可以将现在的Excel定义为综合的数据整理,加工,分析和展现的平台.
有两个Excel的版本是最为重要的,一个是Excel2007,在Excel2007之前,Excel的最大处理行数是六万多行,Excel2007后处理行数激增到一百多万行.还有就是Excel2007引入了选项卡的概念,而且沿用至今.之前只有菜单栏的操作.
Excel2013正式引入了PowerBI功能,有了PowerBI功能,Excel自身的数据处理能力得到了大幅的增强.Excel现在不仅仅可以处理本身的单元格类型的表格结构数据,还可以通过PowerBI来处理类似于数据库这样表结构的存储加工数据.
所以因为有了PowerBI,我们才真正可以把Excel称为一个综合的数据加工处理与展现平台.
我先把Excel的功能用到数据分析中来,那我们至少需要掌握以下的功能.
Excel的必备技巧:
关于VBA,它是Excel的编程程序(其实可以使用Python来进行替代)我们只要学会录制宏技巧,编辑简单的VBA程序即可.
PowerBI插件是微软为了强化自身Excel的商业智能分析功能,而开发的一套工具集.PowerBI有下图中的四款主要插件,这些插件均由微软免费提供下载.在Excel2016中,大部分的PowerBI已经预装在Excel中,可以直接激活使用.
这些BI工具大幅增强了Excel在数据处理,数据分析,及结果展现方面的能力,使Excel从一个传统的表格工具,华丽变身为集表格与BI功能于一身的综合数据分析,处理,及展现平台.
PowerMap和PowerView有自己的独立界面,而PowerQuery和PowerPivot是Excel内部界面.
如果想要在Excel平台上创建商业智能分析报表,我们需要将Excel自身功能,以及PowerBI插件功能结合起来使用才行.
Excel+PowerBI=ExcelBI
如上图制作BI报表的流程示意图,
跟着课程的推进,大家就可以理解Excel的全部实施过程了.


上面两图可以知道,在数据分析中,Excel是被提及最多的工具.Excel是数据分析中必不可少的工具.学号Excel是帮助我们进入数据分析领域的必备条件.
本节我们就来对PowerBI的四款工具一一进行概述性介绍.

本节我们就通过一个零售业的销售情况分析仪的创建案例,来实际体验一下使用Excel和MySQL创建商业智能分析报表的全过程.
课程使用的工具就是SQL+Excel,咱们的目的就是创建BI报表.
SQL+ExcelPowerBI我们可以轻松的解决商业智能分析的任务.
制作流程如下:
首先我们先来了解一下要完成的业务.我们来看一下将在ExcelPowerView上将要做的零售业销售情况分析仪,如下图所示.
RegionInfo.csv主要是记录了地区的区域信息,也就是这家零售企业的商品覆盖的国家地区信息表.
通过对上图左侧的数据进行整合分析,我们就能够制作出上图右侧基于PowerView的分析仪.
这里还会为大家介绍到ExcelPowerMap制作数据地图的方法,如下图.
这个数据地图展现的就是不同区域下销售情况的对比趋势.
还会介绍到用Excel表格界面来制作销售情况的一个分析方法,表格界面展示的内容和PowerView界面展示的内容几乎是一样的.
不同的是最右侧多个一个切片器,切片器也就是筛选器.对切片器进行字段的选择,可以更改左侧图表显示的信息.
上述介绍到的三个成果,就是接下手我们要完成的三个内容.
接下来学习使用MySQL对数据进行导入及整合的方法.
上图展示了数据库要加工的步骤,MySQL需要做的就是两个步骤:
数据库创建语句
注意:导入外部数据之前需要SETGLOBALlocal_infile=1;将local_infile变量设置为开启状态
至此,MySQL已经整合好了数据,然后就需要交给PowerQuery和PowerPivot进行数据的加工处理.
我们使用PowerQuery对在MySQL数据库中合并好的数据进行导入,并未导入的数据增加一个销售金额(销售金额=单价*订单数量)的计算字段.
那么PowerQuery在Excel的商业数据分析过程中,它发挥了极大的作用.
它的作用主要是:
下面是Excel中的操作步骤:
mysql-connector-net.msi这个是使用Excel导入MySQL数据时需要用到的,需要提前进行安装.这样才能使用Excel连接MySQL
我们启动一个空的Excel文件.
PowerQuery已经内置在Excel2016中了,所以它的名字也不叫PowerQuery了,已经成为Excel中的一个基本功能.在数据>获取和转换中.名字虽然变了,但是PowerQuery是从以前到现在一直叫下来的,所以我们还是接着沿用PowerQuery这种叫法.
导入成功后的数据如下图
PowerQuery是Excel的工具,那么接下来的操作就可以在Excel中进行了.
PowerQuery每导入一个表,在右侧的工作簿就会新增一个新的查询(这里的查询大家理解为表的意思就可以了).
PowerQuery的处理是要进入PowerQuery的查询编辑器中完成的,双击右侧中对应的查询(表)就可以进入PowerQuery的查询编辑器.
注意:PowerQuery是可以记录步骤的,如果想要取消步骤,那么只要在对应的应用步骤打个叉即可.但是PowerQuery只有"CtrlZ",却没有"CtrlY",这点是需要注意的.
PowerQuery是一个非常强大的数据处理加工平台.一个是可以导入多个不同数据源的数据,并对这些数据进行整合,第二个就是可以对这些数据进行加工处理.
选项卡中为我们提供了非常丰富的数据加工处理功能.
除此之外,PowerQuery还有自己一整套函数集,它的函数集叫M函数,M函数是一个非常庞大的函数集,函数数量有600多个,而Excel的基本函数才200多个,所以大家可想而知PowerQuery是一套多么强大的数据处理分析工具.PowerQuery强大到甚至可以去网页和网站上爬取数据,可以作为一个网络爬虫.因此,绝多大数的数据处理任务都是可以使用PowerQuery来完成的.
PowerQuery的M函数有三个输入入口.
第一个输入入口是表格数据上方的编辑栏
第二个在添加列>自定义列中
上面两种方式都是写单行比较简单的M函数.
除此之外还有第三个入口,在视图>高级编辑器
这里可以编写一段M函数的批量处理程序,复杂的逻辑就可以在高级编辑器中进行编写.
下面我们来演示一个简单的M函数使用方法,通过添加自定义列的方式来实现.
然后我们要把这个结果保存到Excel中,点击开始>关闭并上载
我们可以看到处理的结果就返回到了Excel的界面了.
可以把这个Excel保存起来,零售业销售数据分析仪.xlsx
介绍到这里咱们PowerQuery的处理任务就介绍完了,接下来来介绍PowerPivot中的数据处理任务.
PowerPivot是PowerBI中的另外一款工具,直译过来就是强大的数据透视表的意思.它是用来帮助Excel在数据透视表中不足用的.
我们主要在PowerPivot中做这么几件事:
我们在体验课中主要就是学习PowerPivot的两个功能,一个是创建层次结构,一个是创建汇总规则.
PowerPivot是数据透视表的设计器,所以PowerPivot里面设计的任何规则和创建的任何层次结构,都是要应用到Excel的数据透视表中使用的时候才能发挥作用.
这点大家要分开,也就是说,PowerPivot的设计场景和使用场景是分开的.
那我们接下来就进入到Excel中,为大家讲解PowerPivot的使用方法.
我们还是继续使用之前PowerQuery加工过的文件,在数据>数据工具>管理数据模型打开PowerPivot的界面
PowerPivot的所有功能都是在上图的编辑器内完成的.
PowerPivot的编辑器有两种显示方式,在主页>查看中可以选择编辑器的展示方式.

在关系图视图中,我们除了可以创建多表之间的关联,还可以创建层级结构.
首先创建区域的层次结构.
创建层次结构选中需要选中的字段,右键选择创建层次结构,然后给这个层次结构重命名,在调整顺序即可.
我们前面说过,PowerPivot是规则的设计器,而使用场景是放在数据透视表中才有用的,所以上图的层次结构只是创建的规则,还并没有使用它,如何使用我们后面在介绍.
接下来我们返回数据视图,来进行我们的第二部操作,创建子类别销售金额占比和子类别销售占比这样的汇总规则.这两个汇总规则我们需要写四个DS表达式才可以制作完成.
我们将上面的四个公式在PowerPivot编辑器数据视图下方的空白地方填上上面四个公式.
接下来我们看一下我们在PowerPivot中创建的内容是如何在数据透视表中使用的.点击主页>数据透视表打开数据透视表.在新工作表中创建数据透视表.
接下来我们来创建如下图的数据透视表,行标签是产品类别和产品子类别的的嵌套维度,汇总规则是子类别销售金额占比和子类别销量占比.

到此,我们对数据的整合和数据的加工过程就到此完成了.
最后就是通过PowerView,PowerMap,Excel表格界面创建可视化界面的方法.
首先我们先来了解PowerView界面的制作方法,我们通过PowerView制作下图的界面.
我们还是使用之前PowerQuery和PowerPivot加工好的数据文件,在这个文件中我们
点击PV>PowerView就可以打开PowerView的编辑界面.
PowerView是Excel中快速创建交互式界面的工具.
进入PowerView后会默认生成一个字段列表,那我们可以通过改变字段列表的可视化效果,就可以将它转化为不同的图表或者是"卡"之类的展示效果了.
上图默认给出的字段列表中字段,没有一个是我们需要的,所以我们可以先把它们全部删除.

接下来我们在PowerMap上制作一个双图层的数据地图,如下图所示.
地图上的柱状图是每一个区域下面销售金额的分布情况,而下面地图的渐变色来代表数值大小程度的图层,来反映每个区域下销量的占比情况.
那下面我们就在Excel中为大家演示操作步骤.
我们还是使用之前PowerQuery和PowerPivot处理好的数据文件,在插入>三维地图中可以打开PowerMap的编辑器.
PowerMap应用的微软Bing搜索引擎的地理位置,所以使用PowerMap一定要在联网的环境下,而且一定要能连接到Bing搜索引擎上.
接下来我们来创建图层1的柱形图,柱形图反应的是不同地区的销售金额的占比情况.首先我们要先为这个地图添加位置信息.
下面是添加图层1,用来表示区域销售金额的柱状图
PowerMap中可以添加多个图层,图层2添加地区的订单数量.
现在是有中国和日本两个国家,如果是只想查看中国的信息,可以使用筛选器进行筛选.
上面演示PowerMap的基本用法,其实PowerMap还是比较简单的.我们只要通过几次应用操作就可以掌握其基本用法.
下面来我们来介绍在Excel表格中创建分析仪界面的方法.
看下图,我们可以看到其实Excel创建的数据展示内容和PowerView中创建的数据展示内容是一样的.也是由一个数据透视表和两个数据透视图构成.
但是Excel比PowerView多了右侧的切片器,切片器其实就是一个筛选器.我们可以点击切片器上的不同按钮,对展示内容进行不同的筛选,观测.
我们还是使用之前PowerQuery和PowerPivot创建好的文件.
我们要创建的Excel分析仪的各个部件,都是通过PowerPivot编辑器生成的,所以我们要先进入PowerPivot的编辑器.

设置好值的汇总规则和格式后,可以点击主页>数据透视表创建新的数据透视表.
接下来我们创建两个数据透视图,注意,左侧是数据透视表,右侧的叫做数据透视图.
再接下来就是为这些数据透视图表添加切片器.切片器是这些数据透视图表的筛选器.对切片器进行不同选项的筛选,那图表就会跟着发生变化.
该如何创建切片器呢我们可以任选一个数据透视图表.
我们现在是关联数据透视表和两个数据透视图,选中三者的其中一个,然后点击插入>筛选器>切片器