FineBI作为一款自助式数据分析产品,提供丰富强大的功能让企业数据分析者,通过高效自助分析,进行数据决策。
本文按照各个模块,对FineBI产品的特有概念进行解释说明,以便用户进行使用。
「数据集」是用户拿来做分析的表。
表(数据集)是数据分析的依据和基础,数据分析就是对表内数据进行分析。
「业务包」是一种数据管理概念,是存放表(数据集)的容器,可以理解为存放数据集的文件夹。
「业务包」是为了实现对表(数据集)管控而存在,因此,在「业务包」中只能放置表(数据集)。
「分组」是一种数据管理概念。通过添加不同的分组,将业务包按照需求分类存放,方便数据查找。
「分组」相当于「业务包」的上层文件夹,「分组」是为了实现对「业务包」管控而存在的文件夹。因此,在「分组」下只能添加「业务包」及下一级分组。
「字段」是「数据集」中的列,每个数据集都是由多个字段组成。
按照形式分类分为数值、文本和日期类型的三种字段,通过字段前的标志可以识别不同种类。
方便用户以数据的一列作为最小单位进行数据分析。
数据处理时,可以在自助数据集中添加指定字段(列);仪表板进行数据分析时,可以选择所需要的字段(列)进行分析。
「基础表」是未经过用户深度加工过的表(数据集)。
自助数据集是深度加工的表。因此,「基础表」代表「数据集」中的三类:数据库DB表、SQL数据集、Excel数据集。
基础表往往是管理员提供好的原始表(Excel数据集用户可以自己上传)。
无基础不分析,所有的分析向回追溯,都能找到一个基础表作为根基。所以可以理解为——基础表是分析的源头,是上层分析的基石,是分析枝繁叶茂之根本。
「我的自助数据集」相当于一个只属于用户自己的特殊分组。可以在其中创建新的业务包和分组,满足个性化、私人化的数据分析需求。
如果只是因为个人需求做数据分析,可以将这些表(Excel数据集及自助数据集)存放在「我的自助数据集」下进行查看和分析。管理员无法通过权限设置,查看并公开我的自助数据集里面的内容。
「我的自助数据集」中的表,是数据分析性质的自助数据集。
「自助数据集」是数据集中的深度数据加工过的表。
自助数据集是为了实现普通用户可以自己进行数据处理实现需求存在的表,而非统一由管理员代劳。
自助数据集可以实现对数据进行深入加工,深层次分析的效果。
一个做好的自助数据集,可以作为后续可视化分析的基础,也可以再被其他自助数据集继续调用。
「数据处理用户」在普通业务包(非「我的自助数据集分组」)下创建的自助数据集是「处理性质数据集」。
「处理性质数据集」主要是基于「基础表」创建的出来的表(自助数据集)。是可以处理大数据量的自助数据集,以及对其设置权限。
为了给其他人作为数据分析的基础。
「处理性质数据集」一般是用来给更广大的「数据分析用户」提供能够进行数据分析的表(自助数据集)。对于一些有深入分析需求的「数据分析用户」,可以基于「处理性质数据集」进行个性化的数据处理,再进行可视化分析。
「处理性质数据集」作为比「基础表」更复杂,比做可视化分析表简单的中间表。可以满足大部分数据分析用户的通用类需求。
「数据分析用户」创建的数据集是「分析性质数据集」;
另外,「数据处理用户」在「我的自助数据集」下创建的数据集也是「分析性质数据集」。
注:在「我的自助数据集」下创建的,不是给其他人分析的基础,因此都是数据分析性质的自助数据集。
「分析性质数据集」是为了实现更流畅的数据分析体验而存在,但是不能对其分配行列权限,且能处理的数据量相对比较小。
在组件制作中,字段按分析数据的角度分类,分为「维度」和「指标」字段。从不同的「维度」去分析「指标」,用「指标」对分析的「维度」进行量化,从而得出数据分析结果。
文本和日期类型字段默认为「维度」字段,数值类型默认为「指标」字段。
字段是数据集中的列,具体可参见「第2节」下字段的定义。
在可视化组件中数据集中的字段,通常被划分为「维度」和「指标」两类。
可视化组件制作就是将数据集中的字段拖入分析区域进行分析。因此,字段是实现可视化分析的基础。
维度指我们分析数据的角度。
示例
维度字段
维度
分析不同月份/年份的销售额变化
月份/年份(日期类型)
分析不同省/市的销量占比
省/市(文本类型)
地区
维度字段包含:日期类型字段、文本类型字段、指标名称(制作可视化组件时自动产生的字段)
从不同的维度去分析数据,可以让我们对数据有更全面的认识和了解,也能让我们更好的制定计划和决策。
「指标」是对维度的量化,维度讲究的是从不同的角度出发去分析数据,而指标就是不同维度分析出来的结果,这个结果可以是数值,也可以是比值。
指标
销售额
不同省/市的销量占比
销量占比
指标字段包含:数值类型字段、计算指标字段(是在仪表板中添加计算指标获得的字段)、记录数(制作可视化组件自动产生的字段)
通过指标的量化,可以让我们精准的看到业务产出,从而更好的衡量目标达成的结果。
聚合是若干行按照一定的标准变成一行,汇总到更高类别的行级别数据。
直连就是直接连接数据库取数据,使用的是直连引擎。直连不能支持多个不同数据源相互关联,一旦关联就需要进入spider引擎,即本地模式。
1)避免数据资源冗余:目前很多企业有较为专业的大数据平台,通过直连引擎取数,可以在保障数据分析性能的同时避免数据资源冗余。
2)满足实时数据需求:直连引擎实时取数,最高实现毫秒级数据刷新,满足用户对数据实时性的要求。
本地模式的数据需要抽取并存储到FineBI的Spider引擎中,使用的是Spider引擎。后续的分析需是从引擎来提取离线数据进行。
1)节约成本:使用本地数仓支持跨库取数,多表合并等功能,节约企业的数据仓库成本。
2)提升性能:抽取数据的计算性能较快,能够满足大数据量的快速分析,帮助客户很好的解决数据性能问题,支撑自助分析,提升用户的分析和查看体验。
实时数据是直连模式下,使用直连引擎直接连接数据库,获取实时的数据(最新的数据)。
随数据库变化,实时变化。
抽取数据是本地模式下,使用Spider引擎将数据库的数据抽取并存储,可支持离线使用的数据。