使用数据开发(DataStudio)创建周期调度任务大数据开发治理平台DataWorks(DataWorks)

通常,写入原始业务数据至DataWorks,并加工为最终结果表的过程如下:

您也可以在创建表后,使用直接上传方式,将本地数据上传至DataWorks的源表,再通过计算节点进行清洗加工,将加工后的数据存储至结果表。本文使用直接上传本地数据,并通过计算类型节点清洗该表数据为例进行说明。

DataWorks的数据开发节点会对您的源数据进行清洗加工,因此,您需先在引擎创建用于接收数据清洗结果的表,并定义表结构。

本文示例分别创建如下两种表。

表名称

描述

bank_data

用于存储原始业务数据。

result_table

用于存储数据清洗后的结果。

CREATETABLEIFNOTEXISTSresult_table(educationSTRINGCOMMENT'教育程度',numBIGINTCOMMENT'人数')PARTITIONEDBY(daySTRING,hourSTRING);步骤三:新建节点根据业务需求,选择合适的节点类型进行开发。

目前DataWorks的节点分为数据同步类型节点与计算类型节点两大类,实际开发过程中,您通常需要先通过离线同步任务将业务数据库中的数据同步至数仓中,再通过DataWorks计算节点对数仓中的表数据进行清洗加工。

在业务流程目录树或业务流程面板中找到步骤三创建的节点,双击进入节点编辑页面。根据节点类型,通过对应数据库的语法编写业务代码。

本文示例在result_table节点中,将bank_data表中指定分区的数据写入result_table表对应的分区中,并通过变量(day、hour)定义写入的分区。

参数

节点的名称、ID、类型、责任人会自动展示,此处无需单独配置。

用于定义节点调度时使用的参数。

用于定义节点调度的上下游依赖关系。建议您根据血缘关系来设置节点依赖,通过上游任务执行成功来确定当前节点依赖的表数据已顺利产出,当前节点可正常查询该上游表数据。

本文示例,假设result_table节点查询的bank_data表为非当前业务流程产出的表数据,则需将工作空间根节点配置为result_table节点依赖的上游节点,由根节点调度result_table节点运行。

用于定义节点上下游间的参数传递,实现下游节点通过参数获取上游节点传递过来的取值。

该功能通常与赋值节点或赋值参数配合使用。

您可使用如下方式调试代码逻辑,保障代码编写的正确性。

方式

使用说明

选择建议

用于快速运行选中的代码片段。

需要快捷运行代码片段时,可选择此方式。

支持为代码指定测试场景下的变量赋值常量。

新建的节点第一次单击运行时,需要您在弹框中手动为代码中变量赋值常量,此次赋值会被记录,下次操作无需再重复赋值。

若您需要频繁调试全量代码,可选择此方式。

每次单击此按钮都需为指定测试场景下的变量赋值常量。

若您需要修改代码中的变量赋值,可选择此方式。

节点配置并测试完成后,您需要保存节点配置,并提交节点至开发环境。

仅当节点在步骤五中配置了重跑属性及依赖的上游节点后才可提交。

为保障生产任务高效运行,避免计算资源浪费,建议您在任务发布前先对任务进行冒烟测试。冒烟测试需在开发环境执行,因此您需将节点提交至开发环境,提交后:

若当前工作空间为简单模式工作空间,任务提交后便可周期性调度;若当前工作空间为标准模式工作空间,任务提交后仅处于待发布状态,您需参考该步骤将任务发布生产,发布后该任务才可进行周期性调度。

说明

发布流程管控

发布操作受角色权限和流程控制约束,执行发布操作后请确保发布包状态为成功。

THE END
1.从零开始:建立高效的数据清洗流程做数据分析如何进行数据清洗操作反馈循环:根据业务反馈和数据质量监控结果,持续优化清洗流程。 技术创新:关注数据清洗领域的最新技术和工具,不断改进和优化清洗方法。 结语 建立一个高效的数据清洗流程是确保数据质量的关键步骤。通过明确目标、了解数据特性、设计策略、实施清洗、自动化与监控、验证测试、文档化培训以及持续优化,可以显著提高数据清洗的效https://blog.csdn.net/weixin_44835050/article/details/143302649
2.大数据进行数据清洗的基本流程详细讲解数据清洗的基本流程一共分为5个步骤,分别是数据分析、定义数据清洗的策略和规则、搜寻并确定错误实例、纠正发现的错误以及干净数据回流。 1.数据分析 数据分析是数据清洗的前提和基础,通过人工检测或者计算机分析程序的方式对原始数据源的数据进行检测分析,从而得出原始数据源中存在的数据质量问题。 https://www.jianshu.com/p/33ad3063c7ce
3.机器学习中的数据清洗与特征处理综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。 灰色框中蓝色箭头对应的是离线处理部分。主要工作是: 1.从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。 http://api.cda.cn/view/8897.html
4.数据处理指什么?一文搞懂数据处理的8个关键步骤!二、数据处理的关键步骤 通常来讲,数据处理一般包括以下几个关键步骤: 1. 数据抽取 从不同的数据源中提取数据,包括数据库、文件系统、APIs等。抽取过程中,数据通常保持其原始格式。 2. 数据清洗 清洗数据以提高数据质量,包括去除重复记录、纠正错误和不一致的数据。 https://www.fanruan.com/bw/doc/178536
5.hadoop清洗数据流程mob649e815bbe69的技术博客在大数据处理中,数据清洗是一个重要的步骤。Hadoop作为一个分布式计算框架,可以帮助我们进行高效的数据清洗。本文将介绍使用Hadoop进行数据清洗的步骤和所需的代码。 流程图 开始文本文件导入HDFSMap阶段Reduce阶段结果输出结束 步骤说明 下面将分步骤介绍如何使用Hadoop清洗数据。 https://blog.51cto.com/u_16175464/7074610
6.数据分析中的数据预处理包括哪些步骤数据预处理包括数据清洗、数据集成、数据转换和数据规约四个步骤。数据预处理是数据分析的重要阶段,通过对原始数据进行处理和清洗,可以提高数据分析的准确性和可靠性。 一、数据清洗 数据清洗是数据预处理的第一步,主要是为了处理原始数据中存在的错误、缺失、重复、异常等问题。具体步骤如下: https://www.linkflowtech.com/news/1073
7.Stata数据处理:清洗CFPS数据库我们先以 CFPS2018 为例,讲解截面数据的清洗步骤。 我们先导入 CFPS2018 中的家庭经济问卷,这是一份超过 300 个变量的长问卷,而我们只需要其中小部分变量。因此我们可以使用keep提取需要的家庭信息,如家庭id、省份、区县顺序码、村居顺序码、城乡分类等。 https://www.lianxh.cn/news/2916ae8363459.html
8.数据清洗的步骤有哪些?()An absolute quota (as opposed to a quota) puts an upper limit on the quantity of a good that can be imported during a given period of time.https://www.shuashuati.com/ti/1042d1ec963044388eb5413196297111.html