云计算解读EventBridgeTransform,数据转换和处理的灵活能力干货技术博文

本文将从以下几个方面展开对阿里云EventBridgeTransform能力的介绍:

1)首先介绍ETL基本概念;

2)接着介绍T(Transform)的能力;

3)最后探讨EventBridgeTransform能力及落地场景。

ETL表示的是数据提取(Extract)、转换(Transform)和加载(Load)的过程,是数据集成的核心任务。三个步骤的主要作用如下:

从数据源中提取数据,数据源可以是各种数据存储系统,比如消息队列、数据库等。

对提取的数据进行转换操作,比如数据富化、数据清洗、数据聚合、数据拆分、格式转换等。

将经过转换后的数据加载到目标服务中,比如数据仓库、数据湖、BI系统等。ETL应用广泛,它可以帮助企业管理和利用数据,实现数据驱动的决策和业务转型。

ETL中的T(Transform)可以对提取的数据进行转换操作,它具体的使用场景如下:

调用外部服务获取额外信息丰富原始数据,提高数据的完整度和可应用性。

对原始数据进行清洗或验证,去除重复、缺失或者不准确的数据,确保数据的质量和准确性,或者对数据中的信息进行脱敏,确保数据的安全性。

将多条原始数据进行合并,形成一个统一的数据视图,便于后续的快速分析和查询。

将单条原始数据根据业务需求拆分为多条数据。

将上游数据转换为目标服务可接受的格式,比如将Base64、Avro、PB等格式的原始数据统一转换为json格式。

通过Transform,可以将原始数据转化为一致性、准确性和安全性兼具的高质量数据,为后续的数据分析等操作提供可靠的基础。

目前业界的Transform能力,常见的做法有以下几类:

数据清洗:去除数据中的敏感字段、处理噪音数据等。

数据格式转换:将数据中的指定字段转换为特定格式。

用户可自定义Transform的逻辑。这种常见的做法是:用户根据CustomTransform的接口规范,实现接口并将实现的代码打成jar包,之后在系统导入该jar包即可使用自己编写的Transform逻辑。

通过Remote调用的方式调用外部系统对数据进行Transform。

上述1、2两种做法,由于其Transform与系统逻辑高度耦合,共享计算资源,并不太适合在Transform中进行重量级计算,仅适合应用在一些轻量、简单的业务场景。更优的做法是RemoteCustomTransform,它解耦了Transform业务逻辑与数据通路,更具灵活性。

阿里云EventBridge通过集成阿里云函数计算实现了CustomTransform能力,通过Remote调用的方式将Transform业务逻辑与数据通路解耦。提高了Transform的灵活性,降低计算资源的挤兑风险。

使用阿里云的函数计算进行Transform时,EventBridge的整体链路如图所示。

下文在此基础之上继续探讨链路中涉及的几个关键问题:

攒批可以批量聚合多条数据,在达到攒批条件后再将数据批量推送给下一步进行处理。EventBridge将攒批能力置于Transform之前,通过攒批能力提升了数据的处理效率和吞吐量,并且显著降低Transform调用函数计算的次数。

批量推送条数:单次可聚合的最大数据条数。

Transform处理数据时可能出现异常,为避免异常导致数据丢失或影响链路的稳定性和可用性等。Transform复用了EventBridge的重试、死信、容错等机制。

1.允许异常容错:当Transform异常发生时不会阻塞执行,会继续处理后续的数据。但是,EventBridge会重试发生异常的数据,在超出重试策略后根据配置将数据投递至死信队列或直接丢弃。2.禁止容错:不允许错误,当Transform异常发生且超过重试策略配置时会阻塞执行。

函数计算的调用和函数的执行会产生一定费用,包含函数调用、资源使用(CPU、Mem等)和公网出流量三部分的费用。为减少函数计算产生的费用,函数计算定向减免了来自EventBridge的函数调用次数费用,即EventBridge触发函数计算产生的函数调用次数不再计入费用账单[3,4]。

目前可在EventBridge的事件流中体验Transform能力,如图所示。

对于阿里云函数计算来说,我们提供了两种方式:

可在提供的模板之上,直接创建函数。产品层面提供了简易的IDE,便于用户编写和调试代码。

支持绑定用户已有的函数。更详细的使用可参考Transform帮助文档,见附录[4]。

EventBridgeTransform基于Serverless函数计算构建,可享受Serverless服务免运维、资源弹性伸缩、按量付费等特性,具体如下:

消息(MNS)->Transform->消息(RocketMQ)

消息(RocketMQ)->Transform->OSS

客户会将用户产生的视频数据投递到RocketMQ中,这些数据用户是可以查看的。为此客户选择OSS来进行文件存储,满足这种写多读少、低成本存储数据的场景。但是,视频数据中包含了若干敏感信息,为此客户使用FCTransform对视频中的敏感数据做清除后,再将视频投递到OSS中。

EventBridgeTransform通过集成函数计算,满足了实际业务中复杂、个性化的需求。其弹性伸缩、免运维、按量付费的特性深受客户青睐。未来Transform会通过集成更多的服务(阿里云工作流、HTTPDestination等)解锁更多的业务场景,满足多样化需求。

THE END
1.大数据什么是数据清洗?(附应用嘲及解决方案)数据清洗是一个耗时的过程,尤其是在数据量大和数据质量差的情况下,需要投入大量的时间和资源。 通过使用专业的数据处理工具,如FineDataLink,可以有效地解决数据清洗的痛点,提高数据处理的效率和质量。FineDataLink提供了多种可视化算子和功能,如新增计算列、数据过滤、数据关联等,帮助用户快速完成数据清洗和处理,无需编https://blog.csdn.net/oOBubbleX/article/details/140350709
2.19数据清洗知识之数据清洗概述数据清洗的目标17|描述性统计知识之离散程度的测度、数据分布的形状 时长45:57 18|描述性统计知识之相关分析与回归分析实操 时长36:46 19|数据清洗知识之数据清洗概述、数据清洗的目标 时长37:03 20|数据清洗知识之解决数据质量问题 时长41:05 21|数据清洗知识之提高数据易用性 时长55:03 22|数据清洗知识之Python实操演练 https://time.geekbang.org/course/detail/100117306-545493
3.数据清洗处理概述想要在Cocoa /目标-C中连接到SQLite数据库的简单概述 如何使用等效于#region / #endregion(概述)组织XML数据 C#设计转储/概述?类统计数据 相关文章 ETL数据清洗概述 数据预处理-数据清洗 数据清洗-缺失值处理 数据清洗与特征处理 数据清洗(二)---缺失数据处理 数据预处理https://www.pianshen.com/article/2731712359
4.用于产生真实世界证据的真实世界数据指导原则(征求意见稿)一、概述 真实世界证据(RealWorld Evidence,RWE)是药物有效性和安全性评价证据链的重要组成部分,其相关概念和应用参见《真实世界证据支持药物研发与审评的指导原则(试行)》。而真实世界数据(Real World Data, RWD)则是产生RWE的基础,没有高质量的适用的RWD支持,RWE亦无从谈起。 https://www.cn-healthcare.com/articlewm/20200804/content-1135188.html
5.R语言数据清理极客教程在这篇文章中,我们将简要介绍一下数据清洗的应用和它在R编程语言中的实现技术。R语言中 的数据清理数据清洗是将原始数据转化为易于分析的一致数据的过程。它的目的是根据数据以及它们的可靠性来过滤统计报表的内容。此外,它还会影响基于数据的统计报表,并提高你的数据质量和整体生产力。https://geek-docs.com/r-language/r-tutorials/g_data-cleaning-in-r.html
6.大数据应用导论Chapter02大数据的采集与清洗1、Python数据清洗概述 Python是大数据清洗常用的工具之一。除了Python以外还有Trifacta Wrangler 和 OpenRefine两种常用的大数据清洗工具。 Python的Pandas和Sklearn库可进行数据转换等操作 Pandas库:提供数据导入、数据可视化、整合、转换等功能 Sklearn库:提供数据标准化、数据离散化、特征编码等功能 https://blog.51cto.com/14683590/5236225
7.数据集成服务(SSIS)概述腾讯云腾讯云数据库 SQL Server 发布商业智能服务器,提供集数据存储、抽取、转换、装载、可视化分析一体的全套商业智能解决方案,目前已支持 SSIS 数据集成服务。使用 Integration Services 可解决复杂的业务场景,例如合并来自异构数据存储区的数据、数据清洗和数据标准化、填充数据仓库和数据集、处理复杂商业逻辑的数据转换、支持管https://intl.cloud.tencent.com/zh/document/product/238/48060
8.www.ptzfcg.gov.cn/upload/document/20180724/0279275ee54644f69.2投标人应在投标截止时间前按照福建省政府采购网上公开信息系统设定的操作流程将电子投标文件上传至福建省政府采购网上公开信息系统,同时将投标人的CA证书连同密封的纸质投标文件送达招标文件第一章第10条载明的地点,否则投标将被拒绝。 10、开标时间及地点:详见招标公告或更正公告(若有),若不一致,以更正公告(若有)http://www.ptzfcg.gov.cn/upload/document/20180724/0279275ee54644f6adb79e806e1b3734.html
9.ETL设计详解(数据抽取清洗与转换)概述 ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关接到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。 ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。在设计ETL的时候也是从https://www.jianshu.com/p/6b88d125c949
10.《数据采集与清洗》课程教学大纲.docx(支持毕业能力要求5) 四、教学内容、安排及与教学目标的对应关系单元教学内容单元教学目标学时教学方式对应课程教学目标 1 一、技术概述 1.1 大数据采集技术 1.2 数据预处理技术 1.3数据清洗概述? 1.3.1 数据清洗简介 1.3.2 数据标准化 1.3.3 数据仓库简介 (1)能正确阐述大数据处理的一般流程;(2)能准确说明数据https://max.book118.com/html/2022/0226/8016111055004060.shtm