揭秘顺丰智慧物流背后的数据管理逻辑财务元数据数据仓库顺丰速运数据中心infoq中国交通运输公司

2023年,顺丰科技发布了首个在物流领域大规模应用的数字孪生实践。在物流典型的中转分拣场景,该技术已经可以实现1天内在虚拟环境验证并优化1000次分拣计划,通过向全国60多个中转场的快速复制,平均每个中转场提升了8%以上的产能。

构建数据驱动的运作框架:1+1+n+x

InfoQ:物流和供应链行业的核心业务目标之一就是把具体的任务和资源做匹配,尽可能提升流转的效率。我们看到,过去顺丰基于大数据、机器学习、运筹优化等技术打造了智能化的决策体系,是否可以请您先大致介绍一下这套体系的运转机制?

林国强:数据驱动业务需要一套完整的框架和机制来维持运作,涉及的技术包括大数据、机器学习、运筹算法和人工智能等。

顺丰内部将这套架构称为“1+1+n+x”。顺丰通过“1+1+n+x”的方式,确保数字化数据驱动业务的整体运作。

第二个“1”是指数据治理体系,包括立法、司法、执法、主数据标准、元数据标准、数据质量、数仓标准等,确保数据质量满足业务需求。

“n”是指n个业务场景,包括运营、财务、市场等各个业务线,例如需求预测、业财一体、潜客挖掘等。

“x”是指顺丰的智慧供应链战略,围绕消费供应链、生产供应链、制造供应链等打造智慧供应链模型能力,例如仓网规划、路径规划、装箱规划、智能调度等。

InfoQ:去年顺丰发布了首个在物流领域大规模应用的数字孪生实践,目前具体在哪些业务场景落地?具体带来了哪些商业增长或者降本增效的成果?

林国强:数字孪生的本质是对现实世界的虚拟化,以1:1的比例还原,让我们在虚拟世界中进行试错和验证,以更高效的方式找到最佳解决方案。这一技术在各行各业都有广泛应用,对于顺丰来说,主要利用数字孪生技术在点和面两个方面进行验:

在“点”方面,顺丰对中转场进行建模,包括人员、设备、货物流程等,以验证整个分拣计划和资源调度计划的效率。通过这一技术,顺丰能够大大提高风险计划的验证效率,例如一天内能验证超千次班次,比以往验证的效率高很多。此外,当顺丰需要关停某条分拣线或减少人员时,该技术也能快速验证这些变化对整体分拣吞吐的影响,从而做出更优化的决策。

在“面”方面,顺丰计划对站点、中转场、道路、航线、车辆和人员进行整体建模,形成整个数字孪生的物流网络。这将有助于顺丰进行全网的畅网规划和局部最优调度,提高整体物流效率。经过验证,这一技术可以帮助顺丰节省城市运营线路,已经在内部得到推广应用。

InfoQ:另外一个关键问题是,很多企业普遍认为数字孪生技术的成本投入较大,因此存在投入产出的考量。顺丰在这方面是如何考虑的?

林国强:数字孪生的投入需要考虑场景本身的收益。投入不是问题,关键在于投入后是否能覆盖前期投入成本。对于我们来说,收益远远高于投入。

林国强:我主要基于自己的感受简单谈谈。

Sora本身非常惊艳,这点是无可否认的。首先是它的输出时长,可以达到60秒以上。这比目前最长输出时长的Runway的16秒要长得多。60秒意味着什么呢?就是在像抖音这样的视频平台中,视频最低要求是60秒,这意味着你可以用Sora做中视频计划并获得收益。其次是它的画面质量,包括分辨率等都非常好。例如,在视频中一些毛发、水波纹和纹理等都做得非常细致。在我看来,目前来看,Sora在这两个方面做得比较出色。

严格执行数据中台战略

InfoQ:无论是智能决策体系还是数字孪生实践,数据在其中都发挥着关键作用,在推动这些技术创新的同时,针对数据,顺丰内部制定了什么样的策略和目标?

林国强:我们在内部严格执行数据中台战略。这一战略从建立数据委员会到构建数据治理体系,包括主数据标准、元数据标准、数据质量和数据仓库标准等方面都有着严格的制定和执行。我们制定了数据质量划分策略,确定了数据质量的责任人和具体执行流程,这些都是为了确保数据质量。

InfoQ:物流场景中包含收、转、运、派等各个不同环节,涉及角色和节点众多,顺丰是如何统一数据标准的?又是如何确保这些标准顺利落实的?

林国强:事实上,数据标准的落地在整个数据中台战略中是至关重要的核心部分。我们将其分为三个方面。

首先是定战略,因为对于像顺丰这样涉及上千个业务系统和数百个BU的公司来说,要让各组织达成一致,数据中台对于集团的重要性不言而喻,需要明确战略的指引。在这一点上,我们需要将其提升至战略层面,企业高层必须站出来,对此负责并明确其意义。我们当时定位整个数据中台战略的意义是高效连接数据的供给侧和消费侧,持续沉淀数据公共能力,实现数据按需安全共享,以助力集团的经营增长、客户体验和风险控制。这一定义由公司高层出面背书,以确保各组织对此有相同认知。

第三个是定目标。我们要明确告诉大家建立数据中台或进行数据治理的目标绝不是简单地为了数据标准化。因为这个过程是一个持续的事业,如果我们只是汇报数据标准化的结果,这远远不能满足公司的期望。因此,确定目标非常重要。目标的意义在于将数据标准化过程、中台战略与公司业务增长、成本降低和效率提升的关键指标或事项相互关联,形成合力,推动整个数据驱动业务的主线。

最终的成果要有量化的结果,无论是成本降低、商业增长还是其他方面的,都要向企业高层汇报。这就是定目标的意义。如果我们的定战略、定组织和定目标能够清晰、妥当、扎实地落实,相信我们的数据治理或数据标准的工作已经成功了大半。

InfoQ:具体来说,顺丰的原始数据清洗怎么做的?

InfoQ:顺丰有上千个业务,而且这些系统的建设年代也不同。每个系统都有自己的定义,比如某些系统可能有自己的主数据,那么顺丰是如何进行治理而不影响原有的业务系统呢?

林国强:这个问题我们经常会遇到,特别是在主数据管理方面。有些老系统可能没有主数据的概念,而一些新老系统对主数据的定义也不一致。另外,当一些老系统更新数据库时,也会对我们后端主数据的治理造成一定影响。

解决这个问题的关键在于两点:

首先,要根据数据规模,在数据湖中尽可能细分分区。比如,可以将数据按小时或者按天进行分区,这样当我们发现后端质量出现问题时,可以及时进行整改,减少需要重新刷数据的量。

其次,我们引入了一些工具化的强制检测机制,以确保数据的干净度。不是所有数据都能够直接入湖,而是经过前置的主数据标准检测。虽然在引入这些检测机制的初期可能会遇到一些问题,比如出错或者受到阻碍,需要做一些整改。但是一旦这些机制建立起来,对于数据湖的整体健康度会有很大帮助,可以预防和减少后续的数据质量问题,这是事后和事前两方面的建议。

InfoQ:为何顺丰的某些系统数据不先进入数据湖,而是直接与主数据平台进行实时交互?

林国强:这个涉及数据链路的问题。实际上,数据链路不仅包括离线链路,还涵盖了实时链路。在某些场景中,数据在前端就已经进行了初步处理,再进入后续流程。这并不意味着所有数据都必须先经过某个特定环节。例如,数据在进入Kafka时可能已经完成了主数据处理。

InfoQ:事实上,无论是在系统建设还是任何技术应用的前期都会遇到内部阻碍,在这方面顺丰有什么经验,如何缩短这个过渡期?

林国强:为了解决这个问题,我认为关键是要找到一种方法,使得业务部门的利益与数据整合的目标相趋同。换句话说,我们需要明确业务部门通过参与数据整合可以获得哪些实际利益。例如,如果能够帮助市场团队收集更完整、更准确的客户数据,这将如何促进他们的工作?我们能否提供一些具体的案例或方法论,说明通过数据整合,市场部门可以实现潜在客户挖掘、新客户增长等方面的提升?为了实现这一目标,技术团队需要与业务团队紧密合作,共同制定解决方案。业务团队中的成员需要积极参与,提供他们的见解和经验,以确保数据整合工作能够真正满足业务需求。

通过强制手段虽然短期内可能取得一定的效果,但从长远来看,这并不是一个可持续的解决方案。真正的关键在于如何确保业务部门与数据部门在业务目标和利益上实现真正的协同。这需要我们不断探索和实践,找到最适合自己企业的方法。

InfoQ:在谈到制定战略时,您提到了一个关键点,那就是数据可以按需安全共享,这并不是一件简单的工作。对于数据部门的人员来说,业务部门提出的需求可能会非常频繁和繁琐;而对于业务部门的人来说,有时他们可能会感觉数据部门的响应效率不高。那么在顺丰,我们是如何实现按需共享的呢?这就需要具备哪些前提条件才能够达到这一目标?

InfoQ:顺丰是如何构建数据中台部门的?与其他业务部门如何协调?

林国强:数据中台部门的构成包括平台部门、工具侧和数仓侧的团队。这几个团队如何与其他部门协同呢?最核心的就是立项。立项意味着项目的启动,只有通过立项,才能够获得资源的投入,包括工时、出差、采购等方面的资源。

对于集团层面来说,立项的参与方包括业务侧、财务侧、技术侧等,他们会共同规划项目的执行计划,明确每个季度、每个月要完成的任务。通过立项,整个成本投入也会变得清晰可见,包括外部采购和内部人员投入。此外,每周的工时填报也通过项目报表进行,以便了解协同进展情况。

InfoQ:数据质量决定着数据应用的效果,在顺丰场景中,哪些因素可能会影响数据质量?具体如何规避?

林国强:需要从两个方面来思考:制度层面和工具层面。

首先,从制度层面来看,确保数据质量至关重要,这需要明确责任方。每个数据的所有者都必须确定,他们的职责范围也必须明确。举例来说,如果收入报表的数据出现问题,就需要确定谁是收入数据的所有者。在数据治理委员会的早期阶段,我们要明确定义每个数据的所有者,他们的职责和质量处理范围。

其次,从工具层面来看,我可以举几个例子:一是主数据的问题,比如国家、省份或人员代码的错误。为了尽可能确保数据的纯净性,我们在数据入湖的时候可以采用工具进行强制性检测;

最后一个例子是数据丢失,因为数据质量的关键问题之一就是数据丢失。在大规模场景下,即使丢失了少量数据,也可能造成严重影响。为了避免这种情况,我们需要确保建立完整的数据血缘,从数据接入开始到最终应用端都要建立起血缘关系。这样一来,当出现数据丢失时,我们可以追踪到丢失的具体位置和原因,从而避免潜在的损失。

首先,在早期阶段,我们更多地讨论数据的价值。这个数据价值指的是数据被应用的广度和热度。比如说,在数据的末端,我们会建议将数据服务化,通过数据服务我们能够了解到这个数据被哪些应用、哪些BU、哪些企业所调用,以及调用频次是多少。通过血缘反向计算整个链路中每项数据的应用广度和热度,明确哪些数据具有价值,哪些数据没有价值,以及如何处理没有价值的数据,如何增加对有价值数据的投入。

数据要素流通的价值与挑战

InfoQ:过去一年,数据资产入表、“数据要素×”行动计划等一系列政策文件相继发布和实施,这对于顺丰乃至整个物流行业有哪些意义和价值?对于我们的数据管理策略制定又会带来哪些影响?

林国强:对于企业而言,数据资产入表的实施是至关重要的,它有助于增加企业的资产,对于任何上市公司都至关重要。数据资产评估将对数据质量和价值产生更高的要求。在具体的数据管理策略制定中,顺丰也会加强数据治理和数据价值的管理,以确保数据资产的评估能够获得较高的评价。这种加强对于上市公司和即将上市的公司尤为重要,因此这一群体可能会更加重视数据资产的治理。

InfoQ:数据入表这一个动作对于大数据部门会产生什么样的影响?在配合财务部门方面是不是有一些具体的工作应对?

InfoQ:反之对于财务部门而言,如何和数据部门进行联动,以便更好推进业务?

InfoQ:数据要素的流通并非单一企业可以独自实现的,它涉及整个行业乃至多个生态系统之间的互动。针对物流行业,实现数据要素的流通要面临哪些挑战,头部企业能发挥哪些作用?

林国强:数据要素流通是一个复杂的问题,从国家层面以及各地的数据交易所来看,都在积极推进数据要素流通。然而,对我们行业来说,主要的挑战包括两个方面。

其次是数据标准化。在物流领域,由于其信息化发展相对滞后,并且存在许多加盟企业,因此很难有效管理数据。我们建议由数交所牵头,邀请行业龙头企业,如顺丰等,参与制定数据标准,这种模式也适用于其他行业和领域,从而为数据要素流通奠定良好基础。

嘉宾介绍

林国强,现任顺丰科技大数据总监。负责顺丰集团大数据及区块链科技融通、产业化赋能和生态建设。对供应链科技、产教融合、城市物流及快消零售行业有深入研究和实践,理解行业痛点和科技创新的链接点,在行业中落地过多个头部客户数字化转型案例,助力客户实现主营业务增收、供应链成本优化和管理数字化。

THE END
1.盘点4种常用的数据清洗方法随着大数据时代的发展,越来越多的人开始投身于大数据分析行业。当我们进行大数据分析时,我们经常听到熟悉的行业词,如数据分析、数据挖掘、数据可视化等。然而,虽然一个行业词的知名度不如前几个词,但它的重要性相当于前几个词,即数据清洗。顾名思义,数据清洗是清洗脏数据,是指在数据文件中发现和纠正可识别http://baijiahao.baidu.com/s?id=1714040949358395597&wfr=spider&for=pc
2.数据清洗的具体方法有哪些?数据清洗流程清洗数据是数据分析和机器学习项目中至关重要的一步,其目标在于识别并纠正数据集中的错误、遗漏或不一致,以提高数据质量和后续分析结果的准确性。以下是一个详细的数据清洗流程,通常包括以下几个步骤: 1.数据收集与理解 收集数据:从各种来源(如数据库、API、文件等)获取数据。 https://blog.csdn.net/Shaidou_Data/article/details/143205411
3.值得收藏!数据清洗的十类常用方法数据清洗是数据治理过程中的一个重要环节,它指的是对原始数据进行筛选、修复、转换和处理,以确保数据的准确性、完整性和一致性。 在数据清洗过程中,不仅需要明确数据清洗的对象,还需要根据具体的情况选择合适的数据清理方法。以下是不同对象所对应不同的数据清洗方法。 https://www.fanruan.com/bw/article/178453
4.hive如何做数据清洗mob64ca12d6c78e的技术博客hive 如何做数据清洗 数据清洗在数据挖掘和分析中起着至关重要的作用,它可以帮助我们识别并处理数据集中的错误、缺失、重复和不一致的数据,从而提高数据质量和分析结果的准确性。在本文中,我们将讨论如何利用Hive进行数据清洗,并通过一个实际问题和示例来演示该过程。https://blog.51cto.com/u_16213326/11228478
5.spss数据预处理包括哪些内容spss数据预处理怎么做SPSS软件作为一款广泛应用的统计分析软件,提供了一系列强大的数据预处理功能。本文将详细介绍SPSS数据预处理包括哪些内容,以及SPSS数据预处理怎么做的内容,帮助您更好地利用软件功能,提高数据分析的准确性和效率。 一、 SPSS数据预处理包括哪些内容 在SPSS中,数据预处理主要包括以下几个方面的内容: 1、数据清洗:数据https://spss.mairuan.com/jiqiao/spss-djxklq.html
6.数据分析的流程是怎样的这项工作经常会占到整个数据分析过程将近一半的时间。如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要https://www.linkflowtech.com/news/626
7.阿里面试官惊叹:这种简历不用面了,直接来上班!数据库层面有没有 数据扩展? 2.QPS8W 总单量是多少 ? 3.本地缓存 怎么保证数据一致性? 4.MQ 如果挂了 怎么办? 5.Redis 集群 性能 了解吗? 6.数据清洗怎么做的? 7如何保证最终一致性? 8.顺序消息如何保证? 9.ES 怎么用的?数据量级多少?为什么用ES 不用Hbase? https://maimai.cn/article/detail?fid=1724482192&efid=gDtXEDVbtMnEeClsOjitVw
8.未经加工的数据如何处理和清洗数据清洗的第一步是将原始数据导入到一个能轻松操控和分析的环境中。Python的Pandas库是一个强大的数据处理工具,能够读取多种数据格式(如CSV和Excel)。在数据载入后,进行初步检查是一个好习惯。这包括去除多余的空格、转换文本大小写等。例如,以下代码展示了如何使用Pandas读取CSV文件: https://www.jianshu.com/p/1f71782b0323
9.如何对数据进行清洗数据清洗是数据预处理的重要环节,目的是纠正、删除或替换不准确、不完整、不合理或重复的数据,以提高数据质量和后续数据分析的准确性。 以下是对数据进行清洗的一般步骤和方法: 数据探索与评估: 在开始清洗之前,先对数据进行初步的探索,了解数据的整体情况,包括数据的类型、范围、缺失值、异常值等。 https://www.ai-indeed.com/encyclopedia/9102.html
10.机器学习中的数据清洗与特征处理综述在线清洗数据 在线清洗优点是实时性强,完全记录的线上实际数据,缺点是新特征加入需要一段时间做数据积累。 样本采样与样本过滤 特征数据只有在和标注数据合并之后,才能用来做为模型的训练。下面介绍下如何清洗标注数据。主要是数据采样和样本过滤。 数据采样,例如对于分类问题:选取正例,负例。对于回归问题,需要采集数据http://api.cda.cn/view/8897.html
11.数据清洗范文数据清洗的目的就是利用现有的技术和手段,消除或减少数据中的错误与不一致问题,将其转化成为满足数据质量要求的数据。 本文分析了从Web上抽取到的数据存在的质量问题,给出包括不完整数据和异常数据在内的属性错误以及重复与相似重复记录的描述,并提出对应的清洗方法;设计了一个由数据预处理、数据清洗引擎和质量评估三部https://www.gwyoo.com/haowen/64743.html
12.数据处理全流程解析(如何进行数据处理)当完成这几步操作后,此时数据就已经脱离APP了,开始往数仓的方向流动,数仓承担着接收数据并最终将数据落地到应用的职责。 02 数据是如何被接收的 数据在到达接入层后会经历解包、解析转换、数据清洗、数据存储四个技术流程。只有经过了这一系列的步骤,数据才能够以规整的形式呈现出来,以供下一个环节的消费。 https://www.niaogebiji.com/article-114218-1.html
13.QuickBI如何进行数据加工连接需要清洗加工的节点。 在清洗加工节点配置区域,进行以下配置。 新增计算字段 您可以按照图示步骤进入新增计算字段配置界面。 在新增字段-公式函数编辑页,输入①新建字段名称和②字段表达式,选择③字段类型,单击④确定后保存配置。 更多的计算字段示例请参见数据集的新建计算字段。 https://help.aliyun.com/zh/quick-bi/user-guide/data-processing
14.数据分析的八个流程这项工作经常会占到整个数据分析过程将近一半的时间。如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要https://36kr.com/p/1491281074089859