揭秘顺丰智慧物流背后的数据管理逻辑财务元数据数据仓库顺丰速运数据中心infoq中国交通运输公司|数据清洗如何做_家电

2023年，顺丰科技发布了首个在物流领域大规模应用的数字孪生实践。在物流典型的中转分拣场景，该技术已经可以实现1天内在虚拟环境验证并优化1000次分拣计划，通过向全国60多个中转场的快速复制，平均每个中转场提升了8%以上的产能。

构建数据驱动的运作框架：1+1+n+x

InfoQ：物流和供应链行业的核心业务目标之一就是把具体的任务和资源做匹配，尽可能提升流转的效率。我们看到，过去顺丰基于大数据、机器学习、运筹优化等技术打造了智能化的决策体系，是否可以请您先大致介绍一下这套体系的运转机制？

林国强：数据驱动业务需要一套完整的框架和机制来维持运作，涉及的技术包括大数据、机器学习、运筹算法和人工智能等。

顺丰内部将这套架构称为“1+1+n+x”。顺丰通过“1+1+n+x”的方式，确保数字化数据驱动业务的整体运作。

第二个“1”是指数据治理体系，包括立法、司法、执法、主数据标准、元数据标准、数据质量、数仓标准等，确保数据质量满足业务需求。

“n”是指n个业务场景，包括运营、财务、市场等各个业务线，例如需求预测、业财一体、潜客挖掘等。

“x”是指顺丰的智慧供应链战略，围绕消费供应链、生产供应链、制造供应链等打造智慧供应链模型能力，例如仓网规划、路径规划、装箱规划、智能调度等。

InfoQ：去年顺丰发布了首个在物流领域大规模应用的数字孪生实践，目前具体在哪些业务场景落地？具体带来了哪些商业增长或者降本增效的成果？

林国强：数字孪生的本质是对现实世界的虚拟化，以1:1的比例还原，让我们在虚拟世界中进行试错和验证，以更高效的方式找到最佳解决方案。这一技术在各行各业都有广泛应用，对于顺丰来说，主要利用数字孪生技术在点和面两个方面进行验：

在“点”方面，顺丰对中转场进行建模，包括人员、设备、货物流程等，以验证整个分拣计划和资源调度计划的效率。通过这一技术，顺丰能够大大提高风险计划的验证效率，例如一天内能验证超千次班次，比以往验证的效率高很多。此外，当顺丰需要关停某条分拣线或减少人员时，该技术也能快速验证这些变化对整体分拣吞吐的影响，从而做出更优化的决策。

在“面”方面，顺丰计划对站点、中转场、道路、航线、车辆和人员进行整体建模，形成整个数字孪生的物流网络。这将有助于顺丰进行全网的畅网规划和局部最优调度，提高整体物流效率。经过验证，这一技术可以帮助顺丰节省城市运营线路，已经在内部得到推广应用。

InfoQ：另外一个关键问题是，很多企业普遍认为数字孪生技术的成本投入较大，因此存在投入产出的考量。顺丰在这方面是如何考虑的？

林国强：数字孪生的投入需要考虑场景本身的收益。投入不是问题，关键在于投入后是否能覆盖前期投入成本。对于我们来说，收益远远高于投入。

林国强：我主要基于自己的感受简单谈谈。

Sora本身非常惊艳，这点是无可否认的。首先是它的输出时长，可以达到60秒以上。这比目前最长输出时长的Runway的16秒要长得多。60秒意味着什么呢？就是在像抖音这样的视频平台中，视频最低要求是60秒，这意味着你可以用Sora做中视频计划并获得收益。其次是它的画面质量，包括分辨率等都非常好。例如，在视频中一些毛发、水波纹和纹理等都做得非常细致。在我看来，目前来看，Sora在这两个方面做得比较出色。

严格执行数据中台战略

InfoQ：无论是智能决策体系还是数字孪生实践，数据在其中都发挥着关键作用，在推动这些技术创新的同时，针对数据，顺丰内部制定了什么样的策略和目标？

林国强：我们在内部严格执行数据中台战略。这一战略从建立数据委员会到构建数据治理体系，包括主数据标准、元数据标准、数据质量和数据仓库标准等方面都有着严格的制定和执行。我们制定了数据质量划分策略，确定了数据质量的责任人和具体执行流程，这些都是为了确保数据质量。

InfoQ：物流场景中包含收、转、运、派等各个不同环节，涉及角色和节点众多，顺丰是如何统一数据标准的？又是如何确保这些标准顺利落实的？

林国强：事实上，数据标准的落地在整个数据中台战略中是至关重要的核心部分。我们将其分为三个方面。

首先是定战略，因为对于像顺丰这样涉及上千个业务系统和数百个BU的公司来说，要让各组织达成一致，数据中台对于集团的重要性不言而喻，需要明确战略的指引。在这一点上，我们需要将其提升至战略层面，企业高层必须站出来，对此负责并明确其意义。我们当时定位整个数据中台战略的意义是高效连接数据的供给侧和消费侧，持续沉淀数据公共能力，实现数据按需安全共享，以助力集团的经营增长、客户体验和风险控制。这一定义由公司高层出面背书，以确保各组织对此有相同认知。

第三个是定目标。我们要明确告诉大家建立数据中台或进行数据治理的目标绝不是简单地为了数据标准化。因为这个过程是一个持续的事业，如果我们只是汇报数据标准化的结果，这远远不能满足公司的期望。因此，确定目标非常重要。目标的意义在于将数据标准化过程、中台战略与公司业务增长、成本降低和效率提升的关键指标或事项相互关联，形成合力，推动整个数据驱动业务的主线。

最终的成果要有量化的结果，无论是成本降低、商业增长还是其他方面的，都要向企业高层汇报。这就是定目标的意义。如果我们的定战略、定组织和定目标能够清晰、妥当、扎实地落实，相信我们的数据治理或数据标准的工作已经成功了大半。

InfoQ：具体来说，顺丰的原始数据清洗怎么做的？

InfoQ：顺丰有上千个业务，而且这些系统的建设年代也不同。每个系统都有自己的定义，比如某些系统可能有自己的主数据，那么顺丰是如何进行治理而不影响原有的业务系统呢？

林国强：这个问题我们经常会遇到，特别是在主数据管理方面。有些老系统可能没有主数据的概念，而一些新老系统对主数据的定义也不一致。另外，当一些老系统更新数据库时，也会对我们后端主数据的治理造成一定影响。

解决这个问题的关键在于两点：

首先，要根据数据规模，在数据湖中尽可能细分分区。比如，可以将数据按小时或者按天进行分区，这样当我们发现后端质量出现问题时，可以及时进行整改，减少需要重新刷数据的量。

其次，我们引入了一些工具化的强制检测机制，以确保数据的干净度。不是所有数据都能够直接入湖，而是经过前置的主数据标准检测。虽然在引入这些检测机制的初期可能会遇到一些问题，比如出错或者受到阻碍，需要做一些整改。但是一旦这些机制建立起来，对于数据湖的整体健康度会有很大帮助，可以预防和减少后续的数据质量问题，这是事后和事前两方面的建议。

InfoQ：为何顺丰的某些系统数据不先进入数据湖，而是直接与主数据平台进行实时交互？

林国强：这个涉及数据链路的问题。实际上，数据链路不仅包括离线链路，还涵盖了实时链路。在某些场景中，数据在前端就已经进行了初步处理，再进入后续流程。这并不意味着所有数据都必须先经过某个特定环节。例如，数据在进入Kafka时可能已经完成了主数据处理。

InfoQ：事实上，无论是在系统建设还是任何技术应用的前期都会遇到内部阻碍，在这方面顺丰有什么经验，如何缩短这个过渡期？

林国强：为了解决这个问题，我认为关键是要找到一种方法，使得业务部门的利益与数据整合的目标相趋同。换句话说，我们需要明确业务部门通过参与数据整合可以获得哪些实际利益。例如，如果能够帮助市场团队收集更完整、更准确的客户数据，这将如何促进他们的工作？我们能否提供一些具体的案例或方法论，说明通过数据整合，市场部门可以实现潜在客户挖掘、新客户增长等方面的提升？为了实现这一目标，技术团队需要与业务团队紧密合作，共同制定解决方案。业务团队中的成员需要积极参与，提供他们的见解和经验，以确保数据整合工作能够真正满足业务需求。

通过强制手段虽然短期内可能取得一定的效果，但从长远来看，这并不是一个可持续的解决方案。真正的关键在于如何确保业务部门与数据部门在业务目标和利益上实现真正的协同。这需要我们不断探索和实践，找到最适合自己企业的方法。

InfoQ：在谈到制定战略时，您提到了一个关键点，那就是数据可以按需安全共享，这并不是一件简单的工作。对于数据部门的人员来说，业务部门提出的需求可能会非常频繁和繁琐；而对于业务部门的人来说，有时他们可能会感觉数据部门的响应效率不高。那么在顺丰，我们是如何实现按需共享的呢？这就需要具备哪些前提条件才能够达到这一目标？

InfoQ：顺丰是如何构建数据中台部门的？与其他业务部门如何协调？

林国强：数据中台部门的构成包括平台部门、工具侧和数仓侧的团队。这几个团队如何与其他部门协同呢？最核心的就是立项。立项意味着项目的启动，只有通过立项，才能够获得资源的投入，包括工时、出差、采购等方面的资源。

对于集团层面来说，立项的参与方包括业务侧、财务侧、技术侧等，他们会共同规划项目的执行计划，明确每个季度、每个月要完成的任务。通过立项，整个成本投入也会变得清晰可见，包括外部采购和内部人员投入。此外，每周的工时填报也通过项目报表进行，以便了解协同进展情况。

InfoQ：数据质量决定着数据应用的效果，在顺丰场景中，哪些因素可能会影响数据质量？具体如何规避？

林国强：需要从两个方面来思考：制度层面和工具层面。

首先，从制度层面来看，确保数据质量至关重要，这需要明确责任方。每个数据的所有者都必须确定，他们的职责范围也必须明确。举例来说，如果收入报表的数据出现问题，就需要确定谁是收入数据的所有者。在数据治理委员会的早期阶段，我们要明确定义每个数据的所有者，他们的职责和质量处理范围。

其次，从工具层面来看，我可以举几个例子：一是主数据的问题，比如国家、省份或人员代码的错误。为了尽可能确保数据的纯净性，我们在数据入湖的时候可以采用工具进行强制性检测；

最后一个例子是数据丢失，因为数据质量的关键问题之一就是数据丢失。在大规模场景下，即使丢失了少量数据，也可能造成严重影响。为了避免这种情况，我们需要确保建立完整的数据血缘，从数据接入开始到最终应用端都要建立起血缘关系。这样一来，当出现数据丢失时，我们可以追踪到丢失的具体位置和原因，从而避免潜在的损失。

首先，在早期阶段，我们更多地讨论数据的价值。这个数据价值指的是数据被应用的广度和热度。比如说，在数据的末端，我们会建议将数据服务化，通过数据服务我们能够了解到这个数据被哪些应用、哪些BU、哪些企业所调用，以及调用频次是多少。通过血缘反向计算整个链路中每项数据的应用广度和热度，明确哪些数据具有价值，哪些数据没有价值，以及如何处理没有价值的数据，如何增加对有价值数据的投入。

数据要素流通的价值与挑战

InfoQ：过去一年，数据资产入表、“数据要素×”行动计划等一系列政策文件相继发布和实施，这对于顺丰乃至整个物流行业有哪些意义和价值？对于我们的数据管理策略制定又会带来哪些影响？

林国强：对于企业而言，数据资产入表的实施是至关重要的，它有助于增加企业的资产，对于任何上市公司都至关重要。数据资产评估将对数据质量和价值产生更高的要求。在具体的数据管理策略制定中，顺丰也会加强数据治理和数据价值的管理，以确保数据资产的评估能够获得较高的评价。这种加强对于上市公司和即将上市的公司尤为重要，因此这一群体可能会更加重视数据资产的治理。

InfoQ：数据入表这一个动作对于大数据部门会产生什么样的影响？在配合财务部门方面是不是有一些具体的工作应对？

InfoQ：反之对于财务部门而言，如何和数据部门进行联动，以便更好推进业务？

InfoQ：数据要素的流通并非单一企业可以独自实现的，它涉及整个行业乃至多个生态系统之间的互动。针对物流行业，实现数据要素的流通要面临哪些挑战，头部企业能发挥哪些作用？

林国强：数据要素流通是一个复杂的问题，从国家层面以及各地的数据交易所来看，都在积极推进数据要素流通。然而，对我们行业来说，主要的挑战包括两个方面。

其次是数据标准化。在物流领域，由于其信息化发展相对滞后，并且存在许多加盟企业，因此很难有效管理数据。我们建议由数交所牵头，邀请行业龙头企业，如顺丰等，参与制定数据标准，这种模式也适用于其他行业和领域，从而为数据要素流通奠定良好基础。

嘉宾介绍

林国强，现任顺丰科技大数据总监。负责顺丰集团大数据及区块链科技融通、产业化赋能和生态建设。对供应链科技、产教融合、城市物流及快消零售行业有深入研究和实践，理解行业痛点和科技创新的链接点，在行业中落地过多个头部客户数字化转型案例，助力客户实现主营业务增收、供应链成本优化和管理数字化。

THE END

揭秘顺丰智慧物流背后的数据管理逻辑财务元数据数据仓库顺丰速运数据中心infoq中国交通运输公司

数据清理的技巧方式都有哪些？

揭秘顺丰智慧物流背后的数据管理逻辑财务元数据数据仓库顺丰速运数据中心infoq中国交通运输公司

《数据采集与预处理》课程思政案例

数据清洗经验分享：什么是数据清洗如何做好数据清洗（转）N神3

用R语言做简单的数据清洗

如何处理和分析问卷数据？来看京东设计师的实战经验！优设网

机器学习之数据清洗

机器学习之数据清洗

数据治理：数据清洗的5个步骤和最佳实践——数据空间

..::侯晓焱邢永杰：我国证人证言排除的刑事司法实务观察