[转载]数据管理——数据血缘关系概述数据民工张三省

数据的血缘关系作为数据治理很重要的部分,需要引起格外的重视。

数据血缘关系的概念

在人类社会中,血缘关系是指由婚姻或生育而产生的人际关系。如父母与子女的关系,兄弟姐妹关系,以及由此而派生的其他亲属关系。它是人先天的与生俱来的关系,在人类社会产生之初就已存在,是最早形成的一种社会关系。

大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。

数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征:

1.归属性。一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。

3.可追溯性。数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。

4.层次性。数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。

数据血缘关系的层次:

上图描述的是存储在数据库中的结构化数据血缘关系的层次结构,是最典型的一种血缘关系的层次结构。对于不同类型的数据,血缘关系的层次结构有细微的差别。

一般来说,数据都归属于某个组织或者某个人,数据都有所有者。数据在不同的所有者之间流转、融合,形成所有者之间通过数据联系起来的一种关系,是数据血缘关系的一种,在层次结构中处在最上层。这种关系,清楚地表明了数据的提供者和需求者。

数据库、表和字段,是数据的存储结构。不同类型的数据,有不同的存储结构。存储结构决定了血缘关系的层次结构。所以不同类型的数据的血缘关系层次结构有些差别。例如,对于以文件服务器存储的数据来说,血缘关系的层次结构如下图所示。

不同层级数据的血缘关系,体现着不同的含义。所有者层次,体现了数据的提供方和需求方,其他的层次则体现了数据的来龙去脉。通过不同层级的血缘关系,可以很清楚地了解数据的迁徙流转,为数据价值的评估、数据的管理提供依据。

数据血缘关系的可视化

可视化,从技术概念上来看,是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。可视化的意义在于迅速快捷地传递信号,形象、直观地将数据及其关系展现出来,方便用户探讨、探索本质,发现问题。

对于数据的血缘关系,可视化尤为重要。只有通过可视化,血缘关系才能很清晰地展现在用户面前。

根据数据血缘关系的特点,我们设计了数据的血缘关系可视化图形。

根据表现含义的不同,血缘关系的可视化图形包括5种可视化元素,分布在图形的不同位置。可视化元素分别是:

1.信息节点

信息节点用来表现数据的所有者和数据层次信息或终端信息。根据血缘关系层次的不同,数据信息有所区别。所有者层次只有所有者的信息,其他的层次则包括所有者信息和数据层次信息或者终端信息,例如关系数据库的字段间的血缘关系,该节点的描述信息就是:所有者.数据库.数据表.数据字段。

信息节点有三种类型:主节点,数据流出节点,数据流入节点。

主节点只有一个,位于整个图形的中间,是可视化图形的核心节点。图形展示的血缘关系就是此节点的血缘关系,其他与此节点无关的血缘关系都不在图形上展示,以保证图形的简单、清晰。

数据流出节点也可以有多个,是主节点的子节点,表示数据的去向,位于整个图形的右侧。数据流出节点包括一种特殊的节点,即终端节点,终端节点是一种特殊的数据流出节点,表示数据不再往下进行流转,这种数据一般用来做可视化展示。

2.数据流转线路

数据流转线路表现的是数据的流转路径,从左到右流转。数据流转线路从数据流入节点出来往主节点汇聚,又从主节点流出往数据流出节点扩散。

数据流转线路表现了三个维度的信息,分别是方向、数据更新量级、数据更新频次。

方向的表现方式,没有做特别的设计,默认从左到右流转;

数据更新的量级通过线条的粗细来表现。线条越粗表示数据量级越大,线条越细则表示数据量级越小。

数据更新的频次用线条中线段的长度来表现。线段越短表示更新频次越高,线段越长表示更新频次越底,一根实线则表示只流转一次。

3.清洗规则节点

清洗规则节点用来表现数据流转过程中的筛选标准。大量的数据分布在不同的地方,每个地方对数据质量的要求都有所不同,数据接受方会根据自己对数据的要求来过滤接入的数据,这些要求就形成数据标准,并依据这些标准来做数据清洗。

清洗规则可能会有多种。例如要求不能是空值、要求符合某种格式。在可视化图形上,清洗规则用一个标有大写字母“E”的圆圈表示,把各种规则简略化表达,以保证图形的简洁、清晰。查看规则内容的操作也很简单,鼠标移动到标有大写字母“E”的圆圈上,则会自动展示标准清单列表。

清洗规则的简略图形位于数据流转线路上,表示该线路上流转的数据符合这些标准才能继续流转下去。

4.转换规则节点

转换规则节点在表现形式上类似于清洗规则节点,用一个标有大写字母“T”的圆圈表示。位于数据流转线路上,用来表现数据流转过程中发生的变化、变换。

从数据提供方出来的数据,有时候需要进行特殊处理才能接入到数据需求方,这种处理可能比较简单,例如:只是截取源数据的前四位。也可能非常复杂,需要用到特殊的公式。在可视化方面,为了保证图形的简洁、清晰,做了简略处理。查看数据经过了哪些转换规则,也很简单,鼠标移动到标有大写字母“T”的圆圈上,则会自动展示转换规则清单。

5.数据归档销毁规则节点

我们认为数据是有生命周期的,当数据不再具备使用价值,他的生命就结束了,或者归档或者直接销毁。

判断数据是否还具备使用价值非常困难,需要设计一些条件,当这些条件满足了以后,就认为数据不再具有使用价值,可以归档或者销毁了。

在可视化图形上,我们设计了一个标有大写字母“R”的圆圈,用来简略的表示数据归档和销毁规则。鼠标移动到标有大写字母“R”的圆圈上,则会自动展示归档和销毁规则清单。

血缘关系的可视化是一个比较复杂的过程,目前没有成型的可视化图形可以参考,我们设计的这个血缘关系可视化图形组件,能够清晰地表达数据的血缘关系,对组织的数据治理很有帮助。具有以下一些作用。

数据血缘关系的作用

数据血缘关系的作用,总结起来有如下几个方面:

1.数据溯源

2.评估数据价值

数据的价值在数据交易领域非常重要,涉及到数据的定价。要对数据价值进行评估,就需要有依据。数据血缘关系,可以从几个方面给数据价值的评估提供依据:

1)数据受众。在血缘关系图上,右边的数据流出节点表示受众,亦即数据需求方,数据需求方越多表示数据价值越大;

2)数据更新量级。数据血缘关系图中,数据流转线路的线条越粗,表示数据更新的量级越大,从一定程度上反映了数据价值的大小;

3)数据更新频次。数据更新越频繁,表示数据越鲜活,价值越高。在血缘关系图上,数据流转线路的线段越短,更新越频繁。

3.数据质量评估

从数据的血缘关系图上,可以方便的看到数据清洗的标准清单,这个清单反映了对数据质量的要求。

4.数据归档、销毁的参考

如果数据没有了受众,就失去了使用价值。从数据的血缘关系图上看,最右边没有了数据节点,就可以去评估主节点所代表的数据是否要归档或者销毁了。

结语

当下,我们生活在一个数据看似无穷无尽的年代。数据已经侵淫到我们的生活当中。我们依赖数据完成各种各样的任务,从促进经济发展和推动科学进步,到记录我们的健康信息。毫无疑问,我们已经进入到了大数据时代。

原始形态的海量数据,不像传统数据那么可信。错误的数据、遗漏信息的数据大规模出现,数据治理显得非常重要。

数据的血缘关系作为数据治理很重要的部分,需要引起格外的重视。基于这种认识,我们对数据血缘关系做了以上特别的分析研究,希望能引起大家对数据血缘关系的重视。

THE END
1.什么是涉外婚姻?我要问什么是涉外婚姻? 中国公民同外国人在中国内地结婚或自愿离婚的,内地居民同香港居民、澳门居民、台湾居民、华侨在中国内地结婚或自愿离婚的,男女双方应当共同到内地居民常住户口所在地的婚姻登记机关办理婚姻登记。http://www.duan.gov.cn/ggfw/syfw/jh/hdzsk29/t19335657.shtml
2.()是指在婚姻关系血缘关系或收养关系基础上产生的亲属之间所()是指在婚姻关系、血缘关系或收养关系基础上产生的亲属之间所构成的社会生活单位。 A.家庭成员B.家庭C.爱情D.恋爱 点击查看答案进入小程序搜题 你可能喜欢 无论现在和将来,都要从革命的历史中汲取智慧和力量,把理想信念的火种一代代传下去,把()传承好,确保红色江山永不变色。 A.红色基因B.革命意志C.精神文明https://m.ppkao.com/wangke/daan/d8144db553c24ab3af5c603ed652bd20
3.最新探索近亲血缘关系表近婚姻亲关系是指亲戚之间的关系中,更近的血缘关系为婚姻关系,例如父母和子女的婚配、兄弟姐妹的婚嫁等。这种关系不仅存在于传统的婚姻制度下,也广泛存在于现代社会,是人们生活中不可避免的一部分。 近婚姻亲关系对社会生活有着深远的影响。近婚姻亲关系可以增加家庭成员之间的互动和合作,促进家庭的凝聚力。例如,两个http://www.ankangdna.com/article/39570.html
4.[渝粤教育]西南科技大学婚姻家庭继承法在线考试复习资料(1)婚姻家庭继承法——在线考试复习资料 一、单选题 1.以下能作为指定遗产继承人的是( )。 A.死者生前所雇小保姆 B.死者的二儿子 C.死者的前妻 D.与死者无血缘关系的债主 2.以下属于遗产范围的是( )。 A.死者生前所著文学作品的署名权 B.死者生前所获五一劳动奖章 https://blog.csdn.net/m0_53223332/article/details/121882217
5.筑基2社心11课婚恋家庭由婚姻关系、血缘关系及收养关系构成的。 特点: 1.以婚姻、血缘关系为纽带 以婚姻关系为纽带是姻亲; 以血缘关系为纽带是血亲(收养是准血亲) 传统社会中,血亲重于姻亲,注重传宗接代 现代社会注重婚质量,姻亲日益显得重要 现代社会注重婚姻质量,姻亲日益显得重要。但是更多的也是核心家庭的日常的活动。 https://www.jianshu.com/p/a69dff64a7fe
6."龙的传人”“炎黄子孙”发源地——河南这种群婚已排除了氏族内部血亲间的性关系,实行氏族之间的男女群婚,当然要比近亲通婚的血缘婚姻制进步得多。 婚姻制度的变化是中国姓氏制度产生的直接原因,因为族外婚必须以至少有两个不同血缘关系的氏族同时并存为前提,而原始氏族之间区别不同血缘关系的唯一因素,就是他们源自不同的始祖先。 https://www.meipian.cn/12mhxfb3
7.家族血缘关系在中国文化中的作用如果说,对男子而言,血缘关系重于婚姻关系,那么对女子而言,婚姻关系则重于血缘关系。在五服关系中,与死者最近、葬服最重的,不是其儿女,而是其妻子。由此可见,如果说权力金字塔体现了“有父子然后有君臣,有君臣然后有上下”的权力关系;那么五服关系网则体现了“有男女然后有夫妇,有夫妇然后有父子”的社会关系。http://www.krilta.sdu.edu.cn/info/1020/1934.htm
8.标准答案下列关于婚姻和家庭的关系的说法,正确的是()A.婚姻标准答案: ABCD 婚姻是指由法律所确认的男女两性的结合以及由此而产生的夫妻关系。家庭是指在婚姻关系、血缘关系或收养关系基础上产生的,由亲属之间所构成的社会生活单位。婚姻是家庭产生的重要前提,家庭又是缔结婚姻的必然结果,婚姻的成功体现为家庭的幸福,家庭的美满又彰显婚姻的意义。 https://m.rwtext.com/2EY5ONEM.html
9.第一节婚姻法婚姻是一定社会制度所确认的男女两性结合的一种社会形式。婚姻关系是男女两性基于婚姻成立、存续而发生于夫妻双方之间的权利义务关系。 家庭是基于婚姻关系、血缘关系、收养关系而发生的,由一定范围内的亲属组成的共同生活单 位。家庭关系是基于婚姻、血缘、收养而产生于家庭成员之间的权利义务关系。包括夫妻关系、父母子女http://www.360doc.com/content/23/1128/18/55518189_1105606682.shtml
10.婚姻家庭编的解释(一)第四十条释义李晓娟婚姻律师一般情况下,夫妻双方在婚姻关系存续期间,未经男方同意,女方擅自采用他人精子人工授精生育子女的,那么所生子女与丈夫既无血缘关系又非其意愿,男方有权否认同该子女的亲子关系,拒绝履行抚养义务。但不可一概而论,如下情形:未经一方同意生育的人工授精子女也可能成为夫妻双方的婚生子女,即夫妻婚姻关系存续期间,女方未经男方https://lawyers.66law.cn/s2229786730900_i1193228.aspx
11.精品收藏2019考研政治:思修法基道德法律高频汇总2.恋爱、婚姻家庭中的道德规范 (1)恋爱中的道德规范 尊重人格平等;自觉承担责任;文明相亲相爱。 (2)婚姻家庭生活中的道德规范 婚姻是指由法律所确认的男女两性的结合以及由此而产生的夫妻关系。家庭是指婚姻关系、血缘关系或收养关系基础上产生的,亲属之间所构成的社会生活单位。婚姻是家庭产生的重要前提,家庭又是缔https://www.wangxiao.cn/ky/2693651.html
12.2024年继承权因婚姻关系变更如何变动?头条新闻在我国的继承法体系中,遗产继承权主要基于血缘关系、婚姻关系或遗嘱指定。再婚后,原配偶并不自动享有对对方遗产的继承权,但这并不绝对。 1. 如果离婚后未再婚的一方并未立下遗嘱,则其遗产按照法定继承处理。根据《中华人民共和国继承法》第十条的规定,前妻或前夫不属于法定继承人的范围,因此在这种情况下,原配偶无https://www.maxlaw.cn/n/20240312/11019190946763.shtml