第五要素|大模型时代,数据治理与AI相互依存形成闭环未来2%澎湃新闻

·大模型和数据治理是一个闭环,不断迭代,两者互相依存。目前没有比大模型更加高效的数据分析和挖掘方法。反之,数据治理工作结束后,可以将这些更好更多的数据喂给大模型。

·“我们经常讲‘人与数据’的概念,即所有的数据都是人产生的,所有的问题也是人造成的,如果不把人的关系理顺,数据是管理不好的。所以这个挑战是之前的挑战、现在的挑战,也是未来的挑战。”

数据要素产业化系列论坛第一期“数据治理论坛”现场。

光明食品集团数据治理高级经理雷晓川则从自己的经验出发总结称,数据治理单纯依靠技术无法解决,其中管理和沟通占据70%以上的工作,特别是传统行业大型集团型企业,IT系统差异大,业务和组织复杂度高,需要数据治理人员加倍耐心与各层级各条线沟通,深入理解业务,以布道者和服务者的姿态逐步推进数据治理的深入。

香港科技大学潘奥托工程学教授及计算机科学与工程讲座教授周晓方在其主旨演讲中指出:“AI大模型能够赋能数据质量管理。虽然大模型本质上是一个统计模型,很容易产生不稳定性,数据库要求可控和可解释,但这个矛盾可以通过知识图谱和向量数据库来缓解。”

中国人民大学数据工程与知识工程教育部重点实验室教授范举则提到:“数据融合与清洗是数据有效利用全流程中的核心任务之一,也是未来大模型(LLM)可以赋能的一个重要领域。”数据融合与清洗是指将多源多模态数据整合为统一的数据视图,并发现与修复数据中可能的错误(如数据不一致、缺失值等),从而提升数据的整体质量,更好地释放数据的价值。

上海市数据科学重点实验室主任、复旦大学教授肖仰华随后主持圆桌环节,专家学者和企业家更为深入地讨论了数据治理当前面临的挑战,如何应对这些挑战,以及大模型在其中可能发挥的作用。

以下为圆桌实录,有部分删减。

肖仰华:在数字经济和大模型快速发展的背景下,数据治理新的挑战有哪些?

阿里数据流通与治理平台算法总监及负责人刘洪:在我和我的团队以及业界的一些朋友交流后,我可能更悲观地认为,数据治理还是非常传统。为什么传统?因为不重视,而不重视的原因是我们对数据治理的认知是有问题的,大家还是把数据治理等同于传统的数据清洗。在这样的认知下,在公司里除非被迫,如老板要求服务器成本必须降,才会有人去做这件事。这就变成了一种硬性指标,缺乏原生的驱动力,而是被动去干“脏话累活”。如果把数据治理等价于脏活累活,那这个领域怎么可能有很好的发展呢?

两年前我们在思考,未来的数据治理应该是什么样的。我们当时就提出来数据治理要安全合规、清晰透明,公平多样、高质高效,这四个最为根本。于是你会发现,任何一个领域只要抓到最根本的这四点,它永远都有很强的技术力,因为它有很多问题需要解决。当你把这个事情想清楚,数据治理就不可能是一种很低价值的事情。

StartDT(奇点云)合伙人、资深战略咨询专家何夕:数据治理可以分四个层级来看,第一层是战略问题,第二层是结构问题,第三层是机制问题,最后才是技术问题。

首先是战略问题。现在大部分公司其实是以物质生产为基础,即公司的所有框架都以物质生产消费为基础,比如车企基本就是研发、制造、流通、销售。互联网公司构建的体系是以数据生产和消费为基础,比如字节跳动的整个商业模式以算法为中心,从设计算法,收集数据,迭代算法,最终产出业绩,从而将数据生成和消费提升到战略级部署。目前当很多企业的战略开始从以商品为中心转到以客户为中心时,其面对的第一个战略问题即——要采集什么数据,要产出什么样的结果。

第二层是结构问题,及业务、技术和组织的匹配性问题。在企业,如果不能让业务成绩变成可衡量的内容,不管治理得多好,企业也很难认可你的工作。所以在企业,大部分数据治理的项目都是以给高管做驾驶舱为开端,这是一个可见的、典型的代表。其次技术上存在一个碎片化供给和碎片化消费的问题。供给需求,即在对接系统时,比如SAP(企业管理解决方案的软件),每一家企业存在的问题都不一样,前端对接数据源时也可能千奇百怪。因为在中国有很多标准,所以很难对接数据,每一家都有各种谈判和商务性的问题。

第三层是机制问题,即建立什么样的标准和流程,用什么方式去实施管理动作的问题;第四层是技术问题,即平台需要具备什么样的功能,需要在平台上沉淀。基本上数据治理的复杂性就在于层层都有问题,层层都要解决,任何一层解决不好都会导致最后没有产出。目前国内数据治理做的不好还是因为“不够痛”,第一是数据量太少,根据以往经验,一般公司只要数据用起来,数据的增长速度在一年涨一倍、两年涨三倍、三年涨七到九倍的范围。一旦数据开始增长,会出现存储费用高的问题,这时企业会意识到必须要做治理、降成本、做运维。另外,数据治理还有一大挑战,是任期问题,即数据治理工作能否被长期坚持。

我们律所作为上海数据交易所的合规服务商,参与部分数据产品挂牌的合规审核服务,在我看来,从法律角度也存在一些阻碍数据市场要素发挥作用的瓶颈,下面我给大家简单汇报一下。

第一类,企业数据的合规流通利用,即企业运营过程中产生的数据。这些数据如果做合规性检查,只需判断有没有核心数据和重要数据,如果没有这样的数据就可以进行交易,因此来说,企业数据的流通利用法律障碍相对较少。但法律上的障碍少并不代表企业的交易意愿高,大部分企业不愿意交易自己的数据。仔细研究在上海数据交易所里完成交易数据的主体,他们大部分交易的不是自己的数据,而是自己的能力。因为目前企业最大的顾虑在于,数据是其核心竞争力的一个表现,如果将核心竞争力拿出来交易,它们就失去了竞争力,本质上是担心目前的交易环境无法保证数据交易后的安全。

全球数据要素50人论坛专家、DAMA数据管理专家马欢:我觉得数据治理的挑战不是新形势下才出现的,而是一直以来都存在的。虽然数据治理经常会被认为有点基础,但其实治理这个词本身是个非常高级的词。治理和管理这两个词在国内外都有层次上的差异。治理本身属于管理的一部分,但我们现在把治理这个词用得太频繁且用错了语义,把一些基层管理数据的工作也叫做治理。所以听的人也云里雾里,好像数据治理工作感觉很高级,但实际做的事情又很基础。所以我觉得是对治理这个概念没有理解清楚,首先我们需要把这个词的概念扭转过来才能更名正言顺地谈论这件事。

另外,刚才提到互联网公司的成本治理,为什么他们会做这样的成本治理,因为其存储的数据多、各种备份多,磁盘量大,如果数据用的次数多了,成本就会翻倍,所以要求降低成本,这个属于业务上的驱动。当真的有这样业务上的驱动时,才是真的在做数据治理。如果没有业务驱动,大家只是在耍花枪打花架子,有业务驱动了,需要降本增效的业务要求,才真的是治理和业务并行。这也是我们强调的一个理念,数据治理不是单独的一件事情。

第二是数据治理人才的培养体系。数据治理其实是一个很综合的问题,涉及到技术、管理、经济、法律等一系列学科知识,但是高校各个学科的培养体系是独立的。目前高校也在提倡交叉培养、交叉融合,而数据治理这个方向本身也值得做一个交叉方向,为企业未来输送更多的数据治理综合性人才。

刘洪:目前虽然GPT-4(OpenAI研发的大语言模型)的表现已经惊艳世界,但它还有很多能力没有被解锁。大家虽然都知道大模型其实就是一种编码器,把世界的知识编码到一个信息体中,但如果想把如此庞大的东西释放出来,实际上我们也不完全知道怎么去解码,所以才出现各种指令微调、示例学习等方法。但很奇怪的一件事是,大家更多专注在怎么建大模型,却很少聊怎么去用,或者说怎么解码、利用这些大模型的能力,我认为这是一个有问题的地方。甚至大家会觉得用一些方法从大模型里得到一些非常好的prompt(提示词)从而对模型效果带来极大的提升,这样的工作只是一种trick(雕虫小技),这种观念我觉得是有问题的。大模型做出来就是这么一个信息体,并不需要满世界的人都去做大模型,就应该百花齐放地让大家从中解码出不一样的东西,比如生成prompt用于自己的下游应用,生成更高质量的示例等。

所以我觉得首先第一个观念的转变是从编码到解码。目前学术界也开始从大模型的建设转向大模型的应用或解码方面,我觉得这样会发现更多有价值、可以直接应用的内容。因为哪怕能做出一个千亿万亿参数的大模型,对一个小公司来说,把这个方法传给它,它也是做不起来的,但“如何从GPT-4中解码出你想要的东西”这个问题的答案对它的帮助远大于前者。可是现在学术界聊这个问题的场景不多,但这个东西对企业的价值又是极大的。

潘岩:在实践中我们发现大模型可以产出一些让人惊喜的东西,比如一些认知或超过你认知的一些观点,但是对于客户来说它还是不足的。所以我理解如果用大模型服务数据治理,关键在于能不能让大模型理解我们自己的客户。因为企业数据是在企业自己的业务过程中产出的,它包含了这个业务背后的知识和一些约定俗成的东西,这些大模型未必能够理解。所以我觉得大模型其实在世界知识需求较多的任务上表现较好,但在一些领域知识需求较多的任务上表现较差,这也是为什么我们要做一些额外工作。但这也涉及到另外一个问题,我们在做领域内的监督微调时,本身也涉及到数据配比、数据治理这些问题,所以这像是一个循环。其实在大模型出现之前,吴恩达(斯坦福大学教授)也提出过一个概念“DCAI”,即以数据为中心的人工智能,他的视角不是研发一个很牛的模型架构,而是从数据出发找到模型的问题,或者研究一些样本的配比。我觉得这和现在的情况有些异曲同工的地方,可以结合起来看,可能是未来的一个方向。

李直旭:首先,大模型是最典型的以数据为中心的人工智能系统。从GPT-1到GPT-4在基本预训练技术层面并没有特别大的变化,但是数据类型和数据量却显著剧增。所以大模型是一个以数据为中心的人工智能思想的集大成者。其次,大模型和数据治理是一个闭环,是一个不断迭代的过程。目前没有比大模型更加高效的数据分析和挖掘方法,虽然大模型现在有缺陷,但是通过不断提供更高质量的数据,可以让大模型成为行业专家,更好地帮助人去理解行业数据,做好行业数据的治理。反之,数据治理工作结束后,可以将这些更好更多的数据喂给大模型。所以人工智能和数据治理是互相依存的关系。

肖仰华:数据治理不是简单的技术问题,和各种生产要素、法律法规、标准制定、社会责任、国际合作、跨境流通等都有关联。如何理解数据价值,以及制度设计和数据治理的关系?

王昉:企业更关心数据价值。我们最开始提供给用户的标准化服务是SaaS(软件运营服务)服务和人工报告服务,数据会作为基础来辅助报告生成和图表分析。目前越来越多的政企客户需要非常精准的数据,所以需要我们对数据进行处理再提供给客户。比如一些政府机构的数据无法公开,当我们把一些开源数据推给他们后,他们会结合自己的数据进行整合,然后放在服务器上形成一个综合的数据中台,这样就可以为实际应用场景做一些更落地的服务,比如指挥大屏、数据流转平台等。这对于数据治理的要求也会更高,比如有些单位需要其辖区内的数据,但“辖区”的定义很广泛,是数据源属于辖区、事件属于辖区,还是微博定位辖区,所以这对数据治理的精准度有更高的要求。

何夕:关于数据价值有两个维度,第一是算成本,在企业内部来说,数据治理被认为“脏乱差”是因为产出不可见,无法算清楚投入和产出。当然这个产出不仅仅是经济性的产出,现在不管是学界还是业界都没办法把这个问题解决得很好,我们在实践中做的比较多的是建立一套质量指标和健康度指标,通过治理前后的对比,成熟度的提升,让数据治理效果可见化。目前数据治理做的比较好的企业都有一个分析师团队,专门负责把数据平台里的所有元素做分析,看整个平台可改进的空间在哪里,分析投入产出比。

第二,数据有个很重要的特性——没有用之前不知道它有没有用,这需要一个小的使用过程即POC(概念验证,是对某些想法较短而不完整的实现,以证明其可行性)。但目前存在一个问题,公共交易背景下,谁来出POC的费用?这涉及到很多投入问题,同样也涉及到数据治理问题。比如有些企业在做数据变现时,它的治理维度并不是其客户所需要的维度,需要另一个方式的治理,但问题在于这个治理的费用由谁出,而这些公共投入又难以算清楚。

本期数据治理论坛由上海市数据科学重点实验室、中国数据管理协会(DAMAChina)主办,澳汰尔工程软件(上海)有限公司、澎湃新闻以及DataFun社区提供支持。出品人分别为上海市数据科学重点实验室知识工场执行副主任、复旦大学青年研究员李直旭,全球数据要素50人论坛专家、DAMA数据管理专家马欢,上海市数据科学重点实验室主任、复旦大学教授肖仰华。

THE END
1.数据清洗的重要性与技巧:提升大数据分析的准确性和效率提升模型性能:在机器学习和数据分析领域,模型的性能在很大程度上依赖于输入数据的质量。数据清洗包括特征选择和特征工程,这些步骤可以帮助模型更好地识别数据中的模式,从而提高模型的预测能力。 节省时间和资源:在数据分析的早期阶段进行数据清洗可以避免在后续阶段进行昂贵的修正。自动化数据清洗流程可以进一步节省时间和资https://blog.csdn.net/Shaidou_Data/article/details/144110971
2.原创解析:大数据分析中的数据清洗与特征工程实践精髓开发网随着大数据时代的到来,数据分析已经成为企业决策的重要依据。而在数据分析的过程中,数据清洗和特征工程是两个至关重要的环节。本文将深入探讨这两个环节的实践技巧,帮助读者更好地理解和应用大数据分析。 一、数据清洗 数据清洗是数据分析的第一步,其目的是为了去除数据中的噪声和异常值,以保证分析结果的准确性。在实https://www.0370zz.com/html/biancheng/zx/2024-11-27/398359.html
3.数据清洗的重要性及步骤在当今数据驱动的时代,数据已经成为企业成功运营的关键因素之一。然而,由于各种原因,如数据输入错误、数据重复、数据缺失等,数据质量往往存在问题。为了确保数据的准确性和完整性,数据清洗成为了一项至关重要的任务。二、数据清洗的重要性数据清洗的重要性主要体现在以下几个方面:1. 提高数据质量:通过删除重复、错误或不https://aiqicha.baidu.com/qifuknowledge/detail?id=10201303570
4.深度学习数据清洗的目的mob649e81673fa5的技术博客深度学习的成功依赖于高质量的数据。在深度学习之前,数据清洗是一个至关重要的步骤。本文将详细介绍数据清洗的目的,流程及实现步骤,帮助初学者更好地理解这一过程。 数据清洗目的 数据清洗的主要目的是去除噪声和不一致的数据,确保输入到深度学习模型中的数据是准确和高效的。具体包括: https://blog.51cto.com/u_16175512/12697067
5.独家大数据分析中数据清洗与特征工程实战技巧云计算网通过以上介绍的数据清洗和特征工程实践技巧,相信读者已经对这两个环节有了更深入的了解。在实际应用中,需要根据具体的数据情况和业务背景,灵活运用这些技巧,以提高数据分析的准确性和可靠性。 (编辑:云计算网_韶关站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您https://www.0751zz.com/html/biancheng/zx/2024-11-18/385089.html
6.数据清洗的主要应用领域有哪些?数据清洗的主要应用领域有哪些?A、数据仓库B、数据挖掘C、全面数据质量管理正确答案:数据仓库|数据挖掘|全面数据质量管理 点击查看答案进入小程序搜题你可能喜欢患者男,37岁。因腿部刺伤后出现全身肌肉强直性收缩,阵发性痉孪,诊断为破伤风。与控制痉挛无关的护理措施是() 点击查看答案进入小程序搜题https://m.ppkao.com/wangke/daan/78741029db7e435cabd2f2dd7a4679a1
7.什么是数据转换数据转换简介数据转换的优势以及应用嘲数据转换是指将数据从一种格式、结构或类型转换为另一种格式、结构或类型的过程。数据转换通常需要进行数据清洗、数据映射、数据合并、数据拆分等操作,以实现数据的正确性和一致性。 数据转换可以应用于多种场景,例如数据集成、数据迁移、数据分析等。在数据集成中,不同数据源之间的数据格式和结构可能存在差异,需要进行https://cloud.tencent.com/developer/techpedia/1736
8.掘金数字上的中国:ChatGPT中国产业链手册科技训练过程包括两个主要步骤——预训练(Pre-Training)和微调(Fine-Tuning):在预训练阶段,AI模型在大规模的通用文本数据上进行训练,学习语言的基本结构和各种常识;之后在微调阶段,模型在更小、更特定的数据集上进行进一步的训练,微调可以让模型更好地理解和生成这个特定领域的语言,从而更好地完成特定的任务。https://www.ceconline.com/it/ma/8800127917/01/
9.内容数据范文12篇(全文)随着互联网、云计算、社交网络等新兴IT技术的广泛应用以及智能手机、平板电脑的普及, 社会信息呈现了海量数据的爆发式增长。大数据已成为近几年最热门的技术话题, 正为IT业、互联网业、传媒业、咨询业等行业带来越来越深远的影响, 其价值已逐步体现。国内传媒业也热切关注这https://www.99xueshu.com/w/ikeye1u5qrlv.html
10.悄悄学习Doris,偷偷惊艳所有人ApacheDoris四万字小总结2008 年的百度统计服务大约有 50-60 台 MySQL,但是业务每天有 3000 万+条增量数据,由于 MySQL 的存储和查询性能无法满足需求,对存量数据的支撑已经到了极限,问题频出,万般无奈之下百度统计甚至关闭了新增用户的功能,以减少数据量的增加。 Doris1 由于当时时间紧、任务重,所以设计、实现的时候只为了能够满足凤巢的业https://xie.infoq.cn/article/b2250c2d887f69d8519a3f50b
11.碑林教育·“名师”+名师有约——碑林区中小学信息技术孙波在数据可视化表达时,经常有太多的指标想要通过一个信息图完成,这里面就出现一个问题,这些维度的所有数据真的需要一张图表现吗?表现出来的信息,其他人能看的明白吗?所以数据降维,化繁为简是数据可视化表达的首要工作,其次是数据清洗,去掉所谓的噪音,留下有价值的信息,有时抛弃一些数据会使可视化效果更美丽。最后经过https://www.meipian.cn/2t2njz3a
12.有哪些常用的数据清洗工具和软件?在数据科学和分析领域,数据清洗是一个至关重要的步骤。它涉及将原始数据转化为可用于分析的干净和一致的格式。为了完成这个任务,有许多常用的数据清洗工具和软件可供使用。下面是其中一些常见的数据清洗工具和软件。 Excel:Excel 是最常见的数据处理工具之一。它提供了广泛的功能和强大的计算能力,可以进行数据筛选、去重https://www.cda.cn/view/203720.html
13.数据清洗的方法包括哪些?数据清洗常见六大问题及处理方法!由于主观因素的影响,我们有时难以判断数据的价值,因此在进行数据清洗时,必须具备一定的专业知识和数据领域的实际经验。以下是处理无用数据的建议: 1.理解业务需求和数据特点 首先需要充分理解业务需求和数据特点,明确需要分析的的数据内容和目标输出结果。在此基础上,筛选出与业务需求不相关或无用的数据。 https://www.fanruan.com/bw/sjqxcjldwt
14.大数据分析与应用1+X初级认证题库及答案大数据分析与应用1+X初级认证题库及答案.docx,大数据分析与应用1+X初级认证题库 题干:.数据清洗是ETL过程中一个单独的步骤,发生在数据抽取完成之后,数据加载之前。 对错(正确) 题干:.阿里云Quick BI服务支持全局数据监控和数据化运营,在BI层面为客户直接解决业务场景https://m.book118.com/html/2022/0927/8032117116004142.shtm
15.网站数据分析(6)——缺失值异常值和重复值的处理在数据清洗过程在数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集进行丢弃、填充、替换、去重等操作,实现去除异 常、纠正错误、补足缺失的目的。 一、数据列缺失的种处理方法 数据缺失分为两种: 一是行记录的缺失,这种情况又称数据记录丢失; https://juejin.cn/post/6844903905084571656