·大模型和数据治理是一个闭环,不断迭代,两者互相依存。目前没有比大模型更加高效的数据分析和挖掘方法。反之,数据治理工作结束后,可以将这些更好更多的数据喂给大模型。
·“我们经常讲‘人与数据’的概念,即所有的数据都是人产生的,所有的问题也是人造成的,如果不把人的关系理顺,数据是管理不好的。所以这个挑战是之前的挑战、现在的挑战,也是未来的挑战。”
数据要素产业化系列论坛第一期“数据治理论坛”现场。
光明食品集团数据治理高级经理雷晓川则从自己的经验出发总结称,数据治理单纯依靠技术无法解决,其中管理和沟通占据70%以上的工作,特别是传统行业大型集团型企业,IT系统差异大,业务和组织复杂度高,需要数据治理人员加倍耐心与各层级各条线沟通,深入理解业务,以布道者和服务者的姿态逐步推进数据治理的深入。
香港科技大学潘奥托工程学教授及计算机科学与工程讲座教授周晓方在其主旨演讲中指出:“AI大模型能够赋能数据质量管理。虽然大模型本质上是一个统计模型,很容易产生不稳定性,数据库要求可控和可解释,但这个矛盾可以通过知识图谱和向量数据库来缓解。”
中国人民大学数据工程与知识工程教育部重点实验室教授范举则提到:“数据融合与清洗是数据有效利用全流程中的核心任务之一,也是未来大模型(LLM)可以赋能的一个重要领域。”数据融合与清洗是指将多源多模态数据整合为统一的数据视图,并发现与修复数据中可能的错误(如数据不一致、缺失值等),从而提升数据的整体质量,更好地释放数据的价值。
上海市数据科学重点实验室主任、复旦大学教授肖仰华随后主持圆桌环节,专家学者和企业家更为深入地讨论了数据治理当前面临的挑战,如何应对这些挑战,以及大模型在其中可能发挥的作用。
以下为圆桌实录,有部分删减。
肖仰华:在数字经济和大模型快速发展的背景下,数据治理新的挑战有哪些?
阿里数据流通与治理平台算法总监及负责人刘洪:在我和我的团队以及业界的一些朋友交流后,我可能更悲观地认为,数据治理还是非常传统。为什么传统?因为不重视,而不重视的原因是我们对数据治理的认知是有问题的,大家还是把数据治理等同于传统的数据清洗。在这样的认知下,在公司里除非被迫,如老板要求服务器成本必须降,才会有人去做这件事。这就变成了一种硬性指标,缺乏原生的驱动力,而是被动去干“脏话累活”。如果把数据治理等价于脏活累活,那这个领域怎么可能有很好的发展呢?
两年前我们在思考,未来的数据治理应该是什么样的。我们当时就提出来数据治理要安全合规、清晰透明,公平多样、高质高效,这四个最为根本。于是你会发现,任何一个领域只要抓到最根本的这四点,它永远都有很强的技术力,因为它有很多问题需要解决。当你把这个事情想清楚,数据治理就不可能是一种很低价值的事情。
StartDT(奇点云)合伙人、资深战略咨询专家何夕:数据治理可以分四个层级来看,第一层是战略问题,第二层是结构问题,第三层是机制问题,最后才是技术问题。
首先是战略问题。现在大部分公司其实是以物质生产为基础,即公司的所有框架都以物质生产消费为基础,比如车企基本就是研发、制造、流通、销售。互联网公司构建的体系是以数据生产和消费为基础,比如字节跳动的整个商业模式以算法为中心,从设计算法,收集数据,迭代算法,最终产出业绩,从而将数据生成和消费提升到战略级部署。目前当很多企业的战略开始从以商品为中心转到以客户为中心时,其面对的第一个战略问题即——要采集什么数据,要产出什么样的结果。
第二层是结构问题,及业务、技术和组织的匹配性问题。在企业,如果不能让业务成绩变成可衡量的内容,不管治理得多好,企业也很难认可你的工作。所以在企业,大部分数据治理的项目都是以给高管做驾驶舱为开端,这是一个可见的、典型的代表。其次技术上存在一个碎片化供给和碎片化消费的问题。供给需求,即在对接系统时,比如SAP(企业管理解决方案的软件),每一家企业存在的问题都不一样,前端对接数据源时也可能千奇百怪。因为在中国有很多标准,所以很难对接数据,每一家都有各种谈判和商务性的问题。
第三层是机制问题,即建立什么样的标准和流程,用什么方式去实施管理动作的问题;第四层是技术问题,即平台需要具备什么样的功能,需要在平台上沉淀。基本上数据治理的复杂性就在于层层都有问题,层层都要解决,任何一层解决不好都会导致最后没有产出。目前国内数据治理做的不好还是因为“不够痛”,第一是数据量太少,根据以往经验,一般公司只要数据用起来,数据的增长速度在一年涨一倍、两年涨三倍、三年涨七到九倍的范围。一旦数据开始增长,会出现存储费用高的问题,这时企业会意识到必须要做治理、降成本、做运维。另外,数据治理还有一大挑战,是任期问题,即数据治理工作能否被长期坚持。
我们律所作为上海数据交易所的合规服务商,参与部分数据产品挂牌的合规审核服务,在我看来,从法律角度也存在一些阻碍数据市场要素发挥作用的瓶颈,下面我给大家简单汇报一下。
第一类,企业数据的合规流通利用,即企业运营过程中产生的数据。这些数据如果做合规性检查,只需判断有没有核心数据和重要数据,如果没有这样的数据就可以进行交易,因此来说,企业数据的流通利用法律障碍相对较少。但法律上的障碍少并不代表企业的交易意愿高,大部分企业不愿意交易自己的数据。仔细研究在上海数据交易所里完成交易数据的主体,他们大部分交易的不是自己的数据,而是自己的能力。因为目前企业最大的顾虑在于,数据是其核心竞争力的一个表现,如果将核心竞争力拿出来交易,它们就失去了竞争力,本质上是担心目前的交易环境无法保证数据交易后的安全。
全球数据要素50人论坛专家、DAMA数据管理专家马欢:我觉得数据治理的挑战不是新形势下才出现的,而是一直以来都存在的。虽然数据治理经常会被认为有点基础,但其实治理这个词本身是个非常高级的词。治理和管理这两个词在国内外都有层次上的差异。治理本身属于管理的一部分,但我们现在把治理这个词用得太频繁且用错了语义,把一些基层管理数据的工作也叫做治理。所以听的人也云里雾里,好像数据治理工作感觉很高级,但实际做的事情又很基础。所以我觉得是对治理这个概念没有理解清楚,首先我们需要把这个词的概念扭转过来才能更名正言顺地谈论这件事。
另外,刚才提到互联网公司的成本治理,为什么他们会做这样的成本治理,因为其存储的数据多、各种备份多,磁盘量大,如果数据用的次数多了,成本就会翻倍,所以要求降低成本,这个属于业务上的驱动。当真的有这样业务上的驱动时,才是真的在做数据治理。如果没有业务驱动,大家只是在耍花枪打花架子,有业务驱动了,需要降本增效的业务要求,才真的是治理和业务并行。这也是我们强调的一个理念,数据治理不是单独的一件事情。
第二是数据治理人才的培养体系。数据治理其实是一个很综合的问题,涉及到技术、管理、经济、法律等一系列学科知识,但是高校各个学科的培养体系是独立的。目前高校也在提倡交叉培养、交叉融合,而数据治理这个方向本身也值得做一个交叉方向,为企业未来输送更多的数据治理综合性人才。
刘洪:目前虽然GPT-4(OpenAI研发的大语言模型)的表现已经惊艳世界,但它还有很多能力没有被解锁。大家虽然都知道大模型其实就是一种编码器,把世界的知识编码到一个信息体中,但如果想把如此庞大的东西释放出来,实际上我们也不完全知道怎么去解码,所以才出现各种指令微调、示例学习等方法。但很奇怪的一件事是,大家更多专注在怎么建大模型,却很少聊怎么去用,或者说怎么解码、利用这些大模型的能力,我认为这是一个有问题的地方。甚至大家会觉得用一些方法从大模型里得到一些非常好的prompt(提示词)从而对模型效果带来极大的提升,这样的工作只是一种trick(雕虫小技),这种观念我觉得是有问题的。大模型做出来就是这么一个信息体,并不需要满世界的人都去做大模型,就应该百花齐放地让大家从中解码出不一样的东西,比如生成prompt用于自己的下游应用,生成更高质量的示例等。
所以我觉得首先第一个观念的转变是从编码到解码。目前学术界也开始从大模型的建设转向大模型的应用或解码方面,我觉得这样会发现更多有价值、可以直接应用的内容。因为哪怕能做出一个千亿万亿参数的大模型,对一个小公司来说,把这个方法传给它,它也是做不起来的,但“如何从GPT-4中解码出你想要的东西”这个问题的答案对它的帮助远大于前者。可是现在学术界聊这个问题的场景不多,但这个东西对企业的价值又是极大的。
潘岩:在实践中我们发现大模型可以产出一些让人惊喜的东西,比如一些认知或超过你认知的一些观点,但是对于客户来说它还是不足的。所以我理解如果用大模型服务数据治理,关键在于能不能让大模型理解我们自己的客户。因为企业数据是在企业自己的业务过程中产出的,它包含了这个业务背后的知识和一些约定俗成的东西,这些大模型未必能够理解。所以我觉得大模型其实在世界知识需求较多的任务上表现较好,但在一些领域知识需求较多的任务上表现较差,这也是为什么我们要做一些额外工作。但这也涉及到另外一个问题,我们在做领域内的监督微调时,本身也涉及到数据配比、数据治理这些问题,所以这像是一个循环。其实在大模型出现之前,吴恩达(斯坦福大学教授)也提出过一个概念“DCAI”,即以数据为中心的人工智能,他的视角不是研发一个很牛的模型架构,而是从数据出发找到模型的问题,或者研究一些样本的配比。我觉得这和现在的情况有些异曲同工的地方,可以结合起来看,可能是未来的一个方向。
李直旭:首先,大模型是最典型的以数据为中心的人工智能系统。从GPT-1到GPT-4在基本预训练技术层面并没有特别大的变化,但是数据类型和数据量却显著剧增。所以大模型是一个以数据为中心的人工智能思想的集大成者。其次,大模型和数据治理是一个闭环,是一个不断迭代的过程。目前没有比大模型更加高效的数据分析和挖掘方法,虽然大模型现在有缺陷,但是通过不断提供更高质量的数据,可以让大模型成为行业专家,更好地帮助人去理解行业数据,做好行业数据的治理。反之,数据治理工作结束后,可以将这些更好更多的数据喂给大模型。所以人工智能和数据治理是互相依存的关系。
肖仰华:数据治理不是简单的技术问题,和各种生产要素、法律法规、标准制定、社会责任、国际合作、跨境流通等都有关联。如何理解数据价值,以及制度设计和数据治理的关系?
王昉:企业更关心数据价值。我们最开始提供给用户的标准化服务是SaaS(软件运营服务)服务和人工报告服务,数据会作为基础来辅助报告生成和图表分析。目前越来越多的政企客户需要非常精准的数据,所以需要我们对数据进行处理再提供给客户。比如一些政府机构的数据无法公开,当我们把一些开源数据推给他们后,他们会结合自己的数据进行整合,然后放在服务器上形成一个综合的数据中台,这样就可以为实际应用场景做一些更落地的服务,比如指挥大屏、数据流转平台等。这对于数据治理的要求也会更高,比如有些单位需要其辖区内的数据,但“辖区”的定义很广泛,是数据源属于辖区、事件属于辖区,还是微博定位辖区,所以这对数据治理的精准度有更高的要求。
何夕:关于数据价值有两个维度,第一是算成本,在企业内部来说,数据治理被认为“脏乱差”是因为产出不可见,无法算清楚投入和产出。当然这个产出不仅仅是经济性的产出,现在不管是学界还是业界都没办法把这个问题解决得很好,我们在实践中做的比较多的是建立一套质量指标和健康度指标,通过治理前后的对比,成熟度的提升,让数据治理效果可见化。目前数据治理做的比较好的企业都有一个分析师团队,专门负责把数据平台里的所有元素做分析,看整个平台可改进的空间在哪里,分析投入产出比。
第二,数据有个很重要的特性——没有用之前不知道它有没有用,这需要一个小的使用过程即POC(概念验证,是对某些想法较短而不完整的实现,以证明其可行性)。但目前存在一个问题,公共交易背景下,谁来出POC的费用?这涉及到很多投入问题,同样也涉及到数据治理问题。比如有些企业在做数据变现时,它的治理维度并不是其客户所需要的维度,需要另一个方式的治理,但问题在于这个治理的费用由谁出,而这些公共投入又难以算清楚。
本期数据治理论坛由上海市数据科学重点实验室、中国数据管理协会(DAMAChina)主办,澳汰尔工程软件(上海)有限公司、澎湃新闻以及DataFun社区提供支持。出品人分别为上海市数据科学重点实验室知识工场执行副主任、复旦大学青年研究员李直旭,全球数据要素50人论坛专家、DAMA数据管理专家马欢,上海市数据科学重点实验室主任、复旦大学教授肖仰华。