图计算,下一个科技前沿?极客公园

这里的图是「graph」,而不是图片「image」,它自于数学中的图论(graphtheory)。图计算是研究人类世界的事物和事物之间的关系,对其进行描述、刻画、分析和计算的一门技术。

Gartner在《2021年十大数据和分析技术趋势》报告中预测,到2025年图技术将应用于80%的数据和分析创新。图计算技术在金融、制造、能源等领域有着巨大的应用价值和前景,甚至在前沿的脑科学研究中,也能看到它的身影。

目前,图计算已经成为国内外科技巨头们竞争的「新风口」。中国工程院院士、清华大学计算机科学与技术系教授郑纬民强调:「现在布局高性能图计算恰逢其时,就相当于抓住了未来大数据、人工智能和高性能计算产业发展的牛鼻子,其影响不可估量。」

5月30日,在极客公园「Rebuild」视频直播中,清华大学计算机系教授、蚂蚁集团图计算技术负责人陈文光,和我们聊了聊图计算。在他看来,图计算不仅仅只是一个技术,更是一种理解世界新的方式。

FounderPark:图计算里面的「图」指的是什么?是我们日常生活中的图片吗?

陈文光:从英文上看,更容易分清楚一些。图片在英文中是「image」,图形叫「graphics」。图计算对应的英文是指「GraphProcessing」,这里的图其实来自于数学中的图论(graphtheory)。

还有比如说路网,它用图怎么表示呢?把地点特别是交叉口作为节点,然后把路本身当做一条边。这时边还可以有属性,比如说距离和宽窄等。

可以看到图数据可以很好地描述事物之间的联系,包括描述联系的方向和属性。而且特别要注意的是,这种图可能非常大。比如说社交网络账号之间构成的图,它可能是有几亿节点,几百亿边的巨大规模。

FounderPark:你之前曾提到「图是认识世界的一种新的方式」,那么之前我们认识世界的方式是什么?图作为一种认识世界的方式,先进在哪里?

陈文光:在大学数据结构的课上,大家开始学的链表或者是线性表,基本上是个一维结构。然后又学到了树(tree),树的应用非常广。比如说广播树,我们今天的直播,一个视频流要给成千上万的人去发,并不是一个一个去发,而是先发一些点,再通过他们再发另外一些,这样一路发下去。树是非常有用的数据结构,但它有一个限制,就是它上面不能有环,如果有环的话就不能叫树,而图可以有环。

从数据结构的演进上看,图是对事物之间关系的一种原生的(native)表达,它用来表示关联的时候,它的描述能力要比链表、树这些数据结构要强得多。所以说当用图来认识世界,特别是用来认识关联的时候,它是一种更加直接和先进的方式。

传统的数据库叫关系数据库,但其实它的数据组织形式并不是关系原生的,而是以表的形式进行组织,就是一张一张的表,然后靠表上的键连起来的。所以其实关系数据库应该叫表数据库,而图数据库反而应该叫关系数据库。

FounderPark:图计算是什么?它和图数据库的有什么关系?

陈文光:图计算可以从广义和狭义来区分它。

狭义的图计算说的是,在确定不变的图上面来做各种各样的计算。比如说路网图,它基本上比较稳定,路很久才修一条。我们可以在路网图上进行某种计算操作,比如说从水立方到故宫找一条路最短路径,这是图计算典型可以解决的问题。

广义的图计算,可以理解是包括了图数据库。

FounderPark:你之前在采访中提到,你遇到《编译原理》(Compilers)的合著者莫尼卡·拉姆(MonicaLam),她对你有很大触动和启发,好奇这具体指的是什么?

陈文光:我是03年在清华大学开始工作的,一开始的学术方向是做编译器里的编译优化。我们在国际顶会PLDI(ProgrammingLanguageDesignandImplementation)发表了一篇论文。论文能被录用,说明大家还是认可这项工作的,但是它最后的效果是什么?在当时CPU测试基准测试上获得的性能提升只有1%左右。

这个技术是有用的,但总体上影响没那么大。所以后来我就转了一个方向,去做程序分析。

之后我碰到了莫尼卡·拉姆,她当时讲了一句话对我影响很大的话:「好的软件不是靠程序分析、查错查出来的,而是由正确的人构建出来的」。也就是说,好软件要由对的人从头把它构建出来,而程序分析实际上是在做辅助性优化,并没有解决整个系统中最重要的问题,这项工作有用,但是并没有那么有用。

陈文光:在图计算上,我们取得了一些积极成果。到了16年,我们研究了一个分布式内存的图计算系统,它比当时开源软件中常用的图计算框架GraphX大概要快100倍,内存的需求大概只是它的1/10。这奠定了一个好的基础。

当时我就想图计算如何能更好地做下去。我发现至少到2016年为止我们自己开发的系统软件还是非常少的,所以我一直在想原因是什么?

我在清华培养的博士生大概也有十多位了,他们在写软件方面都非常优秀。我发现他们毕业之后,主要还是进入工业界了。但他们很多工作可能都是在现有的一个大的软件上去做一些增量式的改进。

所以我当时就想,我们已经有一个很好的软件基础,它领先于现有产品一到两个数量级。如果能够成立一家公司,把优秀毕业学生能聚拢在一起,持续地去完善软件,然后再把它进行推广使用。

这是在探索回答我一直以来的疑惑:我们把自己的系统软件做出来了,但怎么能用起来?所以当时就成立了费马科技。

FounderPark:费马科技当时你们做的不错,为什么选择加入蚂蚁?

陈文光:图计算要想真正发现起来,第一步要解决:做出来;第二步:有人用;第三步:大规模使用。而当时困扰我的问题,怎么实现从有人用到大规模使用。

到2020年的时候,我们发现了自身的局限性。费马团队总体上技术上是很强,但是管理和市场销售,特别是后者我们相对比较弱的。

虽然也取得了一些成绩,有一些标杆的客户,比如像京东金融,国家电网、民生银行等。但整体商业化路径是不清晰的,没有办法很好地大规模推广。

我当时觉得,图计算要想实现更好地发展,还是需要技术加场景的双轮驱动。而我们当时在学校,还更多的是以技术驱动的角度往前推。

蚂蚁作为一家金融科技公司,有着全球领先的图计算的场景需求,而蚂蚁当时自身,在图计算上也有很好的研究基础。所以,我们决定加入蚂蚁。

FounderPark:图计算现在处于一个什么样的发展阶段

陈文光:如果我用一个词来简单地来形容的话,应该叫方兴未艾。

我认为图计算整体上,还处于比较早期的阶段,它的整个产品形态目前也没有100%的定下来。如果拿关系数据库来做对比的话,图计算从技术的深度和应用广度来看,都还有比较大的差距。

FounderPark:图计算都有哪些具体的行业应用?

陈文光:我首先从金融风控的例子介绍一下。

比如说在企业担保的场景。要给一个企业贷款,那么这个企业说我找A企业担保,然后A企业他又找了B企业担保,然后B又找C担保过,最后发现他们形成了一个环。那么这个担保等于是无效的,因为你一层一层地下来,它回到了最初的这个出问题的公司。

这可以都把它抽象成在图上找环的问题。

找环这个问题,传统的方法不是不能做。比如说有些银行用MapReduce大数据处理的方法,但在企业担保场景里,它大概只能找到长度为6的环,更长的就找不到了。

那么像套现分析的这类场景,不仅是需要找环,而速度还要非常快。用户去刷一个信用卡,肯定不希望后台算上两个小时才说有风险。

在金融的场景中,「实时」是比较难的。蚂蚁在2020年的双11,它的最高的交易数每秒58万笔,在如此高的吞吐率下去检测异常,进而保障交易能够按时完成,这个场景挑战是非常大的。在蚂蚁很多的风控场景中,我们希望在20毫秒内完成图计算环节。

图计算的应用不仅在金融上,在复杂电网的故障分析,电商产品的智能推荐,疫情期间的密接、次密接以及时空伴随者发现都有重要的应用。此外,大家日常生活中在蚂蚁森林偷能量,它也是用图数据库来管理的。

FounderPark:目前图计算应用比较多的行业,有什么样的特点?

总体来看,随着全行业的数字化水平的深入,对于复杂关联分析的需求进一步增加,图计算会有一个更好的发展。

FounderPark:图计算融合到AI,能够解决AI什么样的问题?图计算和AI的结合,目前发展怎么样了?

陈文光:AI和图计算融合产生的图神经网络,是目前正在快速发展且重要的领域。

人和人之间或者各种实体之间的关系数据,它怎么和神经网络进行结合?图神经网络,利用了表示学习,通过图的结构先把每一个节点或者边都用向量来表示特征,然后再进一步地使用神经网络来处理。这就扩展了神经网络使用的范围,把实体之间的关系也引入到AI的处理中。

目前图神经网络已经有了很多的应用。我们把图神经网络系统应用在芝麻信用中,提高了信用评分的准确率,这产生了不错的效果。

陈文光:从科学发现的范式上来讲,第一范式是实验科学,第二范式是理论科学,第三范式其实是以仿真模拟为基础的方法。

大脑作为一个研究对象,受限于伦理和法律,想直接去研究是非常困难的,在实验方法和手段上都很缺乏。而仿真是理解大脑这种复杂系统运行的一个基本方法。

我们可以通过仿真,来去模拟大脑背后的机制,可能最后结果是错的,但如果是对的,就验证了一个猜想。从这个角度来说,它给研究脑科学和神经科学,提供了一种减少实验开销以及扩大研究范围的方法。

FounderPark:目前你们进展怎么样了?

所以我们目前在做一个事情,和实验神经科学家合作,以鼠脑的听觉为一个基础,去探究以下两个问题。第一个是要知道单个神经元应该模拟成什么样是合适的?粒度太太粗,会导致最后模拟的行为都是不对的,粒度太细又会使得模拟的规模受限。第二个是神经元之间是怎么连接的?这其实非常复杂,因为现在脑科学发现神经元的连接是不断地产生和消失的。

我们希望能够先找到这两个问题的合理解释,然后再来做大脑的模拟,目前整个项目还在推进中。

FounderPark:目前图计算往前发展,遇到的核心挑战是什么?

陈文光:我觉得最大的挑战是人才和市场发展能不能形成正反馈。把一个产品做好,它可以服务很多人,大家觉得它真的用,市场扩大,人才就会被吸引进来,把产品进一步做好,然后再去服务更大的市场。

一个正向的迭代是非常重要的。现在做图计算,既有大公司,也有一些中型创业公司。那么到底谁能够在这个领域里能够持续地去吸引人,扩大自己的市场服务的对象,我觉得这可能是进一步要去解决的最核心问题。

FounderPark:图计算目前在全球的竞争情况是怎么样的?蚂蚁大概处于一个什么样的位置?

陈文光:图计算的竞争还是非常激烈的,大概有这样几种,一种是像Oracle、SAP这样的传统数据库巨头,他们其实不太会专门做一个单独的图计算产品,而是会把图计算和他们的关系数据库产品合在一起,在关系数据库上来做扩展。

另一类是独立的产品公司。比如说,Neo4j是成立最早的图计算和图数据库的公司,它的开源版本在全球影响力是非常大的。TigerGraph也是一个目前相对来讲,商业化比较成熟的图数据库公司。此外,国内的创邻科技其实也做得不错。

蚂蚁是这样的,在服务内部业务上面我们做得还是不错的。整体上我们在图计算系统的完整度还有深度上面都还有一定的优势,但在产品的通用化上,就是如何服务外部的客户方面还有较大的提升空间。

FounderPark:在你推动图计算的发展上,其实带有非常强的「产学研」结合的色彩。你会怎么看目前产学研遇到的一些问题?

很多老师的学术研究,已经比十年前的水平要高很多了。我们能看到,不少的年轻老师可以在计算机国际顶级会议上发表论文,甚至还能连续发表多篇。

这初步解决了做出来的问题,后面我觉得要解决的是能够用起来的问题。解决这个问题有几条路线。一条路线是去做创业公司,但这是一个比较直接但异常艰难的路线。

另外一条就是知识产权的转让,把研究成果变成专利,然后交给企业去使用。这个方向如果我们看最近10年的数据会比之前更好,但是可能没有好到大家期待的水平。

所以这就会造成一定程度上的学术研究和企业需求之间的脱节。

FounderPark:在解决办法上有什么思考?

陈文光:目前能够看到像华为、阿里以及蚂蚁在内,越来越能够用更加开放的心态来与学术界开展合作。

我可以举些例子,前些天,蚂蚁开放了一些自己的专利,此外也主导一个图数据库的国际基准测试程序,我们国内的几家图数据库厂商,还有国外的像intel这几家核心的公司都参与了。

这个工作的核心是给出一个测试标准,它是把内部的业务和数据的特点抽象成数据模型和典型查询。数据生成器生成的图数据在统计上和内部一些真实的数据是等价的,但它避免了数据隐私的问题。

这个事情预期在推动产学研上会有比较好的效果。企业界提炼自己的需求,把它变成一个可度量的问题,然后鼓励学术界在这种反映了企业界真实情况的数据和场景下面来开展研究。

FounderPark:在推动科研的高水平创新上,你有什么思考?

陈文光:最近可以看到学校在征集从0到1的原创问题。我觉得这个其实是咱们国家科技发展里面非常重要的一步。我们不是每个人都要去提一个问题然后自己解决,才叫成果,其实提出好的问题,是非常重要的。

如果问题和目标的定义都是别人,我们只是在后面去做优化,其实很难实现真正的高水平创新。

我觉得我们到了需要去更好地定义问题的时候了。

3

用极客视角,追踪你不可错过的科技圈.

聊科技,谈商业。

公司地址:北京市朝阳区酒仙桥路4号751D·Park正东集团院内C8座105室极客公园

THE END
1.彰显技术能力的词语理想股票技术论坛这些词语用于彰显个人或团队的技术能力,表达了高超的技术水平、卓越的专业素养和出色的实践能力。它们代表着技术领域的佼佼者,拥有深厚的专业知识和丰富的实践经验,能够解决各种技术难题,推动技术进步和创新。 技术表现优异,能力全面展现良好风采 [股票软件指标公式技术交流] https://www.55188.com/tag-thread-8975683-1.html
2.精炼学术言辞100个简短而富有洞察力的句子探索总结来说,100个简短好的行文既需要精准又需丰富,它不仅能让文章更加具有吸引力,而且还能提高文章整体质量,为读者提供更全面的知识视角。这也是为什么,在任何高水平的学术论文中,都会看到大量使用这样的表达方式。而作为学生或研究人员,我们应该学会运用这样的技巧,以便更有效地进行交流与学习。 https://www.kuaisuk.com/ming-ju/438411.html
3.精炼学术言辞100个简短而富有洞察力的句子探索总结来说,100个简短好的行文既需要精准又需丰富,它不仅能让文章更加具有吸引力,而且还能提高文章整体质量,为读者提供更全面的知识视角。这也是为什么,在任何高水平的学术论文中,都会看到大量使用这样的表达方式。而作为学生或研究人员,我们应该学会运用这样的技巧,以便更有效地进行交流与学习。 https://www.ugbwsmvy.cn/ming-ju/353302.html
4.科研能力强怎么形容爱问知识人1、架海擎天:架海:横跨大海擎天:支撑上天。形容本领大,能力非凡。2、知人之术:能看出人的品行https://iask.sina.com.cn/b/new2Hwr1fhF3er.html
5.夸奖摄影水平高的句子接亲网一、夸奖摄影水平高的句子 1.您这个镜头这么大,一看就是拍大片的人,气派! 2.哇,红圈大炮(或者黄圈)!一看就跟我们这些用狗头的人不一样啊。 3.扛着这么重的相机,哟,大三元啊!很少有人能配齐这套装备,佩服! 4.您的这个画质真是国际水平,据我所知,能用这套拍摄设备的都是水平很高的摄影师。 https://www.jieqinwang.com/baike/106364.html
6.人物中国马拉松大腕陶绍明A:招运动员进来,主要就是提供住宿。高水平的运动员——那些世界排名前三五十名的,还要代理他们谈一些赞助商。 Q:要给他们发工资吗? A:不用发工资,全世界的规矩都是这样。按国际田联的条例规定,经纪人和运动员之间的关系其实是:经纪人是员工,运动员是老板。人家愿意让你服务才跟你签约。 https://iranshao.com/articles/2671-tao-shaoming
7.昂首阔步再出发——访我校高水平论文发表者陈亮博士《自然》杂志是一份在学术界享有盛誉的国际综合性科学周刊,与美国《科学》杂志并称世界两大顶级学术刊物。在为数众多的综合性科学期刊中,《自然》杂志被引用的次数名列世界第一,是世界上影响因子最高的科学期刊。陈亮在《自然》杂志上发表的论文是我校教师发表高水平学术论文的新突破。https://www.zafu.edu.cn/info/1002/78709.htm
8.形容老师“水平高”成语有哪些?满腹经纶[ mǎn fù jīng lún ],形容老师学识渊博,才华横溢,犹如整理好的丝缕,引申为具备极高的才学和智慧。这一成语出自《周易·屯》:“云雷屯,君子以经纶。”谆谆教导[ zhūn zhūn jiào dǎo ],形容老师在教导学生时,态度恳切、耐心,能够耐心地传授知识。这一成语出自《诗经·大雅·https://zhidao.baidu.com/question/444906054000216004.html
9.他是美国眼中最可怕的中国人,隐身55年,以一己之力扭转了全世界的之后成为北大理学院张宗燧的研究生, 开启高难度的量子场论方向的学习, 那时张先生在国际物理学界享有极高的声誉, 当他的学生都要面对“两高”: 一是起点高, 张先生的讲课从头到尾全用英文, 且内容深奥难懂; 二是要求高, 指定的参考书学习起来难度极大。 https://www.meipian.cn/1vezl464
10.形容学术水平高一般怎么说?电动势的正方向规定为从低电位指向高电位,所以测量时电压表应正极接电源负极、而电压表负极接电源的正极。答案解析:错。电动势的正方向规定为从低电位指向高电位,电动势的方向与流出电流的方向一致,测量时电压表的正极应接电源的正极而电压表的负极接电源的负极。博学https://www.shuashuati.com/ti/9283c7b3f9ac414db9b90398226f0e2f.html
11.王晓贞医生排名前10,眼科王晓贞口碑好,技术水平高,预约王晓贞做三、王晓贞医生水平怎么样 提到王晓贞医生的医疗技术水平,可以用“娴熟”二字来形容。 王晓贞医生在眼科领域的技术水平高,她从事眼科临床及科研工作近20年,熟练掌握白内障、斜弱视、角膜病、青光眼等多种眼病的诊疗。美佳网发布 她主攻白内障,能熟练完成高度近视合并白内障、晶体脱位、白内障合并浅前房等多种复杂白内障手术https://m.236z.com/information/detail-id-49366
12.资讯“虽然进博会只有短短几天,但交通银行为广大参展商和采购商提供的金融服务却可以覆盖全年365天,真正做到全年客户服务不落幕。”刘阳介绍说,在构建双循环新发展格局、推动新一轮高水平对外开放的时代背景下,交通银行福建省分行将立足福建对外经济新优势,借助中国国际进口博览会的广阔平台,发挥国际化、综合化的经营优势,http://www.bankcomm.com/BankCommSite/shtml/jykj/cn/2601303/2601336/2601513/list.shtml
13.湖南理工职业技术学院九、更高水平法治中国的“动员令” 坚持统筹推进国内法治和涉外法治 十、得其法而不得其人,则法必不能济 坚持建设德才兼备的高素质法治工作队伍 十一、子帅以正,孰敢不正 坚持抓住领导干部这个“关键少数” 第二编 新法导读 一、打通党员权利保障工作的“最后一公里” https://www.xlgy.com/100/133/content_55697.html
14.大学英语四级翻译技巧9篇(全文)3.翻译教师的整体素质水平不高 在当今大学英语教师队伍中,有很多不是主攻翻译研究方向的,从而欠缺一定的翻译知识以及翻译技巧,以至于在授业中显得有点费力。同时,教师自身的翻译能力已经很难满足学生的需求了。除此之外,教师的授业对象也大多不是英语专业出身的,这就使得学生很难把在大学中学到的英语知识进行课堂实践https://www.99xueshu.com/w/filegzqqqloc.html
15.每日热点05312024年5月26日—29日,在出席第77届世界卫生大会期间,中国代表团团长、国家卫生健康委副主任曹雪涛分别会见世卫组织总干事谭德塞及其他高级别官员,博茨瓦纳、意大利、荷兰、沙特、阿曼、埃塞俄比亚、土耳其等国卫生部部长,并出席金砖国家卫生部长午餐会。 曹雪涛表示,愿积极推动与有关国家卫生部门的高层互访和政策沟通,推https://www.sccdc.cn/Article/View?id=33768
16.高怎么读,高的发音,高的成语/组词/笔顺,高的拼音,高是什么意思,高高屋建瓴(形容居高临下的形势)。高瞻远瞩。 高度:他身高一米八。 等级在上的:高级。高考。 在一般标准或平均程度之上:高质量。高消费。高价。高档。高手。高能物理。 声音响亮:引吭高歌。 敬辞,称别人的事物:高见。高就。高论。高寿。高堂。高徒。 热烈、盛大:高昂。兴高采烈。 显贵,道德水平高:崇高。清高https://www.chacihai.com/zidian/19665.html