大数据人工智能来自人工智能的十大挑战,你们人类准备好了吗;数据科学研究的现状与趋势

人工智能正在改变世界,而关键是人类应该如何塑造人工智能。我们在“热”推进的同时,必须进行“冷”思考。本文立足于哲学视域,来探讨智能化社会有可能带来的十大挑战。

挑战之一:人工智能有弱版本、强版本和超版本三种形式,目前大力发展的弱人工智能,使人类生活的世界处于快速变化之中,这在概念建构上使人类措手不及。如何重构概念框架,丰富现有的概念工具箱,是人类面临的概念挑战。

关键词:机器学习、重构哲学社会科学框架

21世纪以来,随着大数据、云计算、图像识别以及自然语言处理等技术的发展,以深度学习为基础的联结主义范式得到快速发展。这种范式在观念上把计算机看成是类人脑,在方法上不再求助于形式化的知识推理,不再通过求解问题来体现智能,而是求助于统计学,通过模拟神经网络的联结机制,赋予计算机能够基于大样本数据进行自主学习的能力,来体现智能。这就把人工智能的研究,从抽象的知识表征转向实践中的技能提升,从原子主义的主客二分的理性分析方式,转向能动者与其所在的世界彼此互动的感知学习方式。

能动者的技能提升是在学习过程中进行的。技能不能被等同于操作规则或理论体系,而是能动者在其世界中或特定的域境(context)中知道如何去做的技术能力。这种范式恰好与来自胡塞尔、海德格尔、梅洛-庞蒂和德雷福斯的现象学相吻合。这也是为什么威诺格拉德于20世纪80年代曾在斯坦福大学的计算机科学课程中讲授海德格尔哲学、麻省理工学院的第二代人工智能科学家也不像第一代人那样排斥德雷福斯的哲学主张的原因所在。

人工智能发展的这种范式转换,不仅揭示了人类体验世界、与世界互动,以及在理解世界并赋予其意义上,使世界语义化的新方式,而且正在全方位地改变着过去习以为常的一切架构。

一方面,基于统计学和随机性的算法建模,赋予智能机器在不断实践中能够自主提高技能的能力,使得机器学习的不确定性和不可解释性成为智能机器的基底背景,而不再是令人担忧的认识论难题;

另一方面,机器智能水平的高低,取决于其学习样本的体量或规模,这强化了体知型认知(embodiedcognition)的重要性。智能机器在学习过程中表现出的不确定性,以及人工智能所带来的世界的瞬息万变,要求我们重构现有的规则与概念。因此,全方位地丰富和重构哲学社会科学的概念框架,是我们迎接智能化社会的一个具体的建设目标,而不是一个抽象的理论问题。

挑战之三:在一个全景式的智能化社会里,如何重新界定隐私和保护隐私,如何进行全球网络治理,是人类面临的新的伦理、法律和社会挑战。

关键词:电子档案、信息删除权

当人类生存的物质世界成为智能化的世界时,常态化的在线生活使人具有了另外一种身份:数字身份或电子身份。

一方面,无处不在的网络,即使是私人空间或私人活动,也成为对公共空间或公开活动的一种重要延伸。过去属于私人的信息或国家机密,现在会在不被知情的情况下,被复制和传播,甚至被盗用;另一方面,编码逻辑的活动越来越标准化和碎片化,自动算法系统作为新的认知层面,建构了个人的电子档案,能够实时地解读和编辑个人行为、筛查个人的心情、追踪个人的喜好,甚至能够抓取个人对信息的感知趋向,进行有针对性的信息推送。

而这种推送服务,不仅会加固社会分层,而且具有利用价值,比如,保险公司有可能在掌握了个人病史的情况下,提高保费;大学招生部门有可能把个人网络档案作为决定是否录用学生的参考依据,等等。与传统的社会化和社会控制机制相反,在智能化时代,人的社会化成为无形的和不可解释的。这就增加了社会现象的不透明性和人的透明性。

对于个人而言,网络数据和信息的不可删除性,个人注意力的货币化,人的行为随时被置于网络监视之中,以及无法保证技术的匿名性,都会导致人的隐私权的丧失,还会强化信息的不对称和权力的不对称,因而对传统的隐私观提出了巨大的挑战。

传统的隐私观包括两个方面:一是个人对希望呈现的信息有控制权,二是个人对属于或关于自己的信息有删除权。当人的数字化生存使得人们失去了对自己信息的控制权的同时,也就失去了对自己信息的删除权。在欧盟关于数据保护条例的讨论中,从互联网中消除信息的决定权,是一个最有争议的话题,其中,技术性的问题比我们想象的更加复杂。

挑战之四:随着人的网络痕迹不断留存,应该如何对待很有可能出现的数字人,是人类面临的对现有生命观的挑战。

关键词:数字人、拓展生命观

物联网创造了把人、物和世界或自然界联系起来的网格,智能化技术的发展又进一步使得数据、信息和知识,还有思想和行为痕迹,成为永存的。这已经为数字人的出现创造了条件。

数字人不仅能永生,而且更重要的是,它能够模仿出之前只有生命才具有的许多特性。这就对传统的生命观提出了挑战,并带来了许多需要重新思考的问题。

如果未来有一天,数字人能够借助于自然语言处理技术和深度学习技术,来模仿真人的发音,通过计算机视觉、图像识别等技术,来模仿真人的行为。那么,是否允许未来会出现专门定制数字人的公司呢?应该制定什么样的道德法律来规范数字生命呢?

进一步设想,如果未来有一天技术允许一个人的心灵在他的身体死亡后,在一个不同的主人(比如,限于一块硅电路或一个分布式网络)的体内继续运行,将会发生怎么样的情况呢?这样的实体依然满足用来描述人还活着的标准吗?两者将会拥有相同的心灵吗?而且,就所有的实践考虑而言,它会将永远有能力学习、反应、发育和适应吗?这将会违背活的有机体是由细胞组成的这一必要条件。但是,如果我们选择坚持这个必要条件,我们将如何拓展我们的生命观呢?这还会涉及法律、医疗、伦理、经济、政治乃至军事等方面的问题。

挑战之五:增强现实技术、生物工程技术以及量子计算的发展,应该如何对待有可能出现的生化电子人,是人类面临的关于身体观的挑战。

关键词:技术人造物、自由意志

在智能化的社会里,当芯片技术、生物工程技术和量子算法等整合起来时,将会出现名目繁多的增强型技术。这些技术的人造物,比如生物芯片,不只是具有医疗的作用,更重要的是具有强化人体功能的作用,那么,我们应该如何规范这些器件的使用范围呢?不论是为了医疗的效果,还是为了增强的效果,当人体的主要功能性器官有可能被全部替换时,这个人还是原来的那个人吗?

当技术发展到人的主要器官可以被替换时,就可能出现生化电子人,那么,生化电子人仍然是人吗?我们如何划定人类和非人类之间的界线?

更令人担忧的是,随着医疗技术的发展,也许有一天内置于我们体内的纳米机器人能修复任何需要修复的器官或组织,而不会影响人的生命或身份。但是,如果这些机器人是受外部控制的,就必然会带来许多问题,比如,如何看待自由意志;从动物伦理的视域来看,当人类有可能在生物上成为永生的时,对环境和可持续性来说将是毁灭性的;人类是否有权比其他生物活得更长久,人类是否应该建立规则和条件来终止生命或同意安乐死,以及如何决定谁应该活着和死去。

关键词:第三空间、关键自我

关系自我之所以强调在与他者的交流互动中来彰显自己,是因为人不仅是目标的追求者,也是意义的塑造者,人与人之间的彼此互动也会产生新的意义和新的可供性。因此,如何重塑社会—关系自我,成为我们面临的关于自我概念的挑战。

关键词:改变财富观

随着计算机的运算能力与储存能力的不断提升,特别是有朝一日随着量子计算机的出现,人工智能不只是局限于模拟人的行为,而且还拓展到能够解决复杂问题。人工智能的这些应用前景,越来越受人重视。然而,我们面临的问题,不应该是因恐惧失业而阻止人工智能的发展,而是反过来,应该前瞻性地为人工智能的发展可能带来的各种改变,做好思想准备和政策准备。事实上,问题的关键并不是人工智能的发展会导致大量人员失业那么简单,而涉及更加根本的问题:如何改变人类长期以来形成的就业观和社会财富的分配观?

随着人工智能的发展,当程序化和标准化的工业生产、基于大样本基数的疾病诊断、法律案件咨询,甚至作曲、绘画等工作都由机器人所替代时,当人类的科学技术有可能发展到编辑基因时,地球的发展将会面临着第三次大转折,那就是迎来人机协同,乃至改变人体基因结构的时代。

到那时,有望从繁重的体力劳动与脑力劳动的束缚中完全解放出来的人类,应该如何重新调整乃至放弃世世代代传承下来的以劳取酬的习惯和本能的问题,以及人类如何面对改造自己基因的问题,就成为至关重要的问题。

挑战之八:当人类社会从由传统上求力的技术所驱动的工业社会,转向由求智的技术所驱动的智能化社会时,如何在智能技术的研发中,把人类的核心价值置入到设计过程之中,使人工智能有助于塑造人的意义,是人类面临的关于技术观的挑战。

关键词:技术伦理

从总体上讲,人类创造技术人造物,在主观上,虽然不是为了改变人,而是为了满足人的需求,但在客观上,却反过来又在无形中重塑了人,也就是说,人在使用技术的同时,也被技术所改变。

特别是,当我们生活在“智能环境”中时,一方面,物质环境本身具有了社会能力,成为一种环境力量,能够起到规范人的行为和重塑公共空间的作用,甚至还能起到社会治理的作用。

但另一方面,智能手机携带的地理定位功能,让人的行踪成为透明的,网络活动留下的各种数据,让人的兴趣、爱好、生活习惯以及社会交往等成为透明的,人脸不仅是名字的标签,还承载了许多可以机读的网络信息,这些信息既能造福于人类(比如,用于病理诊断),也会损坏人的利益(比如隐私泄露)。

因此,在智能化的社会中,技术善恶的天平将会偏向哪个方向,不再只是取决于使用者,而且更取决于设计者。

当代人已经生活在人造物的世界中,无法离开技术而生存,而是应该讨论如何在智能技术的研发中把人类的核心价值置入到设计过程,如何发展与人工智能的良性互动,如何树立一种嵌入伦理责任的技术观等问题。

挑战之九:在知识生产领域内,软件机器人的普遍使用,将会为科学家提供科学认知的新视域,如何对待有软件机器人参与的分布式认知,是人类面临的对传统科学认识论的挑战。

关键词:分布式认知

网络化、数字化与智能化的结合,既是平台,也是资源。它们不仅创设了无限的发展空间,具备了很多可供开发的功能,而且为我们提供了观察世界的界面。特别是,对于那些希望从互联网的知识库里“挖掘”有用信息的人来说,搜索引擎或软件机器人成为唾手可得的天赐法器,既便捷,又快速。

问题在于,当搜索结果引导了人类的认知趋向并成为人类认知的一个组成部分时,人类的认知就取决于整个过程中的协同互动:既不是完全由人类认知者决定的,也不是完全由非人类的软件机器人或搜索引擎决定的,而是由相互纠缠的社会—技术等因素共同决定的。弗洛里迪称之为“分布式认知”。一种分布式认知的形式体现在维基百科中。另一种分布式认知的形式体现在新型的科学研究中。

挑战之十:当整个人类成为彼此相连的信息有机体,并且与人造物共享一个数字化的信息空间时,认识的责任就必须由人类的能动者和非人类的能动者来共同承担。如何理解这种分布式的认识责任,是人类面临的对传统责任观的挑战。

关键词:责任观、摆脱恐惧

在智能环境中,智能化程度的提高,造成了我们对承担责任的恐惧。比如,在个人数据处理、无人驾驶、算法交易等事件中,如果发生问题,应该由谁来负责呢?

这种恐惧把认识关系变成了一种权力关系。也就是说,在认识过程中,不同的认识能动者(不论是人类的,还是非人类的),具有不同的权力。当非人类的算法或软件机器人过滤和引导了我们的认识视域时,就提出了我们如何成为负责任的认识者的问题。

比如,汽车发生碰撞事故,交警通常会判定要么由司机来负责,要么由厂商来负责。在这种思路中,汽车是被当作孤立的技术人造物来看待的。可是,如果是一辆无人驾驶的汽车发生了碰撞事故,那么,我们就需要追究这辆车的责任,因为无人驾驶车应该被当作是属于社会—技术—认识高度纠缠的人造物来看待的。

然而,如何解决这样一个把伦理学、本体论和认识论高度纠缠在一起的问题,在现有的规章制度中和交通法规中依然无章可循。因此,从如何重塑社会—技术—认识系统中的问责机制来看,如何确立分布式责任观是我们面临的对传统问责机制的挑战。

综上所述,智能化社会是由人工智能驱动的社会,是信息文明的高级阶段。这个社会必然会全方位地打破我们习以为常的生活方式、生产方式、思维方式、概念框架乃至当前在现代性基础上形成的方方面面。在我们势不可挡地迈向智能化社会的道路上,面临着有必要重构一切的情况下,哲学社会科学的出场,很可能比技术与资本的出场更迫切、更重要。因为只有这样,才能有助于前瞻性地重构一系列战略方针,做到防微杜渐,才能有助于扩大人工智能带来的恩惠,规避人工智能可能带来的危害,降低发展人工智能付出的代价。也许,摆脱恐惧,迎接挑战,是人类文明无法回避的宿命。

数据科学研究的现状与趋势

作者:朝乐门(中国人民大学)、邢春晓(清华大学)、张勇(清华大学)

摘要

大数据正在改变着人们的工作、生活与思维模式[1],进而对文化、技术和学术研究产生了深远影响[2]。一方面,大数据时代给各学科领域带来了新的机遇——认识论和研究范式的转变[3],出现了一种区别于传统科学研究中沿用至今的“知识范式”的新研究范式——“数据范式”。“数据范式”的广为应用成为现代科学研究的一个重要转变。另一方面,大数据带来的挑战在于数据的获得、存储、计算不再是瓶颈或难题,各学科领域中的传统知识与新兴数据之间的矛盾日益突出,传统知识无法解释和有效利用新兴的大数据,进而促使传统理论与方法的革命性变化。

“数据科学”与“大数据”是两个既有区别又有联系的术语,可以将数据科学理解为大数据时代一门新科学[5],即以揭示数据时代,尤其是大数据时代新的挑战、机会、思维和模式为研究目的,由大数据时代新出现的理论、方法、模型、技术、平台、工具、应用和最佳实践组成的一整套知识体系。

1974年,著名计算机科学家、图灵奖获得者PeterNaur在其著作《计算机方法的简明调研(ConciseSurveyofComputerMethods)》的前言中首次明确提出了数据科学(DataScience)的概念,“数据科学是一门基于数据处理的科学”,并提到了数据科学与数据学(Datalogy)的区别——前者是解决数据(问题)的科学(thescienceofdealingwithdata),而后者侧重于数据处理及其在教育领域中的应用(thescienceofdataandofdataprocessesanditsplaceineducation)[6]。

Gartner的调研及其新技术成长曲线(Gartner's2014HypeCycleforEmergingTechnologies)[13]表示,数据科学的发展于2014年7月已经接近创新与膨胀期的末端,将在2~5年之内开始应用于生产高地期(plateauofProductivity)。同时,Gartner的另一项研究揭示了数据科学本身的成长曲线(HypeCycleforDataScience)[14],如图1所示。从图1可以看出,数据科学的各组成部分的成熟度不同:R的成熟度最高,已广泛应用于生产活动;其次是模拟与仿真、集成学习、视频与图像分析、文本分析等,正在趋于成熟,即将投入实际应用;基于Hadoop的数据发现可能要消失;语音分析、模型管理、自然语言问答等已经渡过了炒作期,正在走向实际应用;公众数据科学、模型工厂、算法市场(经济)、规范分析等正处于高速发展之中。

图1数据科学的成长曲线(2016)

2010年,DrewConway提出了第一张揭示数据科学的学科地位的维恩图——《数据科学维恩图(TheDataScienceVennDiagram)》(图2),首次明确探讨了数据科学的学科定位问题[15]。在他看来,数据科学处于统计学、机器学习和领域知识的交叉之处。后来,其他学者在此基础上提出了诸多修正或改进版本,如图3是JerryOverton于2016年给出的数据科学维恩图[16]。但是,后续版本对数据科学的贡献和影响远不及DrewConvey首次提出的数据科学维恩图。

图2DrewConway的数据科学韦恩图(2010)

图3JerryOverton的数据科学韦恩图(2016)

从DrewConway的《数据科学维恩图》的中心部分可看出,数据科学位于统计学、机器学和某一领域知识的交叉之处,具备较为显著的交叉型学科的特点,即数据科学是一门以统计学、机器学习和领域知识为理论基础的新兴学科。同时,从该图的外围可看出,数据科学家需要具备数学与统计学知识、领域实战和黑客精神,说明数据科学不仅需要理论知识和实践经验,而且还涉及黑客精神,即数据科学具有三个基本要素:理论(数学与统计学)、实践(领域实务)和精神(黑客精神)。

从知识体系看,数据科学主要以统计学、机器学习、数据可视化以及(某一)领域知识为理论基础,其主要研究内容包括数据科学基础理论、数据加工、数据计算、数据管理、数据分析和数据产品开发,如图4所示[17]。

图4数据科学的知识体系

(4)数据管理:在完成“数据加工”和“数据计算”之后,还需要对数据进行管理与维护,以便进行(再次进行)“数据分析”以及数据的再利用和长久存储。在数据科学中,数据管理方法与技术也发生了重要变革——不仅包括传统关系型数据库,而且还出现了一些新兴数据管理技术,如NoSQL、NewSQL技术和关系云等。

(5)数据分析:数据科学中采用的数据分析方法具有较为明显的专业性,通常以开源工具为主,与传统数据分析有着较为显著的差异。目前,R语言和Python语言已成为数据科学家较为普遍应用的数据分析工具。

(6)数据产品开发:“数据产品”在数据科学中具有特殊的含义——基于数据开发的产品的统称。数据产品开发是数据科学的主要研究使命之一,也是数据科学区别于其他科学的重要区别。与传统产品开发不同的是,数据产品开发具有以数据为中心、多样性、层次性和增值性等特征。数据产品开发能力也是数据科学家的主要竞争力之源。因此,数据科学的学习目的之一是提升自己的数据产品开发能力。

数据科学是一门与领域知识和行业实践高度交融的学科。从目前的研究现状看,数据科学可以分为两类:专业数据科学与专业中的数据科学。其中,“专业数据科学”是以独立学科的形式存在,与其他传统学科(如计算机科学、统计学、新闻学、社会学等)并列的一门新兴科学;“专业中的数据科学”是指依存于某一专业领域中的大数据研究,其特点是与所属专业的耦合度较高,难以直接移植到另一个专业领域,如数据新闻(DataJournalism)[18]、材料数据科学(MaterialsDataScience)[19]、大数据金融(BigDataFinance)[20]、大数据社会、大数据伦理(BigDataEthics)[21]和大数据教育(BigDataEducation)[22]等。

专业数据科学与专业中的数据科学的联系如下:专业数据科学聚集了不同专业中的数据科学中的共性理念、理论、方法、术语与工具;相对于专业中的数据科学,专业数据科学更具有共性和可移植性,并为不同专业中的数据科学研究奠定了理论基础;专业中的数据科学代表的是不同专业中对数据科学的差异性认识和区别化应用。

目前,数据科学的研究特点是对本质问题的系统研究少,然而对周边问题的讨论较多,可从以下四个方面进行分类分析。

(1)大数据挑战及数据科学的必要性。在大数据时代,挑战和机会并存[23]:挑战不仅来自于数据量(Volume),而且还涉及其多个V特征,如种类多(Variety)、速度要求高(Velocity)和价值密度低(Value)[24][25]。因此,社会与科技的发展亟待一门新的学科——数据科学,并对大数据时代的新问题和新思路进行系统研究[26]。

(2)数据科学对统计学和计算机科学的继承与创新。一方面数据科学作为新的研究方向,进一步拓展了统计学[27]和计算机科学与技术[28]的研究范畴;另一方面,数据科学不仅继承了统计学和计算机科学等基础理论,而且对其进行了创新与发展,逐渐成为一门独立学科[29]。

(3)新技术在数据科学中的重要地位。云计算、物联网、移动计算等新技术的兴起拓展了人的数据获取、存储和计算能力,促使大数据时代的到来,成为数据学科诞生的必要条件。同时,数据科学中需要重点引入Spark[30]、Hadoop[31]、NoSQL[32]等新兴技术,从而更好地面对大数据挑战。新技术的应用意味着数据科学对数据及其管理的认识发生了根本性变化——不仅开始接受了数据的复杂性,而且数据管理的理念从传统的完美主义者转向现实主义,“数据在先,模式在后或无模式”的数据管理范式、BASE原则以及CAP理论[33]等新理念已成为数据科学的基本共识。

(1)DIKW模型。DIKW模型刻画的是人类对数据的认识程度的转变过程[47]。通常认为,数据科学的研究任务是将数据转换成信息(Information)、知识(Knowledge)或(和)智慧(Wisdom),[48]。从数据到智慧的转变过程是一种从不可预知到可预知的增值过程,即数据通过还原其真实发生的背景(Context)成为信息,信息赋予其内在含义(Meaning)之后成为知识,而知识通过理解转变成智慧。

除了上述问题之外,大数据的安全[64]、大数据环境下的个人隐私保护[65]、数据科学的项目管理及团队建设[66]、公众数据科学(CitizenDataScience)[67]等是目前在专业数据科学研究中讨论较多的问题。

(1)数据新闻(DataJournalism):新闻学领域的新研究方向之一,主要研究的是如何将大数据和数据科学的理念引入新闻领域,实现数据驱动型新闻(Data-drivenJournalism)[68]。

(2)工业大数据:主要研究如何将大数据应用于工业制造领域,进而实现工业制造的创新。比较有代表性的是德国工业4.0(Industrie4.0)、美国工业互联网(Industrialinternet)和中国制造2025(MadeinChina)。

(5)生物大数据:将大数据的理念、理论、方法、技术和工具应用于生物学领域,从而生物学从知识范转向数据范式[74]。

(6)社会大数据:综合运用大数据和数据科学的理论,探讨如何在大数据时代进行舆情分析、社会网络分析以及热点发现[75]。

(7)机构大数据:如何将大数据和数据科学的思想引入企业[76]、政府[77]以及公益部门[78]的日常业务、战略规划与可持续改进。

(8)智慧类应用:如何将大数据应用于智慧城市、智慧医疗、智慧养老、智慧交通、智慧教育等领域,发挥数据的驱动作用,进而实现更高的智慧。

(9)敏捷类应用:如何将大数据思维用于软件开发、项目管理以及组织管理之中,进而实现敏捷软件开发、敏捷项目管理和敏捷组织,提升其应变能力和可持续发展能力。

(2)支撑技术:建立在基础设施上的关键技术,现有研究主要讨论机器学习、统计学、批处理、流计算、图计算、交互计算、NoSQL、NewSQL和关系云等支撑技术在数据科学的应用;

(3)工具与平台:支撑技术的具体实现,目前的主要研究热点集中在R、Python、Hadoop、Spark、MongoDB、HBase、Memcached、MongoDB、CouchDB和Redis等工具与平台在数据科学中的应用;

(5)环境因素:大数据时代对法律、政策、制度、文化、道德、伦理产生的影响与新需求。其中,大数据权属立法研究主要讨论大数据权属立法的必要性、可行性以及对策建议。从大数据的重要性的认识看,大数据不再是一种资源,更是一种资产。大数据权属的立法已经成为大数据时代信息资源开发利用的必要条件。

在传统科学研究中,由于数据的获得、存储和计算能力所限,人们往往采取的是知识范式(“数据→知识→问题”的范式),从数据,尤其是样本数据中提炼出知识之后,用知识去解决现实问题。大数据时代的到来及数据科学出现为人们提供了另一种研究思路,即数据范式(“数据→问题”范式),在尚未从数据中提炼出知识的前提下,用数据直接解决问题。数据范式强调的是在尚未将数据转换为知识的前提下,直接用数据去解决现实世界中的问题。以机器翻译为例,传统机器翻译方法是基于自然语言理解,准确说是基于语言学和统计学的知识进行,属于知识范式的范畴。但是,这种传统机器翻译效果一直并不理想,且尚无突破性进展。然而,近几年兴起的机器翻译方法改变了传统机器翻译的思维模式,采取的是“数据范式”——直接从历史跨语言语料库中快速洞见所需结果。上世纪五十年以来的IBM机器翻译的缓慢发展以及2000以后的Google机器翻译的迅速兴起也反映了这种思维模式的变革。

与传统认识中的“知识就是力量”类似,在大数据时代,数据也成为一种重要力量。如何组织、挖掘和利用数据成为现代组织的核心竞争力。目前,思维模式变革的主要挑战在于如何完成以数据为中心的设计、数据驱动型决策[83]和数据密集型应用[84]。

在传统科学研究中,数据一直被当作是被动的东西,人们主要从被动属性方面去对待数据。以关系数据库为例,人们先定义关系模式,然后将数据按照关系模式的要求进行强制转换后放入数据库中,完成数据挖掘和分析任务。

在大数据思维模式的背后,一个根本性的变革在于人们开始意识到数据的主动属性——不再简单认为数据是一种死的、被动的东西,而更加重视数据的积极作者用,提出了数据在先、模式在后或无模式、让数据说话、数据驱动型应用、数据业务化、数据洞察和以数据为中心的思维模式等新术语。

在传统学术研究中,智能主要来自于算法,尤其是复杂的算法。算法的复杂度随着智能水平得到提升。例如,KNN算法是机器学习中常用的分类算法,其算法思想非常简单。人们根据不同应用场景提出多种改进或演化方案,虽然智能水平有所提高,但随之而来的问题是算法复杂度的提升[85]。但是,数据范式表明,数据也可以直接用于解决问题,引发了一场关于“更多数据还是更好模型(MoredataorBetterModeldebate)”的讨论[86],经过这场大讨论,人们得出了相对一致的结论——“更多数据+简单算法=最好的模型(moredata+simpleAlgorithem=thebestmodel)”。

因此,如何设计出简单高效的算法以及算法的集成应用成为数据科学的重要挑战。目前,关于智能的实现方式的挑战在于算法设计、算法集成、维度灾难和深度学习。

目前,数据密集型应用的主要挑战在于副本数据技术、物化视图、计算的本地化、数据模型的多样化和数据一致性保障。

在数据科学中,数据加工是指数据的创造性增值过程,包括两种表现形式:数据打磨(datawrangling)或数据改写(datamunging)。与数据预处理不同的是,数据加工更加强调的是如何将数据科学家的3C精神融入数据处理工作之中,从而达到数据增值的目的。因此,数据加工并不仅限于技术工作的范畴,而且还涉及到艺术层面的创造,如需要采用数据柔术(DataJujitsu)和整齐化处理(DataTidying)的方法进行数据加工处理。

·数据打磨或数据改写理念的提出:如何在数据科学项目中充分发挥数据科学家的作用,进而实现数据处理活动的增值效果;

·数据打磨或数据改写技术的实现:基于Python、R以及大数据技术实现数据加工的理念与方法;

·数据柔术:如何有艺术性地将数据转换为产品;

·整齐化处理:将数据转换为大数据算法和大数据技术能够直接处理的形态。

目前,用户体验研究的主要挑战在于如何确保较快的响应速度、设计人机交互、实现服务虚拟化以及提供按需服务。

理论完美主义者认为只有掌握了因果关系才能正确认识和有效利用客观现象。传统数据分析往往是理论完美主义的指导下完成,试图通过对历史数据进行深度分析之后,达到深刻理解自我或解释客观现象的目的,侧重的是因果分析,即以解释型分析为主。

因此,数据科学的一个重要特点是预测性分析和解释性分析的分离。预测性分析主要由数据科学家完成,一般不需要领域知识;解释性分析则发生在预测性分析之后,数据科学家将预测性分析中的洞察结果转交给领域专家,由领域专家负责完成解释性分析。可见,数据科学家一般不做解释性分析,或者说,解释性分析往往超出数据科学家的能力范畴,需要由具体领域的专家完成。预测性分析和解释性分析的分离也是数据科学家和领域专家之间协同工作的主要实现方式。

图灵奖获得者JimGray曾提出,人类科学研究活动已经历过三种不同范式的演变过程(原始社会的“实验科学范式”、以模型和归纳为特征的“理论科学范式”和以模拟仿真为特征的“计算科学范式”),目前正在从“计算科学范式”转向“数据密集型科学发现范式(Data-intensiveScientificDiscovery)”。第四范式,即“数据密集型科学发现范式”的主要特点是科学研究人员只需要从大数据中查找和挖掘所需要的信息和知识,无须直接面对所研究的物理对象。例如,在大数据时代,天文学家的研究方式发生了新的变化——其主要研究任务变为从海量数据库中发现所需的物体或现象的照片,而不再需要亲自进行太空拍照[94]。

目前,关于数据科学家的研究及人才培养的挑战在于正确分析岗位职责与用人需求、数据科学家的素质与能力要求、数据科学项目管理以及数据科学家的职业规划。

在梳理研究热点、争议及挑战的基础上,我们需要进一步分析数据科学研究的发展趋势。从整体上讲,数据科学研究的主要发展趋势可以总结为:

·“专业数据科学”是研究难点。“专业中的数据科学”从不同专业视角解读数据科学,存在研究兴趣点和研究发现(如理论、方法、技术、工具和典型实践等)的差异性,甚至可能出现相互重叠与冲突的现象。在这种背景下,如何将分散不同学科领域中的共性问题及通用结论提炼成一门新的学科——“专业数据科学”,进而为各个学科领域的研究提供新的理论基础是未来研究的难点所在。

·“数据生态系统的建设”是终极问题。数据学科是一门实践性极强的学科,其研究和应用均不能脱离具体领域。数据科学的研究和应用将会超出技术范畴,还涉及到发展战略、基础设施、人力资源、政策、法律与文化环境等诸多因素。因此,数据科学需要解决的终极问题是将大数据放在一个完整的生态系统之中去认识与利用,从生态系统层次统筹和规划,避免片面认识数据问题,进而推动数据、能源和物质之间的相互转化。

数据科学中重视预测模型而不是解释模型的另一个现实基础在于“人们往往先发现规律,后发现原因”[96]。从方法论层次看,以发现预测模型为目的的研究往往提倡的是假设演绎(Hypothetico-Deductive)研究范式[97],先提出研究假设,然后采用试验设计和演绎分析方法论证研究假设成立与否。然而,一个好的研究假设的提出需要研究者,尤其是数据科学家的特有素质——创造力、批判性思考和好奇心。

传统数据分析的通用做法是用一个数据模型即可解决一项数据处理任务。在这种以单一模型为基础的数据分析中,为了提升数据处理的信度和效度,需要对模型进行优化和调整,导致数据模型复杂度的增长。也就是说,传统数据分析中的数据模型有两个基本特征:单一性和复杂性。

但是,在大数据背景下,人们很难找到一个能够处理动态且异构数据的单一模型,因此,开始寻求多个模型的集成应用。与传统数据分析不同的是,大数据分析中所涉及的模型往往是极其简单,即大数据分析中的数据模型也有两个基本特征:多样性和简单性。

可见,模型集成成为数据科学研究的一个新问题。通常,大数据分析采用多个较为简单的数据模型,将数据分析任务分解成分散在多个层次,多个活动的小任务,并通过简单模型及其集成方法达到最终数据处理目的。例如,在深度学习之中,由多处理层组成的计算模型可通过多层抽象来学习数据表征[99]。

模型集成的背后是元分析的兴起。传统统计学重视的基于零次或一次数据的基本分析,包括描述性统计、参数估计和假设检验。在大数据环境下,二次数据和三次数据的分析显得更为重要,数据分析工作往往在众多小模型的分析结果的基础上进行二次分析,即元分析。

传统数据管理,尤其是关系型数据库中采用的是“模式在先、数据在后(SchemaFirst,DataLater)”的建设模式[100],即先定义模式,然后严格按照模式要求存储和管理数据;当需要调整模式时,不仅需要重定义数据结构,而且还需要修改上层应用程序。然而,在大数据环境下,无法沿用“模式在先、数据在后(SchemaFirst,DataLater)”的建设模式,主要原因有两个:一是数据模式可能为不断变化或根本不存在;二是按照预定模式进行数据的存储和处理时容易导致信息丢失。

因此,“数据在先,模式在后或无模式(DataFirst,SchemaLaterorNever)”成为数据产品设计的主要趋势。以NoSQL为例,采用非常简单的键值数据模型,通过模式在后(SchemaLater)或无模式(Schemaless)的方式确保数据管理系统的敏捷性。当然,模式在后或无模式也会带来新问题,如限制数据管理系统的处理能力及加大应用系统的开发难度。

在传统数据管理中,对数据一致性的要求是接近于完美主义——强一致性,即任何时候从任何地方读出的任何数据均为正确数据。为了保证数据的一致性,在关系数据库中引入了事务、两端封锁协议和两端提交协议等方法或机制。强一致性的优点在于不仅可以保证数据质量,而且可以降低后续计算的成本。但是,强一致性不符合大数据时代的数据管理要求——高扩展性、高性能、高容错性、高伸缩性和高经济性。

因此,NoSQL等新兴数据管理技术从根本上改变了人们对数据一致性的传统认识,主要表现在提出CAP理论和BASE原则等新兴数据管理理念,引入弱一致性、最终一致性等概念,并提供了不同的解决方案,如更新一致性、读写一致性和会话一致性等。可见,在数据科学研究中,数据的一致性出现了多样化趋势,即根据不同应用场景,有针对性地选择具体的一致性及其实现方法。

在数据一致性的多样化认识的转变反映了们对数据数据管理目标的根本转折——从完美主义回归至现实主义。以CAP理论[101]为例,人们对分布式系统的设计目的发生了改变,不再追求强一致性(Consistency)、可用性(Availability)和分区容错性(PartitionTolerance)三个指标的同时最优,反而意识到了三者中的任何两个特征的保证(或争取)可能导致另一个特征的损失(或放弃)。例如,Cassadra和Dynamo为了争取可用性和分区容错性而放弃了一致性。

同时,在计算和应用系统的部署上,改变传统的“数据靠近计算的原则”,反而开始采取了“计算靠近数据的原则”。例如,在Spark系统提供了操作getPreferredLocations(),支持RDD的本地化计算[102];在MapReduce中,尽量将Map任务调度至存放副本数据数据的机器上。可见,多副本技术和靠近数据原则均表明传统的“以计算为中心”的产品部署模式正向“以数据为中心”的产品部署模式的转变。

传统关系数据库类产品虽多,但标准化程度较高,如均采用关系模型和SQL语言。但是,新兴的NoSQL数据库代表的不是一种特定技术,而是包括基于不同数据模型和查询接口的多种数据管理技术,如Key-Value、Key-Document和Key-Column和图存储模型等。可见,在技术实现层次上,新兴技术表现出了多样化发展及高度专业化的趋势,即一项新技术专注于一个问题、一项功能或一种应用场景。例如,MapReduce、Tez、Storm、Druid等技术的定位相对单一,分别专注于分布式批处理、Map/Reduce过程的拆分与组合、实时处理和面向OLAP的列存储等较为单一功能的实现。当然,Spark、YARN等较为通用性技术的出现也为技术层次上的高度专业化趋势提供了一种补充的解决方案。

同时,在传统数据计算/管理环境中,不同数据产品的界限是比较清楚的,所依赖的技术也是单一的,要么关系模型,要么层次或网状模型。但是,大数据时代的到来导致不同计算/管理技术的高度融合,出现一些支持多种数据计算/管理技术集成产品,甚至显现出了软硬件一体化或嵌入式应用趋势。例如,Oracle大数据解决方案(BigDataAppliance)[103]集成了HDFS、OracleNoSQL、ClouderaCDH、数据仓库、内存计算和分析型应用。

可见,在数据科学研究中一体化应用和专业化趋势并存。在产品与服务的实现层次上,一体化趋势越来越显著,一种产品的实现往往涉及多种不同技术的集成应用;在技术本身的实现层面,专业化趋势成为主流,一项新技术专注于解决相对单一问题。

“简单”是数据科学的基本原则之一,代表着采用相对简单的技术来应对复杂的基础数据及不断变化的应用场景。与此不同的是,传统数据管理中采用的技术实现往往较为复杂。例如,传统关系数据库技术采用Join运算实现了多表查询等复杂操作。但是,这些复杂操作反而成为了关系数据库在提升数据管理能力的一个重要瓶颈,如Join操作要求被处理数据不能分布在不同节点。为此,NoSQL放弃了Join等复杂处理操作,突出了简单计算较高的效率和效果。

作为数据科学的特有研究内容,数据产品开发将成为未来研究重要课题。在数据科学中,所谓的数据产品(DataProducts)并不限于“数据形态”的产品,而泛指“能够通过数据来帮助用户实现其某一个(些)目标的产品”[104]。可见,数据产品是指在数据科学项目中形成,能够被人、计算机以及其他软硬件系统消费、调用或使用,并满足他们(它们)某种需求的任何产品,包括数据集、文档、知识库、应用系统、硬件系统、服务、洞见、决策及它们的各种组合。以Google眼镜为例,虽然其产品形态上看似乎是“眼镜类产品”,但从其主要竞争力之源看,确实属于“数据产品”。

数据产品开发的兴起将推动数据科学的嵌入式应用。数据科学将作为传统产品的创新点、增值点和竞争力之源,成为产品开发的必要环节,数据科学与领域实呈现出了高度融合的趋势。

众包的广泛应用为传统知识库建设中的数据量与形式化程度之间的矛盾提供了新的解决方案。在传统知识库建设中,要么形式化程度高,但数据量不够,反之亦然。众包数据处理模式的出现使位于数据链长尾的专家余成为知识的主要贡献者和积极参与者。从协同方式看,众包中大规模协同可以分为机器协同、人机协同和人际协同三种表现形式。其中,人机协同是数据科学研究的重要课题。例如,混合智能——人与机器的互补型智能正成为人工智能的新课题。再如,语义Web技术的出现为人机协同提供了一种重要的技术支撑。

公众数据科学(CitizenDataScience)是专家余和大规模协同在数据科学领域的应用的主要表现形式之一。所谓的公众数据科学属于公众科学(CitizenScience),是指公众参与的数据科学,与数据科学(DataScience)的区别在于参与研究者以非职业的兴趣爱好者和志愿者为主。也就是说,公众数据科学是一种基于众包和专家余的准数据科学,也是在数据科学成为一门广为接受的正式科学之前的过渡型理论。

数据科学项目任务往往是富有挑战性的工作,每一项任务都是独一无二的,对工作人员的要求超出数据工程师的能力范畴,亟待由一类新型人才——数据科学家来承担。从DrewConvey的数据科学维恩图[106]可看出,数据科学具有三个基本要素,即理论(统计学与数学知识)、实践(领域实战)和精神(黑客精神)。可见,数据科学与传统科学的人才需求不同,前者不仅要求传统科学中的理论与实践,而且还需要有数据科学家的“精神”素质,即原创性设计、批判性思考和好奇心地提问的能力。

数据科学是一门极其特殊的新兴学科,具有与其他学科不同的新特征,例如思维模式的转变(从数据范式到知识范式的转变)、对数据认识的变化(从数据的被动属性到主动属性的转移)、指导思想的变化(实用主义和现实主义的回归)、以数据产品开发为主要目的(数据成为传统产品的主要创新点)、专业数据科学与专业中的数据科学的差异性以及数据科学的三要素(不仅涉及理论和实践,而且还包括精神素质)。因此,数据科学的研究不能简单照搬传统学科的经验,应尊重其特殊使命和属性。为此,我们对数据科学研究者提出如下几点建议:

(1)正确认识数据科学。正确认识数据科学的内涵是有效学习和规范研究数据科学的前提。目前,部分学者误以为“数据科学=统计学+机器学习”,过于强调统计学和机器学习,而忽略了数据科学本身。其实,统计学和机器学习是数据科学的理论基础,而并非其核心内容。数据科学具有区别与其他学科的独特的研究使命、研究视角、思维模式、做事原则和知识体系。如果脱离了这些独到之处,数据科学的学习和研究将发生方向性的误读和本质性的扭曲。

(4)侧重培养信心和兴趣,学会跟踪数据科学的最新动态。一方面,数据科学建立在统计学和机器学习等基础理论之上,学习门槛较高,因此,培育自己对数据科学的学习信心和兴趣尤为重要;另一方面,数据科学仍属于一门快速发展的新兴学科,其理念、理论、方法、技术和工具在不断变化之中,要求我们必须掌握动态跟踪数据科学领域的国际顶级会议、重要学术期刊、主要研究机构、代表性人物和标志性实践的能力。

(5)重视试验设计及假设检验。试验设计是数据科学项目的重要活动之一。数据科学家应根据数据科学项目的研究目的,有创造性地提出研究假设,并设计对应的试验,最终通过这些试验达到假设检验的目的。以华盛顿大学和加州大学伯克利分校的数据科学专业人才培养方案为例,分别开出了课程《应用统计与试验设计(AppliedStatistics&ExperimentalDesign)和《试验与因果分析(ExperimentsandCausality)》,重点培养学生的试验设计和假设检验的能力。

(7)以数据产品开发为主要抓手。数据产品开发是学习与研究数据科学的主要抓手之一。需要注意的是,数据产品不限于数据形态的产品,任何用数据来帮助目标用户实现其某一目的的产品都可视为数据产品。数据是未来产品的创新点和增值点。因此,向数据产品的转变是传统产品的重要发展趋势。以Google眼镜[111]为例,其创新源自数据,而不在于其外观和选材,以数据为中心的产品设计才是该产品与传统的眼镜类产品的根本区别。可见,数据产品开发是数据科学的最为直接且最为普遍的应用。

(8)准确定位人才培养目的。数据科学的学习和人才培养的目的是培养数据科学家而不是数据工程师。二者的区别在于,数据工程师负责的是“数据本身的管理”,而数据科学家的主要职责是“基于数据的管理”,包括基于数据的分析、决策、流程定义与再造、产品设计和服务提供等。因此,相对于数据工程师,数据科学家对人才的要求更高,不仅要有理论功底和实践经验,而且还要求有精神素质,即创造性设计、批判性思考和好奇性提问的能力。

参考文献

[1]JohnWalkerS.Bigdata:Arevolutionthatwilltransformhowwelive,work,andthink[J].2014.

[2]BoydD,CrawfordK.Criticalquestionsforbigdata:Provocationsforacultural,technological,andscholarlyphenomenon[J].Information,communication&society,2012,15(5):662-679.

[3]KitchinR.BigData,newepistemologiesandparadigmshifts[J].BigData&Society,2014,1(1):2053951714528481.

[4]JagadishHV.Bigdataandscience:mythsandreality[J].BigDataResearch,2015,2(2):49-52.

[5]ProvostF,FawcettT.Datascienceanditsrelationshiptobigdataanddata-drivendecisionmaking[J].BigData,2013,1(1):51-59.

[6]NaurP.Concisesurveyofcomputermethods[M]StudentlitteraturAB:1974.

[7]ClevelandWS.Datascience:anactionplanforexpandingthetechnicalareasofthefieldofstatistics[J].Internationalstatisticalreview,2001,69(1):21-26.

[8]MattmannCA.Computing:Avisionfordatascience[J].Nature,2013,493(7433):473-475.

[9]DharV.Datascienceandprediction[J].CommunicationsoftheACM,2013,56(12):64-73.

[10]PatilT,DavenportT.Datascientist:thesexiestjobofthe21stcentury[J].HarvardBusinessReview,2012.

[11]KitchinR.Bigdataandhumangeography:Opportunities,challengesandrisks[J].Dialoguesinhumangeography,2013,3(3):262-267.

[12]SmithM.TheWhiteHousenamesDr.DJPatilasthefirstUSchiefdatascientist[J].TheWhiteHouseBlog,2015.

[15]SchuttR,O'NeilC.Doingdatascience:Straighttalkfromthefrontline[M].O'ReillyMedia,Inc.,2013:7.

[16]JerryOverton.GoingProinDataScience[M].O’ReillyMedia,Inc,2016:12.

[17]朝乐门.数据科学理论与实践[M].北京:清华大学出版社,2017:15.

[18]GrayJ,ChambersL,BounegruL.Thedatajournalismhandbook:howjournalistscanusedatatoimprovethenews[M]."O'ReillyMedia,Inc.",2012.

[19]KalidindiSR,DeGraefM.Materialsdatascience:currentstatusandfutureoutlook[J].AnnualReviewofMaterialsResearch,2015,45:171-193.

[20]FangB,ZhangP.BigDatainFinance[M]//BigDataConcepts,Theories,andApplications.SpringerInternationalPublishing,2016:391-412.

[21]DavisK.EthicsofBigData:Balancingriskandinnovation[M]."O'ReillyMedia,Inc.",2012.

[22]WestDM.Bigdataforeducation:Datamining,dataanalytics,andwebdashboards[J].GovernanceStudiesatBrookings,2012,4:1-0.

[23]LabrinidisA,JagadishHV.Challengesandopportunitieswithbigdata[J].ProceedingsoftheVLDBEndowment,2012,5(12):2032-2033.

[24]KaislerS,ArmourF,EspinosaJA,etal.Bigdata:Issuesandchallengesmovingforward[C].SystemSciences(HICSS),201346thHawaiiInternationalConferenceon.IEEE,2013:995-1004.

[25]ChenH,ChiangRHL,StoreyVC.Businessintelligenceandanalytics:Frombigdatatobigimpact[J].MISquarterly,2012,36(4).

[26]ProvostF,FawcettT.Datascienceanditsrelationshiptobigdataanddata-drivendecisionmaking[J].BigData,2013,1(1):51-59.

[27]ClevelandWS.Datascience:anactionplanforexpandingthetechnicalareasofthefieldofstatistics[J].Internationalstatisticalreview,2001,69(1):21-26.

[28]MattmannCA.Computing:Avisionfordatascience[J].Nature,2013,493(7433):473-475.

[29]SchuttR,O'NeilC.Doingdatascience:Straighttalkfromthefrontline[M]."O'ReillyMedia,Inc.",2013.

[30]ShanahanJG,DaiL.Largescaledistributeddatascienceusingapachespark[C]//Proceedingsofthe21thACMSIGKDDInternationalConferenceonKnowledgeDiscoveryandDataMining.ACM,2015:2323-2324.

[31]HolmesA.Hadoopinpractice[M].ManningPublicationsCo.,2012.

[32]SharmaS,ShandilyaR,PatnaikS,etal.LeadingNoSQLmodelsforhandlingBigData:abriefreview[J].InternationalJournalofBusinessInformationSystems,2016,22(1):1-25.

[33]SadalagePJ,FowlerM.NoSQLdistilled:abriefguidetotheemergingworldofpolyglotpersistence[M].PearsonEducation,2012.

[34]MarxV.Biology:Thebigchallengesofbigdata[J].Nature,2013,498(7453):255-260.

[35]RaghupathiW,RaghupathiV.Bigdataanalyticsinhealthcare:promiseandpotential[J].Healthinformationscienceandsystems,2014,2(1):3.

[36]KimGH,TrimiS,ChungJH.Big-dataapplicationsinthegovernmentsector[J].CommunicationsoftheACM,2014,57(3):78-85.

[37]DanielB.Bigdataandanalyticsinhighereducation:Opportunitiesandchallenges[J].Britishjournalofeducationaltechnology,2015,46(5):904-920.

[38]GeorgeG,HaasMR,PentlandA.Bigdataandmanagement[J].AcademyofManagementJournal,2014,57(2):321-326.

[39]SwanM.Thequantifiedself:Fundamentaldisruptioninbigdatascienceandbiologicaldiscovery[J].BigData,2013,1(2):85-99.

[40]LewisSC.JournalisminanEraofBigData:Cases,concepts,andcritiques[J].2015.

[41]RahmE.BigDataAnalytics[J].it-InformationTechnology,2016,58(4):155-156.

[42]BaumerB.Adatasciencecourseforundergraduates:Thinkingwithdata[J].TheAmericanStatistician,2015,69(4):334-342.

[43]HardinJ,HoerlR,HortonNJ,etal.Datascienceinstatisticscurricula:Preparingstudentsto“thinkwithdata”[J].TheAmericanStatistician,2015,69(4):343-353.

[44]CasselLN,PosnerM,DichevaD,etal.Advancingdatascienceforstudentsofallmajors[C]//Proceedingsofthe2017ACMSIGCSETechnicalSymposiumonComputerScienceEducation.ACM,2017:722-722.

[45]BermanFD,BournePE.Let'smakegenderdiversityindatascienceapriorityrightfromthestart[J].PLoSbiology,2015,13(7):e1002206.

[46]LemenChao.DataScience[M].TsinghuaUniversityPress,2016.

[47]CooperP.Data,information,knowledgeandwisdom[J].Anaesthesia&IntensiveCareMedicine,2014,15(1):44-45.

[48]ErlT,KhattakW,BuhlerP.Bigdatafundamentals:concepts,drivers&techniques[M].PrenticeHallPress,2016.

[49]WangG,GunasekaranA,NgaiEWT,etal.Bigdataanalyticsinlogisticsandsupplychainmanagement:Certaininvestigationsforresearchandapplications[J].InternationalJournalofProductionEconomics,2016,176:98-110.

[50]CardenasAA,ManadhataPK,RajanSP.Bigdataanalyticsforsecurity[J].IEEESecurity&Privacy,2013,11(6):74-76.

[51]RaghupathiW,RaghupathiV.Bigdataanalyticsinhealthcare:promiseandpotential[J].Healthinformationscienceandsystems,2014,2(1):3.

[52]JefferyT.Leek,RogerD.Peng.WhatisthequestionMistakingthetypeofquestionbeingconsideredisthemostcommonerrorindataanalysis[J].Science,2015,374(6228):1314-1315.

[53]SwanM.Thequantifiedself:Fundamentaldisruptioninbigdatascienceandbiologicaldiscovery[J].BigData,2013,1(2):85-99.

[54]RuckensteinM,PantzarM.Beyondthequantifiedself:Thematicexplorationofadataisticparadigm[J].newmedia&society,2017,19(3):401-418.

[55]KhatriV,BrownCV.Designingdatagovernance[J].CommunicationsoftheACM,2010,53(1):148-152.

[56]KhatriV,BrownCV.Designingdatagovernance[J].CommunicationsoftheACM,2010,53(1):148-152.

[57]ThomasG.TheDGIdatagovernanceframework[J].TheDataGovernanceInstitute,Orlando,FL(USA),2006.

[58]LeeSU,ZhuL,JefferyR.DesignChoicesforDataGovernanceinPlatformEcosystems:AContingencyModel[J].arXivpreprintarXiv:1706.07560,2017.

[60]LiuJ,LiJ,LiW,etal.Rethinkingbigdata:Areviewonthedataqualityandusageissues[J].ISPRSJournalofPhotogrammetryandRemoteSensing,2016,115:134-142.

[61]李建中,王宏志,高宏.大数据可用性的研究进展[J].软件学报,2016,27(7):1605-1625.

[62]RahmE,DoHH.Datacleaning:Problemsandcurrentapproaches[J].IEEEDataEng.Bull.,2000,23(4):3-13.

[63]WickhamH.Tidydata[J].JournalofStatisticalSoftware,2014,59(10):1-23.

[64]LafuenteG.Thebigdatasecuritychallenge[J].Networksecurity,2015,2015(1):12-14.

[65]PereraC,RanjanR,WangL,etal.Bigdataprivacyintheinternetofthingsera[J].ITProfessional,2015,17(3):32-39.

[66]PatilD,NorenA.BuildingDataScienceTeams:TheSkills,ToolsandPerspectivesBehindGreatDataScienceGroups[M].O'Reilly,2011.

[68]ParasieS,DagiralE.Data-drivenjournalismandthepublicgood:“Computer-assisted-reporters”and“programmer-journalists”inChicago[J].Newmedia&society,2013,15(6):853-871.

[69]DuD,LiA,ZhangL.SurveyontheapplicationsofbigdatainChineserealestateenterprise[J].ProcediaComputerScience,2014,30:24-33.

[70]MiddletonSE,ShadboltNR,DeRoureDC.Ontologicaluserprofilinginrecommendersystems[J].ACMTransactionsonInformationSystems(TOIS),2004,22(1):54-88.

[71]MarshallP,ToddB,RhodesM.UltimateGuidetoGoogleAdWords[M].EntrepreneurPress,2014.

[72]GurrinC,SmeatonAF,DohertyAR.Lifelogging:Personalbigdata[J].FoundationsandTrendsinInformationRetrieval,2014,8(1):1-125.

[73]RaghupathiW,RaghupathiV.Bigdataanalyticsinhealthcare:promiseandpotential[J].Healthinformationscienceandsystems,2014,2(1):3.

[74]MarxV.Biology:Thebigchallengesofbigdata[J].Nature,2013,498(7453):255-260.

[75]Bello-OrgazG,JungJJ,CamachoD.Socialbigdata:Recentachievementsandnewchallenges[J].InformationFusion,2016,28:45-59.

[76]MohantyS,JagadeeshM,SrivatsaH.Bigdataimperatives:Enterprise‘BigData’warehouse,‘BI’implementationsandanalytics[M].Apress,2013.

[77]BertotJC,GorhamU,JaegerPT,etal.Bigdata,opengovernmentande-government:Issues,policiesandrecommendations[J].InformationPolity,2014,19(1,2):5-16.

[78]AggarwalA.OpportunitiesandChallengesofBigDatainPublicSector[J].ManagingBigDataIntegrationinthePublicSector,2015:289.

[80]KaislerS,ArmourF,EspinosaJA,etal.Bigdata:Issuesandchallengesmovingforward[C]//SystemSciences(HICSS),201346thHawaiiInternationalConferenceon.IEEE,2013:995-1004

[81]Al-Jarrah,OmarY.,etal."Efficientmachinelearningforbigdata:Areview."BigDataResearch2.3(2015):87-93.

[82]Batra,Surinder."BigdataanalyticsanditsreflectionsonDIKWhierarchy."ReviewofManagement4.1/2(2014):5.

[83]DonhostMJ,AnfaraJrVA.Data-drivendecisionmaking[J].MiddleSchoolJournal,2010,42(2):56-63.

[84]ChenCLP,ZhangCY.Data-intensiveapplications,challenges,techniquesandtechnologies:AsurveyonBigData[J].InformationSciences,2014,275:314-347.

[85]VoulgarisZ,MagoulasGD.Extensionsoftheknearestneighbourmethodsforclassificationproblems[C]//Proc.ofthe26thIASTEDInternationalConferenceonArtificialIntelligenceandApplications(AIA),Innsbruck,Austria,February11.2008,13:23-28.

[87]Kleppmann,Martin.DesigningData-IntensiveApplications:TheBigIdeasBehindReliable,Scalable,andMaintainableSystems."O'ReillyMedia,Inc.",2017.

[89]McAfeeA,BrynjolfssonE,DavenportTH.Bigdata:themanagementrevolution[J].Harvardbusinessreview,2012,90(10):60-68.

[90]Fan,Jianqing,FangHan,andHanLiu."Challengesofbigdataanalysis."Nationalsciencereview1.2(2014):293-314.

[91]Edgar,RobertC."MUSCLE:amultiplesequencealignmentmethodwithreducedtimeandspacecomplexity."BMCbioinformatics5.1(2004):113.

[92]GinsbergJ,MohebbiMH,PatelRS,etal.Detectinginfluenzaepidemicsusingsearchenginequerydata[J].Nature,2009,457(7232):1012-1014.

[93]LazerD,KennedyR,KingG,etal.TheParableofGoogleFlu:TrapsinBigDataAnalysis[J].Science,2014,343(6176):1203-1205.

[94]Tansley,Stewart,andKristinM.Tolle.Thefourthparadigm:data-intensivescientificdiscovery.Ed.TonyHey.Vol.1.Redmond,WA:Microsoftresearch,2009.

[95]ProvostF,FawcettT.Datascienceanditsrelationshiptobigdataanddata-drivendecisionmaking[J].BigData,2013,1(1):51-59.

[96]DharV,ChouD.Acomparisonofnonlinearmodelsforfinancialprediction[J].IEEETransactionsonNeuralnetworks,2001,12(4):907-921.

[97]Fllesdal,Dagfinn."Hermeneuticsandthehypothetico‐deductivemethod."Dialectica33.3‐4(1979):319-336.

[98]BlumerA,EhrenfeuchtA,HausslerD,etal.Occam'srazor[J].Informationprocessingletters,1987,24(6):377-380.

[99]LeCunY,BengioY,HintonG.Deeplearning[J].Nature,2015,521(7553):436-444.

[100]LiuZH,HammerschmidtB,McMahonD.JSONdatamanagement:supportingschema-lessdevelopmentinRDBMS[C]//Proceedingsofthe2014ACMSIGMODinternationalconferenceonManagementofdata.ACM,2014:1247-1258.

[101]BrewerE.CAPtwelveyearslater:Howthe"rules"havechanged[J].Computer,2012,45(2):23-29.

[102]ZahariaM,ChowdhuryM,FranklinMJ,etal.Spark:Clustercomputingwithworkingsets[J].HotCloud,2010,10(10-10):95.

[103]Plunkett,Tom,etal.OracleBigDataHandbook.McGraw-HillOsborneMedia,2013.

[104]PatilDJ.DataJujitsu:theartofturningdataintoproduct[M]."O'ReillyMedia,Inc.",2012.

[105]LeadbeaterC,MillerP.ThePro-Amrevolution:Howenthusiastsarechangingoursocietyandeconomy[M].Demos,2004.

[106]ConwayD.DataScienceintheUSIntelligenceCommunity[J].IQTQuarterly,2011,2(4):24-27.

[107]AndersonP,McGuffeeJ,UminskyD.Datascienceasanundergraduatedegree[C]//Proceedingsofthe45thACMtechnicalsymposiumonComputerscienceeducation.ACM,2014:705-706.

[108]MarshallL,EloffJHP.TowardsanInterdisciplinaryMaster’sDegreeProgrammeinBigDataandDataScience:ASouthAfricanPerspective[C]//AnnualConferenceoftheSouthernAfricanComputerLecturers'Association.SpringerInternationalPublishing,2016:131-139.

[109]WestJD,PortenoyJ.10TheDataGoldRushinHigherEducation[J].BigDataIsNotaMonolith,2016:129.

[110]AndersonP,BowringJ,McCauleyR,etal.Anundergraduatedegreeindatascience:curriculumandadecadeofimplementationexperience[C]//Proceedingsofthe45thACMtechnicalsymposiumonComputerscienceeducation.ACM,2014:145-150.

[111]MuenstererOJ,LacherM,ZoellerC,etal.GoogleGlassinpediatricsurgery:anexploratorystudy[J].Internationaljournalofsurgery,2014,12(4):281-289.

人工智能赛博物理操作系统

AI-CPSOS

“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPSOS”:云计算+大数据+物联网+区块链+人工智能)分支用来的今天,企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中,利用AI-CPSOS形成数字化+智能化力量,实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPSOS的真正价值并不来自构成技术或功能,而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化,这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合,没有颠覆现状的意愿,这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPSOS颠覆性的数字化+智能化力量,领导者必须在行业、企业与个人这三个层面都保持领先地位:

AI-CPSOS是数字化智能化创新平台,设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端,可以帮助企业将创新成果融入自身业务体系,实现各个前沿技术在云端的优势协同。AI-CPSOS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉,形成了领导力模式,使数字化融入到领导者所在企业与领导方式的核心位置:

AI-CPSOS形成的数字化+智能化力量通过三个方式激发经济增长:

给决策制定者和商业领袖的建议:

子曰:“君子和而不同,小人同而不和。”《论语·子路》云计算、大数据、物联网、区块链和人工智能,像君子一般融合,一起体现科技就是生产力。

如果说上一次哥伦布地理大发现,拓展的是人类的物理空间。那么这一次地理大发现,拓展的就是人们的数字空间。在数学空间,建立新的商业文明,从而发现新的创富模式,为人类社会带来新的财富空间。云计算,大数据、物联网和区块链,是进入这个数字空间的船,而人工智能就是那船上的帆,哥伦布之帆!

新一代技术+商业的人工智能赛博物理操作系统AI-CPSOS作为新一轮产业变革的核心驱动力,将进一步释放历次科技革命和产业变革积蓄的巨大能量,并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节,形成从宏观到微观各领域的智能化新需求,催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革,深刻改变人类生产生活方式和思维模式,实现社会生产力的整体跃升。

产业智能官AI-CPS

用“人工智能赛博物理操作系统”(新一代技术+商业操作系统“AI-CPSOS”:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

新技术:“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”;新产业:“智能制造”、“智能金融”、“智能零售”、“智能驾驶”、“智能城市”;新模式:“财富空间”、“工业互联网”、“数据科学家”、“赛博物理系统CPS”、“供应链金融”。

官方网站:AI-CPS.NET

本文系“产业智能官”(公众号ID:AI-CPS)收集整理,转载请注明出处!

THE END
1.大数据精准营销有哪些典型方式?,标准版RE35人物1、时间序列分析:分析用户在一段时间内的行为趋势,预测未来的行为。 2、关联规则挖掘:挖掘用户行为之间的关联性,预测用户的潜在需求。 3、机器学习:利用机器学习算法,对用户数据进行建模,预测用户未来的行为。 个性化推荐 个性化推荐是大数据精准营销的重要手段,通过对用户兴趣、消费习惯等数据的分析,为用户推荐符合其需http://www.hnspacenet.com/post/161.html
2.一文让你知道精准营销的本质营销推广互联网时代,精确营销才是硬道理。精确营销效果是以广告宣传最终的推广精确度和最终的转换率来考量,精确营销在商品精确定位基本上,借助互联网大数据与线上与线下方式,运用智能化信息专用工具及社交媒体,对于精确消费者开展人性化沟通交流与营销推广。 精确营销不但能够做客户画像,还能够在营销中精准剖析客户的情况,对忠诚https://aiqicha.baidu.com/qifuknowledge/detail?id=10820049837
3.教你如何快速理解大数据时代的精准营销教你如何快速理解大数据时代的精准营销 之前的文章,小编跟大家分享过一些客户细分以及用户画像等问题。其实这些都是大数据时代的一些精准营销策略和手段,那么今天就让我们一起来看什么是精准营销吧。 一、什么是精准营销 1.精准营销定义 精准营销是指企业通过定量和定性相结合的方法,对目标市场的不同消费者进行细致分析,https://www.cda.cn/bigdata/28057.html
4.如何利用大数据进行精准营销大数据分析可以提供丰富的用户信息和行为数据,帮助企业更好地了解客户需求,制定精准的营销策略和方案,从而提高营销效果和客户满意度。以下是如何利用大数据进行精准营销的几个关键步骤:1.数据采集和整合;2.数据分析和挖掘;3.客户细分和画像建立;4.个性化营销;5.多渠道投放;6.测试和优化。https://www.linkflowtech.com/news/264
5.大数据时代如何利用大数据精准营销企业应该如何驾驭数据使之为己所用,利用大数据洞察消费者行为变化,准确地分析用户的特征和偏好, 挖掘产品的潜在高价值用户群体,实现市场营销的精准化、场景化,是形成差异化竞争优势的关键所在。以下是小编整理的大数据时代如何利用大数据精准营销的相关内容,希望对您有帮助,一起看看吧`http://m.lewlx.com/member/64-article/1130
6.大数据时代零售企业如何进行精确营销大数据时代零售企业如何进行精确营销 零售企业通过多年的运营,掌握了大量的一手数据资料,如果能从这些数据中发现其的价值,掌握消费者的消费行为规律,预测消费者的购买意图,从而有针对性地制定精确的营销策略,消费者将感受到企业对他们的关注,降低营销成本的同时能改善消费者的消费体验。https://www.51cto.com/article/528678.html
7.大数据技术在精准营销中的应用6篇(全文)数据挖掘是精准营销创造商业价值的关键,也应该是精准营销重要组成部分。 在保险企业中,应用数据挖掘有以下好处:从业务数据方面看,利用企业经营积累起来的海量数据,经过数据预处理等操作后,并最终挖掘出有用的信息、规则,用来帮助企业的管理者进行正确的决策。站在未来的角度上看,数据挖掘通过对业务数据进行研究与分析,https://www.99xueshu.com/w/file4qjnx2kb.html
8.江小白营销面临的问题及对策分析通过对前期市场调研大数据的利用,从北方典型城市入手进行试点,并以此来调整出更加适合北方人饮酒习惯和偏好的产品口感、包装、价格等。 4.3.2 拓展目标顾客群体 在问题分析中提到,江小白顾客培养成本过高、顾客代谢周期快,以致不利于为品牌产品培养忠实消费者,企业可以通过拓展产品种类以及层次,对顾客进行分年龄段营销等来https://www.fx361.com/page/2021/0609/8427601.shtml
9.中建材国际贸易有限公司数字化贸易转型助力业务提质增效(二)利用外贸大数据分析,进行精准营销 通过数字化建设,全流程在线化的运营,ETP系统中积累了大量数据,如何利用好这些外贸数据,为中小企业开拓海外市场提供便利成为关键。结合数据挖掘、市场分析、行情跟踪,在现有大数据供应的基础上,平台为服务企业提供一对一的专属全球推广服务,在数据输出、产品分类咨询、政府数据供应等方https://zyk.bjhd.gov.cn/jbdt/auto4502_51797/auto4502_53178/auto4502/auto4502/202307/t20230712_4610931_hd.shtml
10.大数据精准营销应用(一)精准营销数据分析应用3)精准营销为客户提供增值服务,为客户细致分析,量身定做,避免了用户对商品的挑选,节约了客户的时间成本和精力,同时满足客户的个性化需求,增加了顾客让渡价值。 4)发达的信息技术有益于企业实现精准化营销,“大数据”和“互联网+”时代的到来,意味着人们可以利用数字中的镜像世界映射出现实世界的个性特征。 https://blog.csdn.net/weixin_48231783/article/details/125127509
11.大数据时代下的精准营销策略.pptx数据采集与整合精准营销利用大数据实现个性化服务在大数据时代,企业通过收集用户数据,分析用户行为和偏好,进行精准的个性化营销,提升用户体验和转化率。精准营销提高营销效果和降低成本通过对大数据的精准分析,企业能够准确定位目标用户,提高营销效果,同时减少无效投放,降低营销成本。 https://max.book118.com/html/2024/0228/6133012223010052.shtm
12.大数据分析背景下电子商务平台精准营销策略分析——以京东为例随着信息网络的发达和电商的出现,再加上大数据环境的巨大冲击,企业充分利用大数据分析创造的技术条件,提供了精准营销这一销售创新方法[1]。突出反映在实现公司利润最大化的营销工作中。京东作为国内规模最大的自营型电子商务平台企业,依托大数据分析技术等优势资源进行了精准营销管理方法的实施,所取得的收效也极为显著。http://www.baixinglunwen.com/Paper_View.asp?ID=2787&SortID=33
13.大数据分析到底是什么工作内容帆软数字化转型知识库某金融机构通过大数据分析,构建了风险控制模型,实时监控客户的贷款风险,提前预警,降低了贷款违约率。某医疗机构通过大数据分析,构建了疾病预测模型,提高了诊断准确性,优化了医疗资源配置。某零售企业通过大数据分析,构建了客户画像,进行精准营销,提升了销售额和客户满意度。 https://www.fanruan.com/blog/article/78584/
14.精准营销的营销案例和分析(大数据如何触发精准营销)? 发达的信息技术有益于企业实现精准化营销,“大数据”和“互联网+”时代的到来,意味着人们可以利用数字中的镜像世界映射出现实世界的个性特征。 大数据精准营销过程 (1)助力客户信息收集与处理 客户数据收集与处理是一个数据准备的过程,是数据分析和挖掘的基础,是搞好精准营销的关键和基础。 https://www.niaogebiji.com/article-130536-1.html