如何成为一名数据科学家?

开通VIP,畅享免费电子书等14项超值服

首页

好书

留言交流

下载APP

联系客服

2018.02.19

这几年,围绕大数据和数据科学有许多炒作。其实要理解某样东西,有时需要清楚的了解它不是什么;数据科学家,不是统计学家,不是数据分析师,不是软件工程师,不是业务分析师,他们对这些领域都有一些了解,但又不完全精通于这些领域。

所以正确的做法是抓住大数据行业的中点,摒弃过时的手法。比如,你需要了解的知识虽然有统计学、计算机科学、机器学习。但你并不需要对其无所不知,也没有必要纠结那些极其复杂的算法。

数据科学家在商业分析、统计学和计算机科学领域是通才,他们可以开发数据、收集策略并使用数据发现一些可操作的商业见解。也就是说,数据科学家要具有创造性,能根据分析业务,通过数据,制定分析,提出方案,推动增长。

所以现在你发现了,数据科学包含的知识非常广泛,既不像网络上说的各种算法那样高深莫测,也不是三言两语就能解释清楚如何成为数据科学家这个问题那么简单。

首先,要理解数据科学,基本数学知识包括:

从技术的角度出发,要掌握的技能和知识有:

但是掌握一门专业知识最好的方法还是系统性的阅读书籍。如果想进一步了解数据科学家的工作或者如何提升自己的数据科学技能,我推荐以下这几本书籍:《数据天才》、《敏捷数据科学》、《数据科学家养成手册》、《Python大战机器学习》

数据科学家」这个词覆盖的角色很广,涵盖了学术、金融和政府等多种产业和组织。然而,有三个重要的能力是每位数据科学家都必须理解的:

1、必须理解数据是有意义的

我们经常忽视一个事实,那就是数据是有含义的,并且理解其中的意义非常重要。如果我们想要在数字中获得有用的洞察,就必须超越数字,理解它们暗藏的内涵。这一点与算法和工程等没有关系。理解数据是一门艺术,真的非常重要。

2、必须理解你需要解决的问题,以及数据与之的联系

此时,你可以打开工具箱,找到正确的分析方法和算法来分析数据。机器学习可以进行技术分析。除了机器学习之外,还有几百种技术可以用数据来解决问题,例如运筹学、决策论、博弈论、控制论等,这些理论都有很长的历史。一旦你理解了数据和你试图解决的问题,下一步就应该选择匹配的算法,来获得有意义的解。

3、必须理解工程问题

1、最重要的是:无论你想要在目前的工作中学到什么,都要找到方法

2、分析您拥有的任何数据

比如消费前的研究数据(即决定要购买哪种微波炉),个人健身追踪器的数据,烹饪食谱的营养数据,为孩子调查的学前教育数据。把它变成一个小型的数据分析项目,并写到博客中。例如如果你是研究生,你可以分析所教学生的年级数据。

3、学习最重要的数据科学软件工具

Python'sdatasciencestack(pandas/numpy/scipy)是最有用的技术(阅读本书!),紧随其后的是SQL。在学习其他语言之前我会专注于学习Python和SQL。Python被广泛使用且非常灵活。如果你决定参与到更多的软件开发工作,或者全面进入机器学习,你会有优势。

4、使用Kaggle

做教程,参加论坛,参加比赛(不要担心你处于什么水平-只是专注于每天做得更好一点)。这是学习实用机器技能的最好方法。

5、搜索您所在地区的数据科学和技术会议

随着数据科学在过去几年的激增,如今在全球有各种会议。例如,Google最近在加利福尼亚州山景城举办了一次TensorFlowDev峰会,但有全世界观众一起观看直播(包括尼日利亚的阿布贾,印度的哥印拜陀和摩洛哥的拉巴特)。

在线课程是一个了不起的资源。你可以在家里舒适地跟随世界上最好的数据科学家学习。通常作业是学习最多的地方,所以不要跳过它们!这里有几个我最喜欢的课程:

在线课程对获取知识非常有用(做完作业非常重要,这是你学习的方式)。不过,我还没发现获得证书有啥好处。(虽然我知道这是一个新增长的领域)。因为之前雇佣数据科学家时,我面试过很多求职者,而且自己也有这方面的求职经验,都是经验之谈。

价格:英文版61.36美元,中文版63.1元

品质得分:10/10

这本书在亚马逊上评分非常高,其作者是来自南加利福尼亚大学、斯坦福大学和华盛顿大学的四位教授GarethJames、DanielaWitten、TrevorHastie和RobTibshirani;他们都有统计学背景。这本书比《TheElementsofStatisticalLearning(统计学习基础)》更为实用,它给出了一些使用R语言实现的案例。

2.TheElementsofStatisticalLearning:DataMining,Inference,andPrediction,SecondEdition(统计学习基础:数据挖掘、推理和预测)

价格:英文版62.0美元,中文版45元

品质得分:9/10

3.PatternRecognitionandMachineLearning(模式识别与机器学习)

价格:英文版60.0美元,无中文版

品质得分:8/10

亚马逊上的高分书籍,作者是著名作家ChristopherM.Bishop,他是微软剑桥研究院的一位杰出科学家,领导微软机器学习与感知研究组。这本书在技术上全面覆盖了各种机器学习主题,包括回归、线性分类、神经网络、核方法和图模型。

4.MachineLearning:AProbabilisticPerspective(机器学习:概率学的观点)

价格:英文版79.16美元,无中文版

品质得分:7/10

MachineLearning:AProbabilisticPerspective一书提供了可以自动检测数据模式,然后使用得出的模式预测未来数据的方法。该教材基于统一的、概率学的方法对机器学习领域提供了全面的介绍。该书的作者KevinMurphy是谷歌的一位研究人工智能、机器学习、计算机视觉、知识基础建设和自然语言处理的研究科学家。

5.DataMining:ConceptsandTechniques,ThirdEdition(数据挖掘:概念与技术,第三版)

价格:英文版50.0美元,中文版79.0元

品质得分:6/10

DataMining:ConceptsandTechniques,ThirdEdition一书的作者是伊利诺伊大学香槟分校计算机科学系的JiaweiHan(韩家炜)教授。这本书能让你了解、应用从大数据集中发现隐藏模式的理论和实践知识。这本书在亚马逊上获得了较为平均的评价。

6.DataMining:PracticalMachineLearningToolsandTechniques,ThirdEdition(数据挖掘:实用机器学习工具与技术,第3版)

价格:英文版37.5美元,中文版79.0元

这本书在亚马逊上的评价相当不错,其作者为新西兰怀卡托大学的三位计算机科学教授。他们也是基于Java的数据挖掘软件Weka的主要贡献者。因此,这本书重在数据挖掘领域的具体实现方面,尤其是基于Weka软件的工作平台。

7.ProbabilisticGraphicalModels:PrinciplesandTechniques(概率图模型:原理与技术)

价格:英文版91.66美元,中文版198元

ProbabilisticGraphicalModels:PrinciplesandTechniques这本独特的书提供了设计自动推理系统的概率图框架。这本书的作者是两位计算机科学教授:来自斯坦福大学人工智能实验室的DaphneKoller和来自耶路撒冷希伯来大学的NirFriedman。

8.IntroductiontoInformationRetrieval(信息检索导论)

价格:英文版57.0美元,中文版69元

9.MachineLearning(机器学习)

价格:英文版211.6美元,中文版35元

品质得分:5/10

MachineLearning是机器学习领域一本非常著名的著作,其作者是美国卡内基·梅隆大学计算机科学教授TomMitchell。TomMitchell是世界上第一个机器学习系的第一任系主任。MachineLearning一书涵盖了机器学习的一些基本领域,包括学习、决策树学习、神经网络、贝叶斯学习、强化学习等。

10.SpeechandLanguageProcessing,2ndEdition(语音和语言处理,第二版)

价格:英文版78.65美元,无中文版

SpeechandLanguageProcessing的作者是斯坦福大学语言学和计算机科学教授DanJurafsky。这是全面覆盖语言技术的第一本书——在所有层次上且包含所有现代技术。基于大型企业使用的应用统计和其它机器学习算法,这本书在语言技术这一主题上使用了实证的方法

11.IntroductiontoDataMining(数据挖掘导论)

价格:英文版118.91美元,中文版49.0元

品质得分:4/10

这本书在亚马逊上获得了很好的评分,其作者是三位计算机科学教授:密歇根州立大学的Pang-NingTan、明尼苏达大学的MichaelSteinbach和VipinKumar。这本书涵盖了数据挖掘的不同基本领域,如:分类、关联分析、聚类和异常检测。

12.NeuralNetworksforPatternRecognition(用于模式识别的神经网络)

价格:英文版88.42美元,无中文版

NeuralNetworksforPatternRecognition算是一本老书了,但其作者是微软剑桥研究院的杰出科学家ChristopherM.Bishop。

13.FoundationsofStatisticalNaturalLanguageProcessing(统计自然语言处理基础)

价格:英文版87.27美元,中文版55元

FoundationsofStatisticalNaturalLanguageProcessing是亚马逊上评分非常好的一本自然语言处理书籍。用统计方法处理自然语言文本近来已经占据了主导地位。这本书对统计自然语言处理(NLP)进行了全面的介绍,含所有开发NLP工具所需的理论和算法。

14.HandbookofStatisticalAnalysisandDataMiningApplications(统计分析和数据挖掘应用手册)

价格:英文版72.81美元,无中文版

这本书在亚马逊的评分高于平均分,其作者是三位在数据挖掘和统计学领域有行业经验的博士。这本书是一本指导商业分析师、科学家、工程师和研究者的全面的专业参考书,其中包含不同阶段的数据分析、建模和实现。

15.UnderstandingMachineLearning:FromTheorytoAlgorithms(理解机器学习:从理论到算法)

价格:英文版52.76美元,无中文版

UnderstandingMachineLearning:FromTheorytoAlgorithms提供了解释机器学习基本思想的广泛理论和将这些原理转化成实际算法的数学推导。这本书的两位作者是分别来自耶路撒冷希伯来大学和滑铁卢大学的计算机科学教授。

16.FoundationsofMachineLearning(机器学习基础)

价格:英文版96.56美元,无中文版

品质得分:3/10

FoundationsofMachineLearning是一本研究生阶段的教科书,介绍了机器学习的基本概念和方法。这本书描述了几种重要的算法,提供了这些算法的理论基础,并阐释了这些算法应用的主要方面。其作者MehryarMohri是纽约大学库朗数学科学研究所的计算机科学教授。

假定特征F1可以取特定值:A、B、C、D、E和F,其代表着学生在大学所获得的评分。现在请答题:

1.在下面说法中哪一项是正确的?

A.特征F1是名义变量(nominalvariable)的一个实例。

B.特征F1是有序变量(ordinalvariable)的一个实例。

C.该特征并不属于以上的分类。

D.以上说法都正确。

答案为(B):有序变量是一种在类别上有某些顺序的变量。例如,等级A就要比等级B所代表的成绩好一些。

2.下面哪个选项中哪一项属于确定性算法?

A.PCA

B.K-Means

C.以上都不是

答案为(A):确定性算法表明在不同运行中,算法输出并不会改变。如果我们再一次运行算法,PCA会得出相同的结果,而k-means不会。

A.正确

B.错误

4.下面哪一项对梯度下降(GD)和随机梯度下降(SGD)的描述是正确的?

A.只有1

B.只有2

C.只有3

D.1和2

E.2和3

F.都正确

答案为(A):在随机梯度下降中,每一次迭代选择的批量是由数据集中的随机样本所组成,但在梯度下降,每一次迭代需要使用整个训练数据集。

5.下面哪个/些超参数的增加可能会造成随机森林数据过拟合?

答案为(B):通常情况下,我们增加树的深度有可能会造成模型过拟合。学习速率在随机森林中并不是超参数。增加树的数量可能会造成欠拟合。

D.1和3

F.1和2

7.给定以下三个图表(从上往下依次为1,2,3).哪一个选项对以这三个图表的描述是正确的?

A.1是tanh,2是ReLU,3是SIGMOID激活函数

B.1是SIGMOID,2是ReLU,3是tanh激活函数

C.1是ReLU,2是tanh,3是SIGMOID激活函数

D.1是tanh,2是SIGMOID,3是ReLU激活函数

答案为(D):因为SIGMOID函数的取值范围是[0,1],tanh函数的取值范围是[-1,1],RELU函数的取值范围是[0,infinity]。

8.以下是目标变量在训练集上的8个实际值[0,0,0,1,1,1,1,1],目标变量的熵是所少?

A.-(5/8log(5/8)+3/8log(3/8))

B.5/8log(5/8)+3/8log(3/8)

C.3/8log(5/8)+5/8log(3/8)

D.5/8log(3/8)–3/8log(5/8)

答案为(A):信息熵的公式为:

9.假定你正在处理类属特征,并且没有查看分类变量在测试集中的分布。现在你想将onehotencoding(OHE)应用到类属特征中。那么在训练集中将OHE应用到分类变量可能要面临的困难是什么?

A.分类变量所有的类别没有全部出现在测试集中

B.类别的频率分布在训练集和测试集是不同的

C.训练集和测试集通常会有一样的分布

D.A和B都正确

E.以上都不正确

答案为(D):A、B项都正确,如果类别在测试集中出现,但没有在训练集中出现,OHE将会不能进行编码类别,这将是应用OHE的主要困难。选项B同样也是正确的,在应用OHE时,如果训练集和测试集的频率分布不相同,我们需要多加小心。

10.Skipgram模型是在Word2vec算法中为词嵌入而设计的最优模型。以下哪一项描绘了Skipgram模型?

A.A

B.B

C.A和B

D.以上都不是

答案为(B):这两个模型都是在Word2vec算法中所使用的。模型A代表着CBOW,模型B代表着Skipgram。

11.假定你在神经网络中的隐藏层中使用激活函数X。在特定神经元给定任意输入,你会得到输出「-0.0001」。X可能是以下哪一个激活函数?

A.ReLU

B.tanh

C.SIGMOID

答案为(B):该激活函数可能是tanh,因为该函数的取值范围是(-1,1)。

12.对数损失度量函数可以取负值。

A.对

B.错

答案为(B):对数损失函数不可能取负值。

13.下面哪个/些对「类型1(Type-1)」和「类型2(Type-2)」错误的描述是正确的?

E.1和3

F.3和2

答案为(E):在统计学假设测试中,I类错误即错误地拒绝了正确的假设(即假正类错误),II类错误通常指错误地接受了错误的假设(即假负类错误)。

14.下面在NLP项目中哪些是文本预处理的重要步骤?

A.1和2

B.1和3

C.2和3

D.1、2和3

15.假定你想将高维数据映射到低维数据中,那么最出名的降维算法是PAC和t-SNE。现在你将这两个算法分别应用到数据「X」上,并得到数据集「X_projected_PCA」,「X_projected_tSNE」。下面哪一项对「X_projected_PCA」和「X_projected_tSNE」的描述是正确的?

A.X_projected_PCA在最近邻空间能得到解释

B.X_projected_tSNE在最近邻空间能得到解释

C.两个都在最近邻空间能得到解释

D.两个都不能在最近邻空间得到解释

答案为(B):t-SNE算法考虑最近邻点而减少数据维度。所以在使用t-SNE之后,所降的维可以在最近邻空间得到解释。但PCA不能。

16-17题的背景:给定下面两个特征的三个散点图(从左到右依次为图1、2、3)。

16.在上面的图像中,哪一个是多元共线(multi-collinear)特征?

A.图1中的特征

B.图2中的特征

C.图3中的特征

D.图1、2中的特征

E.图2、3中的特征

F.图1、3中的特征

17.在先前问题中,假定你已经鉴别了多元共线特征。那么下一步你可能的操作是什么?

D.1或3

E.1或2

答案为(E):因为移除两个变量会损失一切信息,所以我们只能移除一个特征,或者也可以使用正则化算法(如L1和L2)。

18.给线性回归模型添加一个不重要的特征可能会造成:

A.只有1是对的

B.只有2是对的

C.1或2是对的

D.都不对

答案为(A):在给特征空间添加了一个特征后,不论特征是重要还是不重要,R-square通常会增加。

A.D1=C1,D2C3

B.D1=C1,D2>C2,D3>C3

C.D1=C1,D2>C2,D3

D.D1=C1,D2

E.D1=C1,D2=C2,D3=C3

F.无法确定

20.假定你现在解决一个有着非常不平衡类别的分类问题,即主要类别占据了训练数据的99%。现在你的模型在测试集上表现为99%的准确度。那么下面哪一项表述是正确的?

A.1and3

B.1and4

C.2and3

D.2and4

答案为(A):参考问题4的解答。

21.在集成学习中,模型集成了弱学习者的预测,所以这些模型的集成将比使用单个模型预测效果更好。下面哪个/些选项对集成学习模型中的弱学习者描述正确?

D.只有1

E.只有2

F.以上都不对

答案为(A):弱学习者是问题的特定部分。所以他们通常不会过拟合,这也就意味着弱学习者通常拥有低方差和高偏差。

22.下面哪个/些选项对K折交叉验证的描述是正确的

B.2和3

C.1和3

A.少于100秒

B.100-300秒

C.300-600秒

D.大于等于600秒

E.无法估计

答案为(D):因为深度为2的5折交叉验证每一次迭代需要训练10秒和测试2秒。因此五折验证需要12*5=60秒,又因为我们需要搜索10个深度值,所以算法需要60*10=600。

A.1000-1500秒

B.1500-3000秒

C.多于或等于3000Second

D.都不是

答案为(D):和23题一样。

25.下表是机器学习算法M1的训练错误率TE和验证错误率VE,基于TE和VE你想要选择一个超参数(H)。

基于上表,你会选择哪个H值?

A.1

B.2

C.3

D.4

E.5

答案为(D):看这个表,D选项看起来是最好的。

26.为了得到和SVD一样的投射(projection),你需要在PCA中怎样做?

A.将数据转换成零均值

B.将数据转换成零中位数

C.无法做到

D.以上方法不行

答案为(A):当数据有一个0均值向量时,PCA有与SVD一样的投射,否则在使用SVD之前,你必须将数据均值归0。

问题27-28的背景:假设存在一个黑箱算法,其输入为有多个观察(t1,t2,t3,……..tn)的训练数据和一个新的观察(q1)。该黑箱算法输出q1的最近邻ti及其对应的类别标签ci。你可以将这个黑箱算法看作是一个1-NN(1-最近邻)

27.能够仅基于该黑箱算法而构建一个k-NN分类算法?注:相对于k而言,n(训练观察的数量)非常大。

A.可以

B.不行

答案为(A):在第一步,你在这个黑箱算法中传递一个观察样本q1,使该算法返回一个最近邻的观察样本及其类别,在第二步,你在训练数据中找出最近观察样本,然后再一次输入这个观察样本(q1)。该黑箱算法将再一次返回一个最近邻的观察样本及其类别。你需要将这个流程重复k次。

28.我们不使用1-NN黑箱,而是使用j-NN(j>1)算法作为黑箱。为了使用j-NN寻找k-NN,下面哪个选项是正确的?

A.j必须是k的一个合适的因子

B.j>k

C.不能办到

答案为(C):原因和27题一样

A.1和3

C.1和4

D.2和4

30.你可以使用不同的标准评估二元分类问题的表现,例如准确率、log-loss、F-Score。让我们假设你使用log-loss函数作为评估标准。下面这些选项,哪个/些是对作为评估标准的log-loss的正确解释。

C.1和2

D.1、2、3

答案为(D):答案无需解释。

问题31-32背景:下面是数据集给出的5个样本。

注意:图像中点之间的视觉距离代表实际距离。

31.下面哪个是3-NN(3-最近邻)的留一法交叉验证准确率?

A.0

B.0.4

C.0.8

D.1

答案为(C):留一法交叉验证,我们将选择(n-1)观察值作为训练,以及验证的1观察值。把每个点作为交叉验证点,然后找到3个最近邻点。所以,如果你在每个点上重复该步骤,你会为上图中给出的所有正类找到正确的分类,而错误分类负类。因此,得到80%的准确率。

32.下面哪个K值将会有最低的差一法(leave-one-out)交叉验证精确度?

A.1NN

B.3NN

C.4NN

D.以上所有具有相同的差一法错误

答案(A):在1-NN中,被错误分类的每一个点都意味着你将得到0%的精确度。

33.假设你被给到以下数据,你想要在给定的两个类别中使用logistic回归模型对它进行分类。你正在使用带有L1正则化的logistic回归,其中C是正则化参数,w1和w2是x1和x2的系数。当你把C值从0增加至非常大的值时,下面哪个选项是正确的?

A.第一个w2成了0,接着w1也成了0

B.第一个w1成了0,接着w2也成了0

C.w1和w2同时成了0

D.即使在C成为大值之后,w1和w2都不能成0

答案(B):通过观察图像我们发现,即使只使用x2,我们也能高效执行分类。因此一开始w1将成0;当正则化参数不断增加时,w2也会越来越接近0。

34.假设我们有一个数据集,在一个深度为6的决策树的帮助下,它可以使用100%的精确度被训练。现在考虑一下两点,并基于这两点选择正确的选项。

注意:所有其他超参数是相同的,所有其他因子不受影响。

D.没有一个

答案(A):如果在这样的数据中你拟合深度为4的决策树,这意味着其更有可能与数据欠拟合。因此,在欠拟合的情况下,你将获得高偏差和低方差。

35.在k-均值算法中,以下哪个选项可用于获得全局最小?

A.2和3

D.以上所有

答案(D):所有都可以用来调试以找到全局最小。

36.假设你正在做一个项目,它是一个二元分类问题。你在数据集上训练一个模型,并在验证数据集上得到混淆矩阵。基于上述混淆矩阵,下面哪个选项会给你正确的预测。

B.2和4

D.2和3

答案(C):精确度(正确分类)是(50+100)/165,约等于0.91。真正率是你正确预测正分类的次数,因此真正率将是100/105=0.95,也被称作敏感度或召回。

37.对于下面的超参数来说,更高的值对于决策树算法更好吗?

E.无法分辨

答案(E):对于选项A、B、C来说,如果你增加参数的值,性能并不一定会提升。例如,如果我们有一个非常高的树深值,结果树可能会过拟合数据,并且也不会泛化。另一方面,如果我们有一个非常低的值,结果树也许与数据欠拟合。因此我们不能确定更高的值对于决策树算法就更好。

38-39题背景:想象一下,你有一个28x28的图片,并使用输入深度为3和输出深度为8在上面运行一个3x3的卷积神经网络。注意,步幅是1,你正在使用相同的填充(padding)。

38.当使用给定的参数时,输出特征图的尺寸是多少?

A.28宽、28高、8深

B.13宽、13高、8深

C.28宽、13高、8深

D.13宽、28高、8深

39.当使用以下参数时,输出特征图的尺寸是多少?

答案(B):同上

40.假设,我们正在SVM算法中为C(惩罚参数)的不同值进行视觉化绘图。由于某些原因,我们忘记了使用视觉化标注C值。这个时候,下面的哪个选项在rbf内核的情况下最好地解释了下图(1、2、3从左到右,图1的C值是C1,图2的C值是C2,图3的C值是C3)中的C值。

A.C1=C2=C3

B.C1>C2>C3

C.C1

答案(C):错误项的惩罚参数C。它也控制平滑决策边界和训练点正确分类之间的权衡。对于C的大值,优化会选择一个较小边距的超平面。

数据不只是企业的一项业务,而是关系到整个公司的命运——它是燃料,是饲料,是动力。在过去一年里,这一事实越来越得到众人的认可。因此,积极制定改善企业数据策略的必要性应该引起重视。关于数据策略在过去一年的情况和未来一年的趋势,我们请多位数据专家和思想领袖谈了他们的看法。

受访者包括:美国威斯康星大学麦迪逊分校首席数据官杰森·费希贝恩(JasonFishbain);FirstSanFranciscoPartners公司总裁约翰·拉德利(JohnLadley);被誉为“数据医生”的DataQualitySolutions公司总裁托马斯·雷德曼(ThomasC.Redman);Nationwide公司首席数据官吉姆·泰约(JimTyo)。

他们的看法应该有助于企业反思已经采取的措施,并思索在新的一年里应该采取哪些措施,让数据策略能够与数据价值相符。

受访者指出,在过去的一年里,数据策略取得了巨大进步,但也存在美中不足之处。

越来越多的企业将设立首席数据官(CDO)岗位,这是大多数受访者都认同的一个趋势。拉德利说,CDO的涌现表明,企业已经开始认识到数据资产的重要性。

据预测,到2020年,近九成的财富500强企业将设立首席数据官或同等职位。泰约觉得这是件值得庆贺的好事,因为:

“这一职务不断涌现的好处在于,CDO越多,我们可以参考和仿效的商业模式就越多,数据界的成功机会就越多。”

泰约说,早期的CDO们“克服最初的艰难困苦,制定出正确的策略,如今将可在利用数据推动业务发展方面处于非常有利的地位”。在Nationwide公司,每一位业务主管都说数据很重要,这与几年前形成鲜明对比。他说:“现在,复杂棘手的下一个问题在于,我们如何利用数据来获得竞争优势?”

拉德利认为,这是很多企业将在2017年面对的一个数据策略问题,因为各行各业不同规模的公司都越来越重视数据的货币化。他说:“把数据视为具有可替代价值的资产,这种想法如今在影响着企业战略甚至愿景的设定。”

另一方面,并不是所有公司都充分意识到了数据资产的价值。例如,拉德利指出,某些公司的CDO流动率很高,说明这一岗位的职责还不够明确,企业还不习惯领导层中的这个新角色。这方面的“不安定”可能与某些企业文化问题有关。数据驱动企业必须靠有力的数据策略来推动,而这些问题的存在仍在拖慢它们进步的脚步。

泰约说,有些企业认为,建立数据驱动的文化就是“企图取代曾使企业功成名就的伟大传承和文化”。事实并非如此。他说,使命和价值驱动的文化会令企业变得很伟大,“而CDO只是试图引入基于事实、洞察驱动的方法,好让这种文化与客户更加契合。”

拉德利说,真正意义上的数据驱动将大幅改变企业的商业模式,影响到管理、架构和运营。按照雷德曼的说法,不能只从字面上去理解“数据驱动的文化”,可惜这种事情常常发生。

受访者谈到了哪些将是企业数据策略的优先事项。

雷德曼的回答是继续朝向真正的数据驱动文化迈进。他说,成为数据驱动型企业意味着做出意义深远的改变,包括:制定积极的计划来照料数据(主要涉及质量和安全);落实这一计划,并及时制定和执行以获取市场竞争优势为目标的数据策略;推进管理体系建设,充分发挥数据的特殊属性。此外,还需要“一份积极主动的计划,获取更多的数据,并以越来越有效的方式将数据和直觉结合起来,使个人和团队作出更好的决策”。

他还说,看到他提出的“数据煽动者”概念引起了很多人的共鸣,这让他非常高兴。“数据煽动者”是指一个人意识到有更好的方法来处理部门的数据问题并肩负起这个挑战,从而成为公司其他部门的榜样。

拉德利把改进商业智能(BI)和数据报告作为优先事项,因为他说:“传统的报告和BI架构大多已经过时”。加强数据的报告分析基础也在泰约的清单上,原因是“和我交谈过的十位企业高管中,有九位都把简洁快速的报告和分析列为他们在数据方面的优先事项”。他认为,这在很大程度上源于数据办公室的“酷因素”正在拓展到大数据、物联网、机器学习、人工智能等方面,但中小型数据、运营报告和更传统的分析与建模需求同样重要。

“获取(恰当数据的)能力不足将催生出影子企业或以外包优先的数据策略。”泰约说。为了避免这种问题,数据策略应该包括建立“一个专门的办公室,为处于数据成熟度不同阶段的业务提供不同选择”。

拉德利还说,数据治理(仍然是重要的企业活动,常常作为主数据管理或者大数据等工作的一部分)将从IT或IM转移到合规或风险管理领域。“IT内部的数据治理不管用。这种看法将继续蔓延。”他说。

费希贝恩认为,应该更加注意理解数据背后的语境:数据是如何收集的?利用已有数据可以作出什么决定?还可利用哪些数据源切实看清局势发展,从而作出更明智的决定?“如果只看数据而忽略语境,还能算是数据驱动型文化吗?”他如此发问。

拉德利说,元数据必不可少,也是最基本的要素,他希望看到更多的企业“认真务实地部署一些出色的元数据设施”。他并不介意企业的数据策略将重心更多地放在数据使用方面的协作上。他说,大部分企业就连数据使用方面的配合都做不到:

“真正的协作需要企业抛弃过时的卓越中心概念,转而把数据视为跨越各座孤岛的大一统因素,就像财务和预算那样。”

说到孤岛,“我希望看到传统的孤岛型企业能以有实质意义的方式,更好地接纳数据可视化。”泰约说,“利用企业的工具与设施,更多地聚合数据源,将会加强整个计划的效果,加速实现CDO的很多战略目标。”

在雷德曼看来,他到目前为止看到的种种数据策略“亮点”尚未有效叠加成有实际意义的模式。他仍然担心,企业不会从以前犯下的数据质量和数据架构错误中吸取教训,比如寻求短期的缓解而放过更深层次的原因。此外,“我认为很多企业的行动不够快,整个行业的行动也不够快。”他说。

他认为,现在是进入数据领域的最好时机。但“如果行动不够快,那么发生另一场危机的可能性就会提高。”雷德曼说,“经济大萧条与坏数据有很深的渊源——而我们承受不起第二次。”

翻译:于波

造就:剧院式的线下演讲平台,发现最有创造力的思想

如果这个不是你清单中的首位的话,马上去修改。所有科学核心都是解决问题:一个伟大的数据科学家也是一个伟大的问题解决者;就是这么简单。需要更进一步的证明吗,基本我在这个项目中碰到的每一个人(不管其背景和目前工作环境如何)都提到数据科学中最重要的因素就是解决问题。

很明显,你需要有工具去解决问题,但是它们只是:工具。在这种情况下,即便是统计/机器学习技术也可以认为是你解决问题的工具。新的技术出现了,科技进步了。唯一不变的就是解决问题。

在某种程度上,你解决问题的能力是由天赋决定的,但是与此同时有且仅有一个方式来进行提高:那就是练习、练习、练习。在后面我们会回顾这部分内容,但是现在你只需要记住:你只能通过尝试来掌握某件事情。

2.统计/机器学习

看完上面的内容,似乎我轻视了统计和机器学习。不过在这里我们并不是讨论一个强力的工具;它们是非常复杂的(而且在某种程度上是非常深奥的领域),如果你没有专业的知识,你也不会很快地解决数据科学问题。

3.计算

编程

对于我们来说只需要简单的接触程序就行,因为它应该是很直观的:但是对数据科学家来说编程是必须要会的。设想下如果你不会编程的话,如何才能通过编写一段独特的算法来实现你的理论?又或者建立一个统计模型?

如何成为一名数据科学家?

分布式计算

并不是所有事情都需要超级大的数据组,但是考虑到现代世界的情况,建议在工作中都加上大数据。简而言之:单一计算机中的主要内存并不能实现大数据处理,如果你想同时在数百台虚拟机中训练模型的话,你需要能够使用分布计算与并行算法。

软件工程

对于A类数据科学而言,让我明确一点:工程是一门独立的学科。因此如果这是你想成为的数据科学家类型,你其实不需要成为一个工程师。然而,如果你想把机器学习算法转化到应用中(即B类),那么你将需要一个强大的软件工程基础。

手动转换数据

有一点是非常重要的且值得注意的,即在商业化组织中数据质量一直以来成为饱受争议的话题,在数据储存方面,许多业务又涉及到复杂的基础事务需要处理。所以,如果你尚未准备好融入这个环境中,想要处理纯粹的数据集,商业数据科学可能不是最适合你的选择。

工具与技术

让我们先从编程语言谈起,R与Python是两种最常用的编程语言,因而,如果能够选择的话,希望你选用其中一种语言用于实验研究。

尤其是在A类数据科学工作领域,具备能够直观地观察数据的能力将会对与非技术型商业股东交流沟通产生重大影响。你可能具有最优的模型和最深刻的见解,但是如果不能有效地呈现/解释这些研究成果,那又将有什么用呢?事实上,你运用什么工具实现数据直观可视化并不重要,可以是通过使用R或Tableau(当时最为流行的编程语言),但是,说实话,工具是不太重要的。

交流/商业头脑

在商业数据科学领域工作,具备交流沟通能力/商业头脑是不容忽视的。除非你将要从事非常具体的工作,可能是纯研究类型的工作(尽管我们要面对现实,在产业界并没有很多这种类型的工作),绝大多数数据科学领域的工作都涉及到业界交流互动,通常是与非学者类型的人打交道。

具备将商业化问题和催生这些问题的环境概念化是极为重要的。将统计学方面的观点转化为可以想普通大众推荐的行动或启发性观点也是重要的,特别是对于A类型数据科学领域的工作来讲。我曾与Yanir就该话题交谈过,他的观点如下:

“我发现一种奇怪的现象,当一些技术型人才开始使用行话与人交流时,他们并不留意他们的交谈者——那些非技术型人才,的目光早已落到了别处。在交谈过程中,能够设身处地地为他人着想是重要的。”

THE END
1.设计体系:数字产品设计的系统化方法在现代视觉设计领域,早就有了关于设计体系的记载,从对早期排版和网格系统的说明,到包豪斯(Bauhaus)设计原则。在过去的几十年里,很多公司都以品牌手册的形式对其视觉识别做了说明,1975 年 NASA5发布的《视觉设计标准手册》(见图 1-8)便是其中一个较为著名的例子。 https://www.ituring.com.cn/book/tupubarticle/28448
2.一个月超3万个GPTs!深扒全球Top50GPTs,谁是民间GPT王者?8、宇宙之梦(Cosmic Dream):数字艺术的幻想画家 这是一个绘画工具,它可以根据用户的想法提供一些艺术灵感,或者生成具有想象力的图片。宇宙之梦同样由ChatGPT官方开发,访问量达到了322541。 GPT地址:https://chat.openai.com/g/g-FdMHL1sNo 9、可画(Canva):凭AI设计冲进ChatGPT包围 http://www.bianews.com/news/details?id=173450
3.Access入门简单教程access数据库入门教程表向导提供两类表:商务表和个人表。商务表包括客户、雇员和产品等常见表模板;个人表包括家庭物品清单、食谱、植物和运动日志等表模板。 下面假设建立一个客户表: 如果先中的是第一项,则可修改表的结构: 2.表设计器 虽然向导提供了一种简单快捷的方法来建立表,但如果向导不能提供用户所需要的字段,则用户还得重新https://blog.csdn.net/kuwei1222/article/details/3929025
4.济宁市人民政府教学教研济宁第一职业中等专业学校专业建设人才面向幼儿园及其他幼教机构学前教育专业领域,培养拥护党的基本路线,适应学前教育专业领域管理、教学、服务第一线需要的,德、智、体、美等方面全面发展,具有良好的教师职业道德和先进的幼儿教育理念,掌握学前教育专业必备基础理论知识和保教专业技能,具有较强的保育能力、活动设计与组织能力、反思与自我发展能力,善于沟通与合http://www.jining.gov.cn/art/2023/11/30/art_81890_2794562.html
5.请为她设计一份午餐食谱(能量需要量量采用BMI计算法)。若采用某就餐对象的基本情况如下:办公室文员(轻体力活动水平),女,40岁,身高160cm,体重65kg。 请为她设计一份午餐食谱(能量需要量量采用BMI计算法)。若采用如下膳食原料:大米、面粉、瘦猪肉、带鱼、豆腐干、青椒、青菜、苹果等,若全日蛋白质提供能量占总能量的15%https://m.ppkao.com/wangke/daan/79aa84b49626412da270b66539538ca9
6.产品读书《设计心理学14》设计51CTO博客与设计相关的三类失误: 撷取性失误:指某个经常做的动作,或刚刚做过的动作突然取代了想要做的动作,即某个曾经的动作挤占了需要完成的动作。设计师要避免有相同的起始步骤,然后再发散的流程。只要可能,应该从一开始就设计出不同的动作序列。 描述相似性失误:差错发生在与目标相似的对象上。在设计不同目的的控制和显https://blog.51cto.com/u_12667998/6543759
7.七年级体育与降课教案汇总14篇教案是教师为顺利而有效地开展教学活动,根据课程标准,教学大纲和教科书要求及学生的实际情况,以课时或课题为单位,对教学内容、教学步骤、教学方法等进行的具体设计和安排的一种实用性教学文书。下面是由小编为大家整理的“七年级体育与健康课教案”,希望对您的工作和生活有所帮助。 http://www.jiaoyubaba.com/jiaoan/tiyu/83098.html
8.步骤图蛋挞(8个)的做法蛋挞(8个)的做法步骤菜谱用料 鸡蛋 2个(较小) 细砂糖 15-20克 牛奶 106克 炼奶 10克 淡奶油 66克 蛋挞(8个)的做法步骤 步骤1 过滤4遍,最后震一下冲出气泡 菜谱创建时间:2020-04-04 18:40:10 打开App收藏 万能的“拌面,水饺”调料 评分8.7 15 人做过 破壁机养生食谱 4 人做过 自制桃酥酥到掉渣|手残https://hanwuji.xiachufang.com/recipe/104525408/