AI正在清洗一批大数据苦工

没有一个柜员,没有一个保安,甚至没有一个大堂经理。

四大行之一,中国建设银行突然宣布:国内第一家无人银行,在上海正式开业。

人工智能AI的发展,正在将一大片看似光鲜的工作岗位洗牌。

数据工程师关铮铮就在通宵之后仍未合眼。

他叼了一只未点燃的烟,正在调取这个月的电商销售数据,赶出一篇数据报告。

关铮铮所在环节之前,数据获取、数据清洗、数据建模,每一步都有所谓的数据工程师坐在电脑前复制粘贴,或是敲着代码。

一秒钟17万个电商订单在线上堆积,就像一团乱麻,他们将这些麻线搬运、筛选、横竖摆置,织成一张张PPT画布。

01云端机会

数据工程师稀缺性凸显。

关铮铮负责数据链条最后一个环节,从数据的变化得出结论。

由于客户都是企业,所以得有专业的观点。“跟我原来的工作很像,都是整合数据和已有经验提出结论和建议”。2015年,他踩着大数据风口,从咨询公司跳槽而来。

AI打败了咨询公司里关铮铮的上游,填单子、做调研等工作已不需要投入大量人力。

大数据公司里,关铮铮的上游是谁?数据清理工程师、数据架构师、算法工程师……

“工程师”的名号似乎很有优越感,实际上他们就像销售公司里的“经理”。

初始数据库的生成,就像把原材料筛选出来,拼装成了一个个零部组件,这由数据清理工程师完成;挖掘数据的规律、价值,让数据按照既有的逻辑得出想要的结果,由数据架构师和算法工程师操作;得出数据产品,分析背后的原因,关铮铮便属于这个工种。

这部分直接用到的数据部分不多,但要依托于数据呈现的结果。

简单重复、机械乏味,数据工程师就像富士康工人各司其职。但他们清楚,每一个环节里,人成为了领导,AI还不能够自主做事。

因此他们依旧稀缺。关铮铮的领导每年毕业季都要跑到北京、上海、西安等高校聚集的城市,市面上成熟的数据工程师奇缺,他只能把手伸到上游生源。

02身价背后

大华,是这一个行业崛起的受益者。

虽然对收入没有这么大的预期,但关铮铮同样很满意现在的状态。他很愿意接纳现有的AI辅助,为了时效赶报告,AI帮他省去了不少简单却繁多的工作。

关铮铮入行快10年,最初做咨询研究时,支撑分析的数据报表需要研究员用Excel去刷,“Excel已经是相对很智能的工具了,那个时候Excel最多可以处理65536条数据,后来可以升级到10万条,但都不及现在。”

那时,关铮铮为了得出一个数据报表,需要在Excel里填写不同的公式。

简单报表得要一天才能完成,复杂些的就要耗上好几天。

而今,这些数据报表都是前端的IT人员做出来的,跑报表也不用手动操作,“机器自动完成,原来辛苦一天才能做出一个报表,现在机器一天就可以完成几千份。”

但欣喜背后同样有不为人知的辛苦。

数据清理师王姐头痛的是,没完没了地给数据补属性。

随着非结构化数据类型的增加、数据量几何型增长以及数据计算逻辑越发复杂,在原有IT系统里,要完成全部数据处理工作几乎是不可能完成的。

现在,初级的补码工作开始由AI来代替,但是人工还是不能省掉。

“机器毕竟还比较机械化,它只会在固定的位置补标签,如果原始数据串行,机器同样会发生错误,人工就会比机器考虑得更为全面些。”

他们习惯于将我们认为的AI,称为“机器”。

03谁占上风

虽然会尝试引入AI替代人工,但在王姐看来,现在的AI还太初级,数据的清洗不只是补补码,贴贴漏掉的标签那么简单。

生成原始的数据库需要一定的逻辑在里边:

“AI还太初级”,王姐道出了真谛。弱AI只能执行简单任务,强AI才能够达到与人类持平的智能水平。但王姐没有想到,强AI会在未来20~30年实现,已经成为行业的共识。

目前来看,大华最不容易被替代。

数据工程师进到算法和建模阶段,几乎都需要与具体业务场景关的,然后通过算法模型和编程,完成数据产品从初级阶段到成品的加工。

大华对于“AI能替代他”的观点感到惊讶。

大华认为,大数据就是通过算法和模型,在多源多维的数据中建立关联并挖掘其中的规律,并通过分布式技术,让系统的数据存储和计算能力大幅提高。

目前公司的AI程序编写,大华也有参与,“你说我编出来的一个程序,回头把我替代了?”

人们在误解AI。科大讯飞的语音识别系统是AI,载着李彦宏闯入五环的无人驾驶汽车是AI,海尔在AWE上推出的物联网是AI,那么富士康的机械手是AI吗?

都是。通过大量数据输入,不停息的机器学习,AI正在变得越来越智能。

数据是AI的营养池,所以在互联网、金融等产生海量数据的行业里,AI吸食数据,并抢夺工作机会。

关铮铮组装数据,并将之形成产品。AI可以比他做更好看的PPT,可以比他懂更多的行业知识,更可以神速般分析数据。AI可能取代他吗?他同样自信地觉得能常驻与此。

取代或是不取代,我们不得而知。AI正在以每天学习30000套棋谱的速度追赶人类,我们以怎样的心态与行动去迎接,才是最有意义的话题。

北京东四环,华灯初上。

往北30公里,富士康工人已做好交接班,开始2元/次的KTV,4元/次的电影,或是10元/次的按摩。关铮铮所在大数据公司灯火通明,外卖和泡面的味道在楼层乱窜。

THE END
1.数据治理:如何实施数据清洗,提升数据质量?一、什么是数据清洗?在数据治理工作中,为了彻底解决企业的数据质量历史遗留问题(数据不一致、不完整、不合规、数据冗余等),必须对存量数据进行改造,实施“数据清洗”工作。“数据清洗(Data cleaning)”一词,是数据治理领域中的专业术语。从字面意义上理解,“数据清洗”就是将数据上“脏”的部分清洗干净,让https://baijiahao.baidu.com/s?id=1738201979157781117&wfr=spider&for=pc
2.Python电商数据清洗及分析数据清洗阶段主要处理不符合业务逻辑的异常值,还有缺失值和重复值。 3.2.1 清洗发货日期早于下单日期的异常值 # 根据业务需要提取数据,发货日期早于下单日期 # 1)转换时间类型 data["OrderDate"] = pd.to_datetime(data["OrderDate"]) data["ShipDate"] = pd.to_datetime(data["ShipDate"]) # 2)计算时https://www.jianshu.com/p/bcb61ad9ff71
3.3.3电商评论数据清洗plusavailable":0本文介绍了电商评论数据的清洗过程,强调了数据清洗的重要性,解析了Json格式的评论数据,提取关键字段,如评论内容、评分、昵称等,并展示了如何使用MapReduce进行数据清洗,最终输出结构化的文本文件。 摘要由CSDN通过智能技术生成 实验3.3电商评论数据清洗 字体: https://blog.csdn.net/weixin_41586605/article/details/79226386
4.电商项目之数据清洗详解学习笔记简介:快速学习电商项目之数据清洗详解 开发者学堂课程【新电商大数据平台2020最新课程:电商项目之数据清洗详解】学习笔记,与课程紧密联系,让用户快速学习知识。 课程地址:https://developer.aliyun.com/learning/course/640/detail/10520 电商项目之数据清洗详解 https://developer.aliyun.com/article/1081150
5.跨境电商数据清洗的概念和原理跨境百科连连国际官网跨境电商数据清洗是发现并纠正跨境电商数据文件中可识别的错误的最后一道程序,包括检查数据一致性、处理无效值和缺失值等。与问卷审核不同,数据清理一般由计算机而不是人工完成。 1.跨境电商数据清洗的概念 数据清洗( Data cleaning)对数据进行重新审查和校验,目的在于删除重复信息、纠正存在的错误,并保证数据一致性。 https://global.lianlianpay.com/article_wiki/32-86492.html
6.电商精准营销—数据清洗电商精准营销—数据清洗 中级 文海洋 湖南工程学院 学习人次82 某商城作为中国最大的自营式电商,在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据。如何从历史数据中找出规律,去预测用户未来的购买需求,让最合适的商品遇见最需要的人,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升https://www.educoder.net/shixuns/fqtjbfak/challenges
7.如何进行电商的运营工作数据清洗和预处理是数据分析的前置工作,需要对数据进行去重、缺失值处理、异常值处理等操作,以保证数据的准确性和可靠性。 3.数据挖掘和分析 数据挖掘和分析是电商运营数据分析的核心环节。需要通过数据挖掘、统计分析、机器学习等技术手段,挖掘数据背后的规律和趋势,为电商平台提供决策支持和优化建议。 https://www.linkflowtech.com/news/1767
8.数据质量和数据清洗研究综述20240502094258.docx数据质量和数据清洗研究综述.docx 48页VIP内容提供方:智慧城市智能制造数字化 大小:36.95 KB 字数:约2.31万字 发布时间:2024-05-08发布于广东 浏览人气:19 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)数据质量和数据清洗研究综述.docx 关闭预览 想预览更多内容,点击https://max.book118.com/html/2024/0502/5204342041011202.shtm
9.滴滴公开“数据清洗方法装置”专利5月11日消息,天眼查资料显示,滴滴关联公司北京嘀嘀无限科技发展有限公司5月11日公开一项“一种数据清洗方法、装置、电子设备及存储介质”专利,公开号为CN111651437B申请日期为2020年4月17日。 该专利摘要显示,本申请提供了一种数据清洗方法、装置、电子设备及存储介质,其中,该数据清洗方法包括:获取目标订单对应的行程轨https://www.dsb.cn/147912.html
10.跨境电商店铺数据分析该怎么做?BI分析全流程实操详解!FineBI能够通过电商平台原始数据快速进行数据清洗、分类、汇总,并生成直观的图表展示。它能够按周期、品类、店铺等维度展现数据情况,减少数据处理时间和错误率。报告基于公司在跨境电商平台一个店铺的2021年销售、财务和退货数据。分为销售、财务、退货三个模块,可通过国家、收入、退款等维度的图表实现联动。https://www.finebi.com/industry/da-kjdsfx
11.大数据大厂之数据清洗工具OpenRefine实战:清理与转换数据OpenRefine 是一款开源的数据清洗和转换工具。它可以帮助用户快速地清理和转换各种类型的数据,包括文本数据、数字数据、日期数据等。OpenRefine 提供了丰富的功能,如数据筛选、排序、合并、拆分、正则表达式匹配等,可以满足用户在数据清洗过程中的各种需求。例如,在一个电商数据分析项目中,我们可能需要清理用户的评论数据,https://www.dtstack.com/bbs/article/25298
12.什么是数据清洗?面对常见的数据清洗问题,有哪些解决方法?答案是——数据清洗。简单来说,数据清洗就是对数据进行审查和校验的过程,目的是删除重复信息、纠正存在的错误,并提供数据一致性。如何有效进行数据清洗,走好数字化转型的每一步,是企业要思考的重要命题。 一、数据清洗的意义. 众所周知,在数据分析报告中,未经清洗的数据很可能会导致错误的结论,降低报告的可信度。而https://www.fanruan.com/bw/doc/180930
13.“武陟县域就业岗位每周送”武陟县人社局2023年05月01日收集四、清洗车间操作工: 1.薪资:试用期工资4500元。 以上人员一经录用: 1.公司免费提供工作服和全天用餐。 2.试用期公司免费给本人加入一份商业“意外伤害保险”。 3.试用期结束经厂部录用,待遇是:月基本工资+满勤奖+绩效奖金。 4.试用期结束,经公司认可给本人入人社局的“三险”。 https://wzjob.jzggjy.com/news/detail/304033.html
14.关于举办兰州市2020年残疾人网络专场招聘会的公告甘肃兰迅清洗工程有限公司 资料员 业务员 司机库 管普工 技工 宾馆服务员 保洁员 站务人员 检票员 保安人员 物业管理员 兰州市七里河区江子为民居家养老综合石嘴山和君纵达数据科技有限公司 银行客服专员 甘肃大永中医健康管理咨询有限公司大永中医诊所 按摩师 甘肃烯旺中医有限责任公司 http://www.gscjrjy.org.cn/contents/762/183.html