电脑前,张力文向记者演示一个火情识别算法模型的数据标注及模型训练的过程。
智慧安防、智慧物流、智能交通……人工智能技术正让我们的生活更便利。而让人工智能(AI)“更懂”人类的新职业——人工智能训练师在当中起到十分重要的作用,相当于人工智能的教练。
人工智能训练师在2020年正式成为新职业并纳入国家职业分类目录。随着去年底该职业的国家职业技能标准颁布,业内开展职业培训和人才技能评价有了基本依据。人社部发布的报告显示,经测算我国人工智能人才缺口超过500万。近日记者采访了解到,在广东,人工智能训练师的需求旺盛,“现在有做AI的公司基本都有自己的人工智能训练师,随着人工智能在各个应用领域的不断拓展,数据标注员等工种存在较大的人才缺口。”业内人士说道。
新职业档案:人工智能训练师
使用智能训练软件,在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员。
主要工作任务:
1.标注和加工图片、文字、语音等业务的原始数据;
3.设计人工智能产品的交互流程和应用解决方案;
4.监控、分析、管理人工智能产品应用数据;
5.调整、优化人工智能产品参数和配置。
训练:“喂数据”图片数以万计还要避免AI“背题”
“我的日常工作主要包括人工智能需求分析、数据标注、算法开发以及算法调优等,其中数据标注和算法开发是最主要的工作。”电脑前,张力文向记者演示了一个火情识别算法模型的数据标注及模型训练的过程。只见他在电脑用标注工具将图片中的火焰逐一圈出来,并标注为“fire”,标注一定数量后将这些图片数据“喂”给人工智能学习,学习后进行测试,再逐张查看人工智能识别火焰的结果是否正确。张力文发现,人工智能将图片里的黄色盒子误判成“火焰”了,于是他把该黄色盒子重新标注为“非火焰”,对算法进行调优,再对人工智能进行迭代训练,如此往复……
每训练一次,系统会自动生成一次测试结果,在训练两三百次之后形成有多个指标结果的“loss曲线”图,loss值是判断“智能还是智障”的关键指标。“我们主要查看两个指标来判断人工智能是否需要重新学习。”张力文说,一般来说他们会查看人工智能“训练集”和“测试集”的正确率,如果训练集数据正确率高,但测试集的低,那么说明人工智能存在“背题”的情况,需要再次学习,如果两者正确率都高,说明人工智能已经“学会”。
张力文介绍,一个算法模型的训练,少则需要5000-10000张图片数据,多则要几万张甚至几十万张图片数据,“像目标检测一般一万张图片数据即可,但识别类算法,比如人脸识别,通常要几十万张图片数据。”不过在数据标注阶段,如今已有智能标注帮忙,训练师在智能标注后再进行个别的人工标注即可,大大减轻人工标注的工作量。这些图片数据如何来?张力文说,网上开源数据一般可满足人工智能的基础训练,但针对性训练的数据需要购买或搜集,有时候甚至需要他们自己拍摄。
经验:要有核心算法还要“走出去”
为了让人工智能“学得更好”,训练师有时候还要“走出去”调研具体的应用场景。比如明厨亮灶项目,要到厨房观察摄像头安装的位置和角度,摄像头拍摄的画面质量,厨房光线、摆放物品等。“我们都会做一些分析,分析会引起人工智能误判的因素。”张力文说道。
建议:求职者除了懂技术更要懂行业
“一个新开发的算法模型需要大量数据训练,这个时候就需要人工智能训练师介入和参与。”天翼数字生活科技有限公司AI视联及行业应用事业部副总经理王艺指出,人工智能技术已经渗透到各个行业,包括工业、金融、教育、安防、市政、物流、交通等,这些行业对人工智能训练师都有着很高的需求。“现在有做AI的公司基本都有自己的人工智能训练师,随着人工智能在各个应用领域的不断拓展,数据标注和算法训练等工种存在较大的人才缺口。”
人社部2020年发布的《人工智能工程技术人员就业景气现状分析报告》指出,经测算我国人工智能人才缺口超过500万,国内的供求比例为1:10,供需比例严重失衡。不断加强人才培养,补齐人才短板,是当务之急。广州市人工智能产业发展促进会执行秘书长蔡远尘介绍,协会连续四年进行广州市人工智能大数据企业入库工作,目前已累计入库800多家,其中大部分企业都是应用型传统企业转型而来,对人工智能人才有大量的需求。
作为企业管理人员,王艺建议求职者不仅要了解算法调优、数据清洗、标注等基础知识,还要了解不同应用行业的背景知识。“只有了解行业,才能真正知道哪些数据需要标注。训练师既需要有逻辑思维、理性分析,还要有敏锐感、发现数据的能力。”