如果用户想训练一个安全帽识别模型,用户去互联网上采集了很多公开的图片。但是这些公开的图片中包含了杂乱无章的图片,或者和安全帽很相似,但却不是用户想要的数据。那么用户就要从这些数据中清洗出一些‘脏数据’,从而获取用户真正想要的数据。Modelarts提供了强大的数据清洗功能,通过用户自定义选择正样本,自定义选择负样本,采用数据清洗聚类、异常检测、相似度计算、特征提取器等算法后输出与正样本同类别的数据,丢弃掉用户不想要的数据,从而完成数据清洗的目的。
以安全帽分类数据集为例,指导如何从数据处理模块中使用数据清洗功能。
使用OBS客户端上传本地的数据集文件夹至一个"华北-北京四"区域的OBS桶,数据存放在自定义的目录下。
点击页面上的创建数据集按钮,创建一个叫dataset-helmet-725的数据集,创建数据集页面填写示例:
创建完成后可以预览,可以看到有一些非安全帽的图片。
创建完成后回到数据集创建页面,点击发布按钮,发布训练集。数据集发布之后,就可以在后面的步骤中使用了。
创建数据处理任务,选择数据清洗算法。
设置参数,其中prototype_sample_path为图像正样本目录,存放用户想要保留的类别的图像,例如用户想要保留dataset-helmet-725数据集中包含各类安全帽的图片,则指定存放了少量安全帽图片的obs路径作为正样本目录,另外criticism_sample_path为负样本目录,是存放了少量不含安全帽图片的obs路径,n_cluster是数据样本的种类数,若事先知道数据集样本的类别数,可指定数值,否则默认为auto,checkpoint_path是存放特征提取器的目录,当前仅支持resnet_v1_50做特征提取。其它参数若没有特殊要求都可保持默认值。
存放了正样本安全帽图片的obs目录:
存放了负样本图片的obs目录:
数据清洗的输入、输出都可以指定为数据集或obs目录形式。例如选择dataset-helmet-725分类数据集作为输入,清洗过后的数据保存到dataset-helmet-725的新版本中。确定了输入、输出后,点击创建开启数据清洗任务
等待几分钟任务完成
最后查看经过数据清洗后导出的数据集新版本,可以看到保留下来的都是包含各类安全帽的图片,不包含安全帽的图片都被过滤掉了,可以清洗出用户想要的数据。
华为开发者空间发布
让每位开发者拥有一台云主机
在此一键设置昵称,即可参与社区互动!
*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。