随着社会经济和科学技术的快速发展,消费品的种类以及功能越来越丰富,但是也带来了一系列安全隐患。缺陷产品召回是产品质量安全监管的国际通行做法,是后市场监管的重要手段。我国消费品召回工作从2004年开始,随着《消费品召回管理暂行规定》于2020年发布实施,我国消费品召回管理制度已日趋完善。由于消费品具有种类多、故障模式复杂等特性,导致多源缺陷线索中产品信息不统一、故障描述不准确、缺陷线索信息重复等系列问题。为快速从消费品多源缺陷线索信息中提取有价值、有效的线索信息,采取高效技术措施做好数据预处理工作显得尤为重要。在缺陷线索数据挖掘与发现有潜在缺陷的过程中,消费品多源缺陷线索信息预处理是核心环节之一。
2.消费品缺陷线索采集内容
3.消费品故障标签字典构建
产品故障现象识别是开展消费品缺陷线索综合分析,判定产品安全风险基础。多源缺陷线索中对于产品故障的描述不一、表述随意多样化、反映故障种类多,针对这些复杂的内容,只有通过数据标准化统一化处理,才可以有效提高数据分析效率。以现有信息为基础,首先对产品故障现象进行归类,整理出每一类产品故障问题关键词,然后根据实际需求,依据描述提炼提取出同义词,基于多个特征维度对近义词表进行过滤,形成同义描述集合,丰富故障描述特征,形成产品故障标签字典。
4.消费品缺陷线索预处理
4.1缺陷线索数据筛选
(1)有效性。产品信息的品牌、产品分类、类别信息完整,故障描述信息真实描述产品使用中出现的故障,排除消费纠纷、服务质量以及怀疑揣测等问题。如果有联系人信息,确认联系人手机号码有效。
(3)字体和词性转化。多源信息同一数据字段的信息字体和词性保持一致。
4.2数据清洗
消费品缺陷线索信息分析的数据预处理,根据现有需求以及经验的积累,其中的数据清洗主要包括忽略部分数据项、基础数据核实、故障标签标注、智能与人工结合,通过这些处理各自解决不同的问题,以达到缺陷线索信息分析的预处理的数据优化效果。
4.2.1忽略部分数据项
消费品多源缺陷线索信息各自具有其特殊属性和信息内容,而这些信息内容在综合判定安全风险的缺陷线索案例过程中并非分析项,且影响分析判定结果的准确性。在信息预处理过程中,不影响消费品多源缺陷线索信息各自数据的条件下,采取忽略元组的方式将这些信息数据进行暂时忽略。
4.2.2基础数据核实
4.2.3故障标签标注
根据已形成的产品故障标签字典,对采集和选择的消费品多源缺陷线索信息:消费品的消费者投诉信息、产品安全网络舆情、境外召回信息、电商平台评价信息、国内召回信息、其他信息中的故障描述、网络舆情故障描述、缺陷原因(危险描述)、评价内容、缺陷描述、主要不合格项目、问题描述的内容分别进行故障标签标注,最终将不规范的故障现象描述数据进行规范。
4.2.4产品故障标签字典修正
5.结语
随着消费品多源缺陷线索信息数量的不断增加,相信数据预处理一定会越来越重要,也能为数据分析挖掘提供更加干净、高质量的信息源。消费品多源缺陷线索信息分析预处理方式完善建议:与专业知识应用融合,且贯穿预处理各环节;严控预处理各环节质量,保证高效;应用计算机智能学习和语义识别技术,解放人工,提高效率和准确性。
参考文献:
[1]林建军.浅谈我国消费品召回的特点及其重要意义[J].质量与市场,2020,(20):46-48.
[3]胡远樟,程小恩,何黎,严小英,温川飙.一种基于糖尿病的中医数据挖掘预处理方法[J].CJCM中医临床研究,2021,(30):75-77.
[4]田桂丰,谌颃,尹帮治.信息熵和灰色关联分析在企业大数据分析中的应用[J].信息记录材料,2021,22(3):151-152.
[5]唐成龙,谌颃,唐海春,吴泽锋.大数据背景下数据预处理方法研究运用[J].信息记录材料,2021,22(9):199-200.
[6]郑杰昌,谢志利,王长林.消费品召回追溯体系研究[J].标准科学,2020,(5):32-52.
[7]许辉.数据挖掘中的数据预处理[J].电脑知识与技术,2022,(2):27-31.
[8]李颜平,吴刚.基于典型数据集的数据预处理方法对比分析[J].沈阳工业大学学报,2022,44(2):165-192.
[9]杨忠诚.数据挖掘工具WEKA及其应用研究[J].企业科技与发展,2018,(9):38-39.
[10]张治斌,刘威.浅析数据挖掘中的数据预处理技术[J].数字技术与应用,2017(10):216-217.