数据标注大总结(更新中)

1、在有监督学习下,需要大量经过(标注)的数据。

2、造成数据噪声的原因:

数据收集工具的问题

数据输入、传输错误

技术限制

3、在导入的基础上,针对缺失信息、不一致信息与冗余信息等,完成(数据清洗)和预处理工作。

4、在拉框标注中,要将框的边缘紧贴被标物体的(边缘),同时务必注明每一个框的属性。

5、在进行切割标注时,需要格外注意标注的边框需要与被标物体的边缘(相切)

6、文字错误率是指语音内容方面的标注错误。只要有一个字错了,该条语音就算错,一般要控制在(3%)以内;其他错误率是指除了语音内容以外的其他标注项错误。只要有一项错了,该条语音也算错,一般应控制在(5%)以内。

7、实时检验是现场检验和流动检验的一种方式,一般安排在数据标注任务(进行过程中),能够及时发现问题并解决问题。

8、由于(商务办公区域、综合办公区域、数据采集区域)的计算机能够连接互联网,为了保证数据清洗和数据标注区域内的数据安全,此区域不能够与数据清洗和数据标注区域安排在一起。

9、抽样检验是产品生产中一种辅助性检验方法。在数据标注中,为了保证数据标注的准确性,会将抽样检验方式进行叠加,形成(多重抽样检验)方法,此方法可以辅助实时检验或全样检验,以提高数据标注质量检验的准确性。

10、常见的噪声包括:

主体人物以外其他人的说话声

雨声、动物叫声

背景音乐声

骑车滴答声、明显的电流声

11、以图像标注为例,计算数据标注所需人工数量包括:

计算单张图片工时

12、数据标注工厂想要成功实施客户关系管理需要做好以下工作:

确立业务计划

组建客户关系管理团队

客户信息管理

客户关系管理的分析

13、目前数据标注的应用已经涵盖了各行各业,不同的行业也衍生出各种不同数据标注需求,这些需求对人工智能的发展起到了关键作用。

交通

安防

家居

医疗

14、多重抽样检验方法的优点:

能够合理调配质检员的工作重心。

有效地弥补其他检验方法的疏漏

提高数据标注质量检验的准确性

15、语音标注,基于(语音识别、声纹识别、语音合成)等建模与测试需要,需要对数据进行发音人角色标注、环境情景标注、多语种标注、韵律标注体系标注、噪声标注等。

16、文本标注,通过(语句分词标注、语义判定标注、文本翻译标注)情感色彩标注、拼音标注、多音字标注、数字符号标注等,可提供高准确率的文本语料。

17、数据变换是通过(平滑聚集、数据概化、规范化)等方式将数据转换成适用于数据挖掘的形式。

18、多元线性回归则是涉及的属性多于两个,并且数据拟合到一个(多维)曲面。

19、在数据库中,对于属性值相同的记录,可以将其看作是(重复记录)。

20、作为车辆车牌领域中非常重要的自动驾驶,其标注方式主要有两种,其一为(拉框)标注;其二为精细的(切割)标注。

21、车道线标注是一种对(道路地面标线)进行的综合标注,标注包括了区域标注、分类标注以及语义标注,应用于训练自动驾驶根据车道规则进行行驶。

22、指示牌/信号灯标注是一种对道路悬挂指示牌/信号灯进行的综合标,标注包括区域标注、分类标注以及语义标注,应用于训练自动驾驶根据(交通规则)进行行驶。

23、视频跟踪标注主要是用于训练自动驾驶对识别目标的(移动跟踪能力),让自动驾驶在移动过程中更好地识别目标。

24、表情分析是一种(分类)标注,一般需要配合人脸标注进行。

数据标注总结(二)

少量企业应用产生的数据,如关系型数据库中的数据和数据仓库中的数据等。

巨量机器产生的数据如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形码(条码)扫描数据等。

2、在有监督学习的过程中,输入的数据样本越(精确),量越(大),其处理效率与运作效率也越(高),而数据处理的量级与质量又直接关系到机器的智能程度,这就是我们所说的“有多少智能,就有多少人工”。

4、(线性回归)涉及找出拟合两个属性(或变量)的“最佳”直线,使得一个属性可以用来预测另一个。

5、在客服行业,文本标注主要集中在(场景识别和应答识别)。

6、语义标注的质量标准是标注词语或语句的语义,在检验中需要:

针对单独词语或语句进行检验

针对上下文的情景环境进行检验

针对语音数据中的语音语调进行检验。

7、当标注员完成第一个阶段数据标注任务后,质检员会对其第一阶段标注的数据进行检验,如果标注数据全部合格,在第二阶段实时检验时,质检员只需对标注数据的(50%)进行检验。

8、数据标注项目评估流程为:

验收标准确认、试标、试标验收、计算数据标注所需人工数量、综合评估项目成本、综合报价。

9、为了保护(数据清洗区域、数据标注区域)内计算机中数据的安全,只能够连接局域网服务器,并且禁止通过外接设备进行拷贝。

10、图像标注主流的应用领域有:

自动驾驶

人像识别

医疗影像

机械影像

11、数据清洗包括以下几种应用方法:

处理缺失值

处理噪声数据

处理重复数据

12、常见的噪声包括:

骑车滴答声、明显的电流声。

13、无效语音包含以下类型()

语音不是普通话,而是方言,并且方言口音很重,造成听不清或听不懂

音频背景噪声过大,影响说话内容识别;

语音只有“嗯”“啊”“呃”的语气词。

14、行为标注是对特定行为进行区域标注和分类标注,主要应用于对(危险行为)的监控,例如打架、晕倒、车祸、轻生、偷盗等。

15、行人标注是对行人进行标框标注,主要应用于(进出人数的统计),一般在商场、超市、市中心、车站、学校、工厂等人员容易密集的场所需要通过进出人数的统计来判断容纳人员是否已经饱和,可以有效地防范因为人员过于密集而造成危险。

16、表情分析是一种(分类)标注,一般需要配合人脸标注进行。

17、最初的人脸标注是通过对人脸进行(标框)标注,训练人工智能进行人脸判定,后期伴随着人脸识别算法技术的发展,开始使用(描点)标注,训练人工智能进行人脸识别。

18、视频跟踪标注主要是用于训练自动驾驶对识别目标的(移动跟踪能力),让自动驾驶在移动过程中更好地识别目标。

19、3D车辆标注是将2D图片中的车辆进行(3D)标注,主要应用于训练自动驾驶对会车或超车车辆的体积判断。

20、(车辆多变形标注)是对车辆进行区域标注以及分类标注,主要应用于对车辆类型的识别,例如面包车、卡车、大客车、小轿车等,训练自动驾驶在道路行驶时选择性跟车或者变道操作。

21、数据清洗组业务模式分为原始数据的(质量检验)工作以及(敏感隐私数据)的清洗工作。

22、文本标注是一类较为特殊的标注,它并不单单有基础的标框标注,还需要根据不同需求进行(多音字标注)、(语义标注)等。

23、对街景中(红绿灯)、(车辆)、(高架桥等道路标志)的画框标注,可用于帮助自动驾驶车辆识别道路物体。

THE END
1.数据清洗的重要性与技巧:提升大数据分析的准确性和效率提升模型性能:在机器学习和数据分析领域,模型的性能在很大程度上依赖于输入数据的质量。数据清洗包括特征选择和特征工程,这些步骤可以帮助模型更好地识别数据中的模式,从而提高模型的预测能力。 节省时间和资源:在数据分析的早期阶段进行数据清洗可以避免在后续阶段进行昂贵的修正。自动化数据清洗流程可以进一步节省时间和资https://blog.csdn.net/Shaidou_Data/article/details/144110971
2.数据清洗总结数据清洗总结 转发数据清洗 数据清洗流程 1 缺失值清洗 1.1 确定缺失值范围 对每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性,分别制定策略,可用下图表示: image.png 1.2 去除不需要的字段 直接删掉,但是务必做好每一步的备份 1.3 填充缺失值(重要,复杂)https://www.jianshu.com/p/4eb95d04a62f
3.总结了pandas实现数据清洗的7种方式以下文章来源于python数据分析之禅,作者小dull鸟 python数据分析之禅. 点击领取pandas高清速查表,后台回复“速查表”获取 最近在做“对比excel,学习pandas系列”,前面发了一篇 很受读者喜爱,今天给大家介绍一下excel和pandas实现数据清洗的种方式 1.处理数据中的空值 https://mp.weixin.qq.com/s?__biz=MjM5NjIwOTQyMA==&mid=2651838178&idx=1&sn=ddda4f225aa4bbd9c38bda50cefc2eb6&chksm=bd17c0818a6049975b3ace3661850a7a73a8f5fdc7d6daafd1653eaaa8181acd071bfa2c3a0e&scene=27
4.感悟与反思┃“数据清洗工作”的总结与反思——席义博虽然数据清洗过程中报错不断,但大家的热情不减,那段时间每天晚上和大家一起处理数据,听大家反馈的问题,然后一起讨论解决,是我每天最期待的事儿,也是我度过最开心的时光,在实践与交流中,我相信大家一定都有各自的收获! 这次数据清洗的任务,其实带动了很大一批同学对于编程的兴趣与冲动,这是个很好的开端,是凝聚大家庭http://www.sxmu.edu.cn/bdcd/info/1097/1393.htm
5.大语言模型系列—预训练数据集及其清洗框架梳理中英文训练数据集。 整理文本清洗框架。 总结现有框架的优点、问题和初步解决方案。 二、预训练数据集 大规模的高质量语料是训练大语言模型的关键“养料”。这些语料提供了世界性的知识体系,能够提升语言模型的理解能力和生成质量,同时也能够支持多样化的应用场景。事实上,高质量的文本对于大语言模型的训练和能力表现https://www.51cto.com/article/778437.html
6.数据清洗随笔分类星涅爱别离数据清洗 随笔分类 -数据清洗 总结与梳理(含之前所涉及的代码和数据) 摘要:一些特别弄混的事: 总体的总结: 数据处理的步骤: 常用的函数 注意点阅读全文 posted @2020-02-06 21:36星涅爱别离阅读(143)评论(0)推荐(0)编辑 数据清洗之数据预处理 重复值 缺失值 异常值 数据离散化https://www.cnblogs.com/xingnie/category/1641806.html
7.玩转逻辑回归之金融评分卡模型消费金融风控联盟总结一下特征分箱的优势: 特征分箱可以有效处理特征中的缺失值和异常值。 特征分箱后,数据和模型会更稳定。 特征分箱可以简化逻辑回归模型,降低模型过拟合的风险,提高模型的泛化能力。 将所有特征统一变换为类别型变量。 分箱后变量才可以使用标准的评分卡格式,即对不同的分段进行评分。 https://www.shangyexinzhi.com/article/5177142.html
8.如何进行数据预处理和清洗?总结 数据预处理和清洗是机器学习和数据分析中非常重要的步骤。通过识别和纠正缺失值、异常值、重复值和错误数据等问题,可以提高数据质量并减 少后续分析的误差和偏差。数据预处理和清洗的流程包括数据收集和选择、数据清洗、数据转换、数据集成和数据规约。在进行数据预处理和清洗时,需要根据实际情况采取不同的处理方法https://www.cda.cn/bigdata/202680.html