让科大讯飞一天蒸发120亿的“数据投毒”是啥?

10月24日下午,科大讯飞(002230.SZ)股价跳水跌停。截至收盘,报46.7元/股,成交额超53亿元,总市值蒸发约120亿元。

2.成因分析

按照科大讯飞的说法,“毒教材”内容是第三方引入讯飞学习机的。正因为互联网上的内容良莠不齐,而AI公司又不断在互联网上抓取训练数据,无论是内容审查过失,或是被人故意污染,结果都将可能导致大语言模型生成有害内容。

这样的现象,被称为数据投毒(DataPoisoning)。(笔者注:其实从英文原意可以看出,译为“数据中毒”更能体现原意,即凸显“中毒”结果,而非“投毒”这一带有主观的动作,但考虑到约定俗成,本文仍使用“数据投毒”这一说法。)

污水之源:数据投毒是个啥?

1.什么是数据投毒

数据投毒是指有意或恶意地向数据集中引入虚假、恶意或有害的数据,利用训练或者微调(fine-tuning)过程使得模型中毒,以操纵、损害或欺骗机器学习模型的性能和输出结果。这种攻击旨在特定阶段操纵训练数据(本文讨论的数据投毒亦系数据收集和数据预处理阶段),使模型在后续的预测和决策中表现不佳或产生错误的结果。

打个比方,假设有一款高老庄AI模型,专注于生成减肥食谱,这个模型在训练过程中使用了大量的互联网上的食谱和营养信息作为训练数据,这些数据包括了数百种食材、烹饪方法、食品的热量信息等。然后,黑客孙悟空进行了数据投毒,在高老庄模型的训练数据中注入了虚假信息(比如将大量油炸食品标记为低热量),成功混入了模型的训练数据集中。而网友猪八戒想通过高老庄AI模型获得减肥食谱,此时高老庄AI模型因为“被污染”过,生成了不准确的饮食建议,最终导致减肥失败。

2.数据投毒的技术原理

(1)添加虚假数据:攻击者可能向训练数据中添加虚假或不准确的数据,以干扰模型的训练。例如上述“高老庄AI模型”的例子。

(2)数据偏差:攻击者可能故意引入数据偏差,以使模型偏向某些特定类别或结果。例如,在一个图像分类模型中,攻击者可能提供大量特定类型的图像,以使模型在该类别上表现良好,而在其他类别上表现糟糕。

(3)对抗性样本:对抗性样本是一种特殊类型的输入数据,经过微小修改后,可以导致模型产生错误的输出。攻击者可以生成对抗性样本,并将其添加到训练数据中,使模型容易受到攻击。例如,在图像分类中,对抗性样本可能导致模型将一只猫误分类为一只狗。

(4)数据污染:数据污染是指通过向数据中引入噪音或干扰来降低数据质量。攻击者可以故意污染训练数据,使模型在处理干净数据时出现错误。例如,在语音识别模型中,添加噪音到音频数据可能导致模型错误地解释语音。

(5)标签错误:攻击者可以更改或错误地标记训练数据的标签。这可能导致模型学习不正确的关系。例如,在一个疾病诊断模型中,将健康图像标记为患病可能导致模型产生错误的诊断。

毒壤之花:数据投毒有哪些结果影响?

数据投毒的危害有多大,作为普通用户,你或许觉得无足轻重。因为在生成式AI的体验中,即便有一天AI向你推荐“烹饪大熊猫”的减肥食谱,你肯定不会听信,因为那是众所周知的国家保护动物;同样,假如AI生图软件“指鹿为马”,你也能基于生活常识,轻易识别错误。

但是,假如数据投毒发生在以下这些领域,你就不会觉得后果仅仅是“减肥失败”而已了。

在自动驾驶汽车领域,可能导致车辆产生错误的安全驾驶决策,如无法识别障碍物或红绿灯,从而酿成严重的交通事故。

在智慧医疗诊断领域,可能会造成医疗图像分析失误,或者疾病诊断错误,严重危及患者性命。

在国家军事安全领域,可能导致对国家机密信息的入侵或破坏,危及国家安全,甚至诱导自主性武器错误发起攻击,造成灾难性后果。

看来这也有点过于轻而易举了,在数据里掺“一把沙子”,就能坏掉“一大锅好粥”。

法内之地:数据投毒将承担哪些法律责任?

1.刑事责任

非法控制计算机信息系统罪:在数据预处理阶段,如公司内部人员或外包方人员,利用接触训练数据和训练流程之便,故意将中毒数据插入训练集、控制数据标签,甚至直接修改训练数据,企图实现“控制”AI模型生成有害结果,这样的行为可能涉嫌非法控制计算机信息系统罪。

2023年4月,浙江警方破获全国首例“投放木马非法控制计算机信息系统案”,涉案的黑灰产团伙便是在网络平台内利用木马控制程序对企业实施侵害。虽然这一案例与AI训练数据投毒的技术场景不尽相同,但均系破坏性网络攻击行为,均侵害了同一法益——即计算机信息系统的运行安全、计算机信息系统的保密性和控制性。

2.民事责任

(1)侵犯生命健康权:用户在使用AI模型过程中,因其基于对生成虚假信息的信赖,最终造成生命健康上的损害后果,有权基于用户协议约定或《民法典》有关侵权法律规定,向AI模型研发企业提起民事诉讼,要求赔偿损失。

(2)侵犯名誉权:如攻击者向数据中注入虚假信息,如虚假指控、恶意陈述或诽谤性言论,旨在损害某个人或机构的名誉,亦将构成名誉侵权。

3.行政责任

猫鼠游戏:如何有效应对数据投毒的风险?

1.数据验证和数据清洗

2.加强内容审查

一方面在训练阶段,可以学习OpenAI公司,招聘人员来审查并分类处理从互联网上获取的、以及由AI自身生成的有害文本,继续“投喂”给前述的AI安全过滤器学习。

另一方面在生成阶段,与第三方内容审核平台合作,精准防控内容风险。目前,市场上已有一众内容审查平台,可供采购此类服务。

3.构建具有鲁棒性的模型

通过多样化训练数据、特征工程以及异常检测等方式,使AI模型在面对异常情况、干扰、错误或攻击时,依然保持稳定性和正确性。就像一辆“全天候自动适应”的智能汽车,能够在各种不同的道路条件下(不管坦途或坑洼、天晴或雨雪)安全驾驶,也能够处理某些突发小故障(如胎压下降),总之可以适应各种变化条件以及异常情况,保持稳定、安全行驶。

4.完善立法和制定标准

首先,从前述有关法律责任部分的分析,可以得知数据投毒行为,没有明确的法律条文加以规制,因此只能从网络安全、计算机网络犯罪等层面,去实施监管。未来随着“百模大战”走向成熟的发展定局,不难想象AI应用将走进千行百业,数据投毒的现象将日渐增多。鉴于该类行为造成的危害后果不容小觑,法律规定更应该与时俱进,因应技术的发展进行调整和完善,厘清数据投毒的违法界限,制定相应法律后果以增加其违法成本。

5.加强员工网络安全培训

数据投毒方式日渐隐蔽且多样化,而网络安全防范措施也在不断升级,在这场“猫鼠游戏”中,AI企业应重视对员工的网络安全教育,定期开展培训,以帮助员工了解最新的网络威胁和攻击方式。同时制定清晰可执行的网络安全政策,确保员工熟悉公司防范数据投毒的基本措施、如何安全地使用公司设备和网络,以及如何识别潜在的数据投毒威胁。

THE END
1.数据清洗的重要性及步骤4. 数据发布:最后,将清洗后的数据发布到指定的数据库或数据仓库中,以供后续分析和应用。四、结论数据清洗是提高数据质量的关键步骤之一,它可以帮助我们获得更准确、更完整的数据,从而为我们的决策提供更好的支持。通过了解和掌握数据清洗的步骤和方法,我们可以更好地应对各种数据质量问题,为我们的工作和生活带来更多https://aiqicha.baidu.com/qifuknowledge/detail?id=10201303570
2.大数据什么是数据清洗?(附应用嘲及解决方案)数据清洗是一个耗时的过程,尤其是在数据量大和数据质量差的情况下,需要投入大量的时间和资源。 通过使用专业的数据处理工具,如FineDataLink,可以有效地解决数据清洗的痛点,提高数据处理的效率和质量。FineDataLink提供了多种可视化算子和功能,如新增计算列、数据过滤、数据关联等,帮助用户快速完成数据清洗和处理,无需编https://blog.csdn.net/oOBubbleX/article/details/140350709
3.大数据应用导论Chapter02大数据的采集与清洗大数据的处理主要是对数据的清洗,将其转化为可利用的数据目标,数据科学家约60%的时间都在进行数据清洗工作。 数据清洗是对数据进行转换、缺失处理、异常处理等。数据清洗可以提高数据的质量,提高数据分析的准确性。 数据清洗一般在大数据分析流程中的第三步: https://blog.51cto.com/14683590/5236225
4.感悟与反思┃“数据清洗工作”的总结与反思——席义博当时告诉大家把每遇到一次报错,都做一系列整理工作,包括问题描述、截图、出错的源文件处理等等,之后还涉及到类似“断点续传”的操作,如果每次出错都重新来过,数据清洗的效率将大大降低。这么过了几天,对大家的报错情况基本都有数儿了,我虽说不清楚为什么,但至少能清楚地描述出“当如何如何时”就会有“报错”,也许http://www.sxmu.edu.cn/bdcd/info/1097/1393.htm
5.数据治理知识分享—数据元主数据参考标准指标数据业务术语07、数据清洗 依据标准对存量主数据开展清洗工作,清洗过程除了基于质量规则对已有不规范数据进行属性补充、规范化填写以外,更重要的是识别重复的数据、对重复数据进行去重及合并,数据层面主要通过新旧编码映射的方式确保旧编码的业务正常开展。 08、数据共享 存量数据的共享,主要通过初始化导入方式开展;增量数据的共享,主要https://www.asktempo.com/news/industry-information/1461.html
6.数据清洗工程师岗位职责(工作内容,是做什么的)数据清洗工程师是做什么的?有前途吗?工资待遇怎样?94.7%的岗位拿¥8-30K/月。招聘要求高吗?学历本科最多占89.7%,经验3-5年最多占48.6%。数据清洗工程师岗位职责怎么写?为你汇总德特赛维技术有限公司,东莞艾特信息科技有限公司,北京学果科技有限公司等公司的工作描述https://www.jobui.com/gangwei/shujuqingxigongchengshi/duty/
7.什么是数据清洗?面对常见的数据清洗问题,有哪些解决方法?答案是——数据清洗。简单来说,数据清洗就是对数据进行审查和校验的过程,目的是删除重复信息、纠正存在的错误,并提供数据一致性。如何有效进行数据清洗,走好数字化转型的每一步,是企业要思考的重要命题。 一、数据清洗的意义. 众所周知,在数据分析报告中,未经清洗的数据很可能会导致错误的结论,降低报告的可信度。而https://www.fanruan.com/bw/doc/180930
8.什么是数据清洗数据清洗,顾名思义就是把"脏"的"洗掉",指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或http://www.chinaedg.com/e/wap/show.php?classid=85&id=260&style=0&bclassid=69&cid=85
9.数据分析的流程是怎样的数据分析主要有八个流程:1、目标的确定;2、数据获取;3、数据清洗;4、数据整理;5、描述分析;6、将数据展现和输出;7、洞察结论;8、报告撰写。 1、目标的确定 只有弄清分析的目的是什么?才能准确定位分析因子,提出有价值的问题,提供清晰的思路。 这一步在工作中通常是由你的客户/上级/其他部门同事/合作方提出来https://www.linkflowtech.com/news/626
10.数据分析是什么工作内容数据分析是什么工作内容 数据分析的工作内容包括:数据体系的搭建、数据清洗、数据预处理、可视化展示。(1)数据体系的搭建:每一个产品的功能都需要通过数据来监控这个功能的使用情况,包括用户量的变化情况使用的体验情况,业务的健康情况,业务的机会点等。所以在公司或者企业内部都会建立起一套相对应的叫做数据体系的东西https://36kr.com/p/dp1517207321827335
11.牛笔了,我用Python画了一个生日蛋糕,成功赢得了女友的芳心!数据库连接可用于连接众多数据库以及访问通用数据库接口,可用于数据库维护、管理和增、删、改、查等日常操作。 04 数据清洗转换 数据清洗转换主用于数据正式应用之前的预处理工作。 05 数据计算和统计分析 数据计算和统计分析主要用于数据探查、计算和初步数据分析等工作。 https://www.jianshu.com/p/59a8e49b8cf0