被坏爬虫薅羊毛,双重应对策略让电商恶意爬虫比例降至不足1/3|创新场景搜索引擎

受巨大的商业利益驱动,爬虫现象普遍存在于各行各业,如高科技与金融、旅游与酒店、数字媒体、电子商务、社交媒体等。其中,电商领域的爬虫现象显著高于其他行业。

善意的爬虫如搜索引擎,它们为信息流通与检索提供了便利,有助于提升企业的网络可见度和营收;中性的爬虫则涉及了许多提供“爬虫即服务”的公司,如Webscrapingbots、BrightData等,它们旨在帮助用户进行信息收集与聚合,从事市场调研、竞品分析等非恶意活动,但这类工具也许会被不当使用与滥用;有害的爬虫也就是“坏爬虫”,可能从事撞库攻击、库存抓取等恶意行为,不仅威胁到用户的账户安全,也会严重损害企业利益与安全。

那么,在实际应用中,不法分子是如何利用爬虫技术从电商领域获利的呢?钛媒体App了解到,爬虫玩转了“全网最低价”策略,首先是广泛搜集各销售网站数据,包括产品价格、库存等关键信息;通过对比分析,找出价格最优、优惠力度最大的电商平台。基于这些信息,转而在另一个平台上开设自己的店铺,以准新或全新未开封的产品进行转售,利用价格优势实现盈利。甚至还可能利用脚本抢占库存、购买促销商品后转售牟利,给电商生态带来潜在威胁。

值得注意的是,随着技术的进步,融入了AI和机器学习技术的爬虫服务也日益智能化,它们能自动从多个数据源抓取内容,通过预设的逻辑进行数据抽取与分析,这种一站式解决方案无疑是把双刃剑。尤其对电商网站的所有者来说,爬虫技术演进后,其隐蔽性越来越强,特别是采用“无头浏览器”等技术的爬虫已经能模拟人类访问行为,使得传统安全手段难以有效识别与拦截。此外,不断泛滥的爬虫还会不断变化,一次防御过后,下一次还可能会出现变种,这对企业构成了巨大的挑战。

解决方案

点击报名参与创新场景50的评选

Akamai北亚区技术总监刘烨告诉钛媒体App,面对日趋复杂的网络爬虫,企业的应对策略应分而治之,以确保好的爬虫能够正常访问,而对坏的爬虫进行处理。这就要求,首先要能够识别爬虫,其次,针对不同类型的爬虫再采取相应的应对措施。

针对识别出的坏爬虫,下一步则是考虑采取什么样的应对方法。刘烨表示:“通常我们提到的应对措施是针对其它产品,如应用防火墙(WAF),其主要模式是‘报警’和‘阻止’。然而处理爬虫时,通常不是简单地阻拦或禁止,而是管理它们。一旦识别出爬虫,即使是恶意爬虫,也应该采取不同的处理方式。”

处理爬虫的方法可以有多种不同选择。例如,可以选择不禁止它,但不做任何响应,让它误以为连接仍在进行;或者是给它提供虚假信息,例如在它抓取价格时返回给它一个虚假的价格;当然也可以选择直接禁止它。以上措施一般是根据实际情况进行动态调整。

具体到Akamai的做法,其提出了双重应对策略。首先,在边缘网络层面,利用预定义的访问异常特征和协议指纹来快速识别并限制恶意爬虫。其次,通过深入分析访问行为(如鼠标移动轨迹、键盘敲击模式)和设备指纹,结合机器学习模型,进一步细化识别精度,确保对潜在威胁的精准打击。

同时,面对AI加持下不断变化的爬虫,企业和安全厂商也应采取更多自动化策略。当出现新的攻击类型时,不需要人为干预,策略引擎能够自动部署新的策略,有针对性地阻止这些新攻击。这是应对快速变化的攻击类型和产品演进的重要措施。

成效

关于电商场景中可能遇到的爬虫问题,包含三个具体例子,分别针对爬虫识别、被动成本、“撞库”威胁。

第一个例子是对电商网站高风险爬虫的识别管理。通过一周的监测,Akamai判断出某客户电商网站的人类访问、高风险爬虫、中风险爬虫、善意爬虫类型,识别出使用高级脚本的恶意爬虫比例高达97%,进行爬虫管理后,这一比例降至不到1/3,有效禁掉了大部分高风险爬虫。

第二个案例是针对爬虫带来的被动成本威胁。当企业短信接口被爬虫触发时,频繁的短信发送导致了成本损失。通过爬虫管理平台能够识别并处理这类爬虫,从而降低费用损失。

第三个案例涉及“撞库”类型的爬虫。企业在日志中发现大量“访问不成功”的信息,这则是明显的撞库请求。通过有效过滤来提升账户安全,确保业务安全。(本文首发钛媒体APP作者|贾雨微)

「关于创新场景50」场景不是案例,它更加精准、也更加抽象。数字化就是创新场景的不断叠加和迭代。在此背景下,钛媒体重磅推出「创新场景50」评选,每年遴选并解读50个全行业与业务深度融合的创新性场景及其解决方案,并在钛媒体年度ITValueSummit数字价值年会上隆重颁奖、深度交流。目前场景正在征集中,更精准的解读、更广泛的曝光、更强大的品牌势能,欢迎你提出问题,更欢迎你留下解决的方法和工具。点击这里投递更多场景信息

THE END
1.数据治理:如何实施数据清洗,提升数据质量?一、什么是数据清洗?在数据治理工作中,为了彻底解决企业的数据质量历史遗留问题(数据不一致、不完整、不合规、数据冗余等),必须对存量数据进行改造,实施“数据清洗”工作。“数据清洗(Data cleaning)”一词,是数据治理领域中的专业术语。从字面意义上理解,“数据清洗”就是将数据上“脏”的部分清洗干净,让https://baijiahao.baidu.com/s?id=1738201979157781117&wfr=spider&for=pc
2.Python电商数据清洗及分析数据清洗阶段主要处理不符合业务逻辑的异常值,还有缺失值和重复值。 3.2.1 清洗发货日期早于下单日期的异常值 # 根据业务需要提取数据,发货日期早于下单日期 # 1)转换时间类型 data["OrderDate"] = pd.to_datetime(data["OrderDate"]) data["ShipDate"] = pd.to_datetime(data["ShipDate"]) # 2)计算时https://www.jianshu.com/p/bcb61ad9ff71
3.3.3电商评论数据清洗plusavailable":0本文介绍了电商评论数据的清洗过程,强调了数据清洗的重要性,解析了Json格式的评论数据,提取关键字段,如评论内容、评分、昵称等,并展示了如何使用MapReduce进行数据清洗,最终输出结构化的文本文件。 摘要由CSDN通过智能技术生成 实验3.3电商评论数据清洗 字体: https://blog.csdn.net/weixin_41586605/article/details/79226386
4.电商项目之数据清洗详解学习笔记简介:快速学习电商项目之数据清洗详解 开发者学堂课程【新电商大数据平台2020最新课程:电商项目之数据清洗详解】学习笔记,与课程紧密联系,让用户快速学习知识。 课程地址:https://developer.aliyun.com/learning/course/640/detail/10520 电商项目之数据清洗详解 https://developer.aliyun.com/article/1081150
5.跨境电商数据清洗的概念和原理跨境百科连连国际官网跨境电商数据清洗是发现并纠正跨境电商数据文件中可识别的错误的最后一道程序,包括检查数据一致性、处理无效值和缺失值等。与问卷审核不同,数据清理一般由计算机而不是人工完成。 1.跨境电商数据清洗的概念 数据清洗( Data cleaning)对数据进行重新审查和校验,目的在于删除重复信息、纠正存在的错误,并保证数据一致性。 https://global.lianlianpay.com/article_wiki/32-86492.html
6.电商精准营销—数据清洗电商精准营销—数据清洗 中级 文海洋 湖南工程学院 学习人次82 某商城作为中国最大的自营式电商,在保持高速发展的同时,沉淀了数亿的忠实用户,积累了海量的真实数据。如何从历史数据中找出规律,去预测用户未来的购买需求,让最合适的商品遇见最需要的人,是大数据应用在精准营销中的关键问题,也是所有电商平台在做智能化升https://www.educoder.net/shixuns/fqtjbfak/challenges
7.如何进行电商的运营工作数据清洗和预处理是数据分析的前置工作,需要对数据进行去重、缺失值处理、异常值处理等操作,以保证数据的准确性和可靠性。 3.数据挖掘和分析 数据挖掘和分析是电商运营数据分析的核心环节。需要通过数据挖掘、统计分析、机器学习等技术手段,挖掘数据背后的规律和趋势,为电商平台提供决策支持和优化建议。 https://www.linkflowtech.com/news/1767
8.数据质量和数据清洗研究综述20240502094258.docx数据质量和数据清洗研究综述.docx 48页VIP内容提供方:智慧城市智能制造数字化 大小:36.95 KB 字数:约2.31万字 发布时间:2024-05-08发布于广东 浏览人气:19 下载次数:仅上传者可见 收藏次数:0 需要金币:*** 金币 (10金币=人民币1元)数据质量和数据清洗研究综述.docx 关闭预览 想预览更多内容,点击https://max.book118.com/html/2024/0502/5204342041011202.shtm
9.滴滴公开“数据清洗方法装置”专利5月11日消息,天眼查资料显示,滴滴关联公司北京嘀嘀无限科技发展有限公司5月11日公开一项“一种数据清洗方法、装置、电子设备及存储介质”专利,公开号为CN111651437B申请日期为2020年4月17日。 该专利摘要显示,本申请提供了一种数据清洗方法、装置、电子设备及存储介质,其中,该数据清洗方法包括:获取目标订单对应的行程轨https://www.dsb.cn/147912.html
10.跨境电商店铺数据分析该怎么做?BI分析全流程实操详解!FineBI能够通过电商平台原始数据快速进行数据清洗、分类、汇总,并生成直观的图表展示。它能够按周期、品类、店铺等维度展现数据情况,减少数据处理时间和错误率。报告基于公司在跨境电商平台一个店铺的2021年销售、财务和退货数据。分为销售、财务、退货三个模块,可通过国家、收入、退款等维度的图表实现联动。https://www.finebi.com/industry/da-kjdsfx
11.大数据大厂之数据清洗工具OpenRefine实战:清理与转换数据OpenRefine 是一款开源的数据清洗和转换工具。它可以帮助用户快速地清理和转换各种类型的数据,包括文本数据、数字数据、日期数据等。OpenRefine 提供了丰富的功能,如数据筛选、排序、合并、拆分、正则表达式匹配等,可以满足用户在数据清洗过程中的各种需求。例如,在一个电商数据分析项目中,我们可能需要清理用户的评论数据,https://www.dtstack.com/bbs/article/25298
12.什么是数据清洗?面对常见的数据清洗问题,有哪些解决方法?答案是——数据清洗。简单来说,数据清洗就是对数据进行审查和校验的过程,目的是删除重复信息、纠正存在的错误,并提供数据一致性。如何有效进行数据清洗,走好数字化转型的每一步,是企业要思考的重要命题。 一、数据清洗的意义. 众所周知,在数据分析报告中,未经清洗的数据很可能会导致错误的结论,降低报告的可信度。而https://www.fanruan.com/bw/doc/180930
13.“武陟县域就业岗位每周送”武陟县人社局2023年05月01日收集四、清洗车间操作工: 1.薪资:试用期工资4500元。 以上人员一经录用: 1.公司免费提供工作服和全天用餐。 2.试用期公司免费给本人加入一份商业“意外伤害保险”。 3.试用期结束经厂部录用,待遇是:月基本工资+满勤奖+绩效奖金。 4.试用期结束,经公司认可给本人入人社局的“三险”。 https://wzjob.jzggjy.com/news/detail/304033.html
14.关于举办兰州市2020年残疾人网络专场招聘会的公告甘肃兰迅清洗工程有限公司 资料员 业务员 司机库 管普工 技工 宾馆服务员 保洁员 站务人员 检票员 保安人员 物业管理员 兰州市七里河区江子为民居家养老综合石嘴山和君纵达数据科技有限公司 银行客服专员 甘肃大永中医健康管理咨询有限公司大永中医诊所 按摩师 甘肃烯旺中医有限责任公司 http://www.gscjrjy.org.cn/contents/762/183.html