用Python爬虫爬了世纪佳缘后发现了一个秘密街角的守望。|世纪佳缘search_婚恋

在PC端打开世纪佳缘网站，搜索20到30岁、不限地区的女朋友

翻了几页找到一个search_v2.php的链接，它的返回值是一个不规则的json串，其中包含了昵称、性别、是否婚配、匹配条件等等

点开Hearders拉到最下面，在它的参数中sex是性别、stc是年龄、p是分页、listStyle是有照片

通过url+参数的get方式，抓取了10000页的数据总共240116

需要安装的模块有openpyxl，用于过滤特殊的字符

在处理数据去掉重复的时候发现有好多重复的，还以为是代码写的有问题呢，查了好久的bug最后才发现网站在100页只有的数据有好多重复的，下面两个图分别是110页数据和111页数据，是不是有很多熟面孔。

110页数据

111页数据

过滤重复后的数据只剩下1872了，这个水分还真大

deffilterData():filter=[]csv_reader=csv.reader(open("sjjy.csv",encoding='gbk'))i=0forrowincsv_reader:i=i+1print('正在处理：'+str(i)+'行')ifrow[0]notinfilter:filter.append(row[0])print(len(filter))

世纪佳缘的数据告诉我们网上交友需谨慎。用好Python走遍网络都不怕。

注意：如果你是打算找python高薪工作的话。我建议你多写点真实的企业项目积累经验。不然工作都找不到，当然很多人没进过企业，怎么会存在项目经验呢？所以你得多找找企业项目实战多练习下撒。如果你很懒不想找，也可以进我的Python交流圈：1156465813。群文件里面有我之前在做开发写过的一些真实企业项目案例。你可以拿去学习，不懂都可以在裙里找我，有空会耐心给你解答下。

THE END

用Python爬虫爬了世纪佳缘后发现了一个秘密街角的守望。

用Python爬虫爬了世纪佳缘后发现了一个秘密街角的守望。

SDK

世纪佳缘的真实体验与用户评价分析红娘婚恋