在PC端打开世纪佳缘网站,搜索20到30岁、不限地区的女朋友
翻了几页找到一个search_v2.php的链接,它的返回值是一个不规则的json串,其中包含了昵称、性别、是否婚配、匹配条件等等
点开Hearders拉到最下面,在它的参数中sex是性别、stc是年龄、p是分页、listStyle是有照片
通过url+参数的get方式,抓取了10000页的数据总共240116
需要安装的模块有openpyxl,用于过滤特殊的字符
在处理数据去掉重复的时候发现有好多重复的,还以为是代码写的有问题呢,查了好久的bug最后才发现网站在100页只有的数据有好多重复的,下面两个图分别是110页数据和111页数据,是不是有很多熟面孔。
110页数据
111页数据
过滤重复后的数据只剩下1872了,这个水分还真大
deffilterData():filter=[]csv_reader=csv.reader(open("sjjy.csv",encoding='gbk'))i=0forrowincsv_reader:i=i+1print('正在处理:'+str(i)+'行')ifrow[0]notinfilter:filter.append(row[0])print(len(filter))
世纪佳缘的数据告诉我们网上交友需谨慎。用好Python走遍网络都不怕。
注意:如果你是打算找python高薪工作的话。我建议你多写点真实的企业项目积累经验。不然工作都找不到,当然很多人没进过企业,怎么会存在项目经验呢?所以你得多找找企业项目实战多练习下撒。如果你很懒不想找,也可以进我的Python交流圈:1156465813。群文件里面有我之前在做开发写过的一些真实企业项目案例。你可以拿去学习,不懂都可以在裙里找我,有空会耐心给你解答下。