python+rabbitMQ抓取某婚恋网站用户数据齐天猫猫

a.你知道吗,爬这个网站能让你恶心,字段极多,并且男生的页面和女生的页面结够还不一样,所以男女数据所在网页里面的位置也就不一样,标签属性也有不同的地方,所以,我是用if分开男女去分别爬取的,中间也包含一些数据转换和拆分处理,也有一些小坑,我在下面的代码里会说

b.网站有反扒技术,之前写了一个爬虫,请求,解析,存取都在一个文件中,当请求过快时会被服务器远程强制断掉,解决的办法是使用代理ip和更换UserAgent,但是有一个bug就是代理爬取的代理ip的可用度极低,导致速度极慢,后来就果断注掉了,发现是ok的,他的反爬机制没有弄的太明白.

c.模拟登陆:严格说不能算模拟,解决的办法是手动在网页登陆之后,然后把去浏览器中把cookie抓出来,放到headers里面,请求的时候带上cookie,这样就能请求到登陆之后才能抓到的数据了。

d.分析网页,用户的详情页是跟随id在改变的,所以爬取的逻辑是用一个for循环id+请求的连接,还能天然的去重,中间有时会出现未知的错误断掉,大家可以自己在for外面捕获一个异常,然后整个代码装在一个def里,用递归实现一直循环

3)开发工具:pycharm+python3.6

2.简单的说下MQ在这个任务中的作用:将一个任务纵向拆分成若干块,每一块之间以消息队列为介质进行连接并传送需要的信息,这样让执行不同任务逻辑的的代码可以并行工作,互不影响并且能提高程序运行的效率,消息队列有六个工作模式,这里用到的是work模式,建议百度了解原理,在此不过多阐述。下面我自己画了一张图助于大家理解代码的实现逻辑和过程,希望能帮到大家!(大一点看得比较清楚)

后续会把多线程也加进去,不断地优化和改进,虽然辛苦,实现之后还是有一种那叫什么感来着^_^,望大家多多指点,欢迎留言交流·····!

THE END
1.知乎:一个神奇网站的前世今生1.知乎的角色是什么? 这是一个神奇的网站。 在这里,你可以“偷窥”亿万富翁的私人生活;在这里,你可以了解到被袋鼠暴打是一种什么样的体验;在这里,你可以看到“世界那么大,我想去看看”女主角同事的贴身爆料;在这里,你可以看到90多个关于《聂隐娘》的不同解读;在这里,有363个人为你推荐“100元以下高大上的小https://www.douban.com/note/528278845/
2.大龄婚恋交友平台排行榜前十名,大龄婚恋交友平台排行榜小红书作为社交平台的佼佼者,近年来也逐步涉足婚恋交友领域。通过精准的大数据分析与个性化推荐,平台迅速吸引了大量的大龄单身人士。更重要的是,用户可以在这里找到志同道合的人群,通过分享生活、兴趣和情感经历建立起深度的连接。 6. 知乎婚恋 你能想象知乎也能成为一个婚恋交友平台吗?其实,知乎通过其知识分享的特点,http://www.aichao521.com/hunl/26853.html
3.有什么好的婚恋平台推荐?中国最火相亲交友软件测评分享,单身找对象必有什么好的婚恋平台推荐?中国最火相亲交友软件测评分享,单身找对象必看 30岁的大龄剩女,经过两年的相亲奋战,终于成功脱单啦!相信大家也都晓得我们这个年纪的人呀,找对象会越来越难,所以相亲找对象就是妥妥的刚需呀。我可是用过好多软件嘞,当中有好几个真的让我印象超深刻的呢,那今天我就来给大家送上我亲身体验的https://blog.csdn.net/qq_39805501/article/details/139595974
4.10部知乎高赞推荐,让我们三观震撼跪感十足的经典好书知乎有一个高赞的问题说,有的书是有跪感的。 所谓跪感,就是你读着读着,就想跪下来读。 因为,作者写得实在是太深太强了。 我们在阅读过程中,仿佛突然降落一个陌生的星球,进入到一个全新的认知世界。 本期书单下载关键词:知乎高赞书单,就是根据点赞人数比较多的书单整理而成。 https://www.360doc.cn/mip/1119070760.html