其实,刚从象牙塔步入社会的时候,不曾想过房的事情。记得2016年房价猛涨,方才对房有了一些认知而已。直到随着年龄的增长,房子的故事便不得不需要展开了。
北上广深如今的房价又到了什么样惊人的数值呢?从贝壳找房最新的贝壳指数来看:北京是6.13万,上海5.62万,广州2.86万,深圳7.05万。
今天,我们从贝壳找房爬取了8万+二手房源信息,看看在北京的二手房都是什么样的存在。
通过本篇,大家可以在了解北京二手房多维度信息的同时学习Python的re正则表达式、pandas数据处理以及绘图库(pyecharts、seaborn)柱状图+饼图+直方图+箱线图+map+热力图+堆叠图和高德api的使用等。
数据说明:
工具环境
Python3.8.5
库
用途
requests
爬虫请求网站数据
re
正则解析网页数据及数据清洗
pandas
数据清洗及统分
pyecharts
绘图
matplotlib
seaborn
贝壳找房的数据爬取比较简单,简单的翻页规律和HTML网页文本解析。我们编写for循环,用requests请求数据,再用re正则表达式进行房源数据解析即可。
鉴于整个爬虫过程并不复杂,这里亦不细说,后续专题介绍如何获取全部数据。
网页源数据
房源数据解析代码如下:
由于翻页最多支持100页,每页约30个房源数据,如果我们想获取全部的数据,需要注意两点:
这部分我们用到pandas和re,主要是过滤非住宅房源的车位数据信息,解析房源更多有用信息。
哈哈,有点尴尬,部分别墅被误处理了。不过没事,别墅咱们就先不考虑,毕竟更买不起!
最后,我们只选取自己想用到的数据copy出来吧,一共80,825条房源数据。
在第3部分我们引入了pandas库,这里在进行可视化的时候需要先引入以下绘图库和做一些全局设置。
房源数分布
绘图代码:
各地区房源数占比
以下截图部分,公众号后台回复“北京二手房均价”可获取热力图地址,自由查看更详细信息。
北京二手房均价分布
均价直方图
从均价直方图我们可以发现,落在均价5万左右的房子比较多,而超过7万以上的房源数也不少,其中最低的可能仅1万出头,最高的则可以搞到17.5万!
在均价箱线图中我们可以看见,东、西城作为最核心的区域,其房子的均价真的是老高的,均价差不多都在10万+;其次是学校资源云集的海淀区,均价也高达8.3万+;朝阳貌似学校资源并没有那么丰富,均价6万+;其他区域价格虽然远没有以上几个区域贵,但是也基本都落在3-5万之间!!
均价箱线图
均价排名柱状图
均价最贵小区
均价最贵小区前10名均价都超过了17.5万每平米,这些都是什么神仙小区啊!!
看看中信国安府是什么样的存在:位于西城宣武门附近,2018年建的房子,都是超大面积的房子,一套也就4千5百万!!
中国国安府
北京房源数最多的四个区域均价最高的小区分别都是谁呢?
朝阳区的北京壹号院,丰台区的西宸原著,海淀区的万城华府,昌平区的东方普罗旺斯。
各地区均价最高前5
以下截图部分,公众号后台回复“**北京二手房总价热力图地址,自由查看更详细信息。
北京二手房总价分布
总价直方图(不含1000万以上房产)
总价大部分落在300-500万之间,全市范围内,其实200多万的房子也是比较多的。而100万上下的房子大部分都是所谓的学区房,单间带卫生间的大小在20平米左右,具体大家可以查看原始数据了解哈!!!
总价直方图
总价箱线图(不含1000万以上房产)
从单套的总价上看,依然是东、西城和海淀价格较高,几乎全是500万以上甚至更高。如果要在海淀比较自由的看房,700万预算基本可以覆盖绝大部分房产了,嗯,700万!!
总价箱线图
北京房源数最多的四个区域总价均值最高的小区分别都是谁呢?
朝阳区东山墅、霄云路8号,丰台区的国际花园,海淀区的龙湖颐和原著、香山清琴山庄,昌平区的东方普罗米修斯一期都有着7000万以上一套的房子。。
各区域总价前5
总价最贵在哪里
除了第一名位于密云的新南路40号独栋别墅外,就是二环附近的四合院或者奢华小区的高层超大面积户型。当然了,看这些其实没太大意义了!
总价最贵前10
以下是密云的独栋别墅,2.4万平?一共11层的钢混结构!!!
新南路40号独栋别墅
我们去掉房子面积大于400的372套房源,仅统计面积低于400的8万套房源。
面积直方图
在这些房源中,面积在50-70和80-90之间的房源最多,这些基本都是一室一厅、大2居或小3居的居多!
二手房面积直方图
面积箱线图
和房价相反,大户型的房源基本都在非中心城区的区域,当然毕竟单价相对低一些嘛。昌平其实是个很不错的地方,二手房的均价没有海淀朝阳那么贵,但是大户型房源占比更多。
在北京,大多数的二手房都建于2000-2010之间,几乎全是建于80年代改革开放之后。
房子建筑年限
从各地区不同总价区间的房源数来看,价值400-500万的房源最多,其次是价值在500-600万之间的房源。
当然,像东、西城,海淀和朝阳区价值200-250万的房源数也较多,通过更细的数据我们发现这类房子基本都是20多平的挂着学区房的基本不适合居住的小房间!教育资源衍生出来的奇怪房源产物,却又是那么重要且必须!!
各地区二手房【价格-地区】数量分布
户型最多的是2居室、3居室和1居室这种适合家庭居住的小家生活房,大部分价格都落在400-500万之间!
各地区二手房【户型-价格】数量分布
2室1厅这种适合一家三口居住的户型是最多的,几乎不管在哪个区。
各地区二手房【户型-地区】数量分布
从不同户型的均价来看,基本上差距不大。我们单看主流的1室1厅、2室1厅和3室1厅对比,似乎1室1厅和3室1厅会比2室1厅均价高那么一点,但也并不明显。本质上还是和地域以及学区有关,中心区域学位多的价格更高!!
各地区二手房【户型-地区】均价分布
丰台4室9厅
贝壳的经纪人在上架房源的时候喜欢用什么样的字眼呢?
火火火的小区都有哪些?
这块词云其实就是小区名称房源数的多少决定的,天通苑、芍药居、兴隆家园的房子二手房源真的多啊!!
根据2020年12月30日智联招聘发布《2020年冬季中国雇主需求与白领人才供给报告》,北京平均薪酬为1.19万。