来源:数据分析师 CPDA | 时间:2019-05-07 | 作者:admin
对于租客而言,租房贵、租房难是存在已久的问题,几乎每个在城市租过房子的人都可以写下一部与中介、与房东斗智斗勇的血泪史。
网上图片窗明几净、温馨舒适,现场看房杂乱破旧、不忍直视;中介收着动辄百分之几十的中介费玩花样套路,价格合理的房子说已经租完,超出预算的房子拼命推荐,好不容易看上一个,交付押金又坐地起价多收几百元;房东签约前各种包您满意、信誓旦旦,入住两天就发现马桶漏水、空调跑电,打房东电话仿佛人已失联……
新的一年已经来了,步入新年又是一个租房的高峰期,这一次小编利用爬虫和数据挖掘技术,在安居客里为大家推荐一个性价比优秀的房源以及防坑小贴士。本次研究以租金为线索:利用数据分析在租房时与那些漫天要价的房东斗智斗勇。
一、本次的文章研究方向:
1、利用爬虫对安居客所有苏州的房源数据进行抓取
2、对抓取后的数据进行处理,并对变量加以解释
3、建模对租房需求提一份参考价
4、按照需求整理出一批租金合理的房源
二、实施步骤:
1、确定目标数据:观察安居客租房网页对可以获取到数据进行简单的记录,并确定需要爬取的数据
2、进行数据采集:对网页结构进行分析,对所选的目标进行简单分析并写在草稿上,撰写爬虫代码并优化
3、清洗异常数据:观测爬取后的数据,并对不合理的数据进行处理
4、进行建模预测:对样本进行分层抽样,并利用多元线性回归模型对租金进行建模&预测,并与实际租金比较,筛选出合理的租金。
三、数据集的定义:
四、数据获取:
数据来源:安居客(https://su.zu.anjuke.com/)
关键词搜索:苏州
数据集:18185个(由于安居客仅有前50页数据,所以对各个区单独进行了爬取)
工具以及相关库: p y t h o n ( r e q u e s t s , p a n d a s ,numpy,matplotlib,seaborn,statsmodel等)
五、撰写爬虫:流程:(仅选取部分代码)
1、用户代理池建立(池越多越好,越深越赞)
2、对要抓取的目标数据进行分析
3、同时利用抓包工具(推荐利用fiddle工具实施)
4、构建一级页面的抓取并获得详情页
5、循环抓取并尝试采用Pool多进程提升抓取速度
6、数据并不是很大,直接写入excel
六、数据处理与变量解读:
2.1、查看数据基本描述
2.2、去除重复数据
2.3、去除异常值或者空值
2.4、观测因变量
在超过1万元租金以上是明显的异常值,对其进行处理,视作为1万元租金
2.5、自变量处理
2.5.1不同卧室数的房租是有一定的影响,且在4间内和4间以上的波动差距变大
2.5.3 中低楼层对租金影响不高,但在高层对租金有一定的影响。
2.5.4不同朝向对房屋租金有一定的差异影响
七、对数据进行分层抽样并进行建模
逐个检验变量的解释力度
线性回归模型:
R方由之前的0.56上升到了0.75,模型有明显的提升效果。R-squared等于0.75表示,本次模型可以解释75%的现象,所以根据预测金额来判断是否有坑是有较好解释指导作用的。
八、总结
控制其他因素不变时,
从区域角度,平均工资高的工业园区房租租金最高,比吴江高出了32%,
从出行角度,有地铁比没地铁的租金高10%,
从卧室角度,卧室每多一个比之前的卧室数租金高10%,
从面积角度,面积每多一平米比之前的面积租金高30%,
从楼层角度,每高一层比之前的楼层数租金高1%。
以下是一些具体选房和砍价的建议:
1.根据预测的价格与网上的真实价对比,并筛选真实价不超过预测的15%,若超过我们就过滤这批房源,认为房东的租金价格偏高,属于狮子大开口。
2.若这地方实在想租,但价格觉得偏高时。在租金协商的时候若可以和房东按预测价格协商谈判。但实际谈判的时候是不可能把“预测”放在台面上做筹码。我们也可以尝试计算该区域周围的房价,筛选出价格低于谈判的房价进行博弈。
3.其次,当房东以一些因素为高价理由的时候,我们可以举出反例,比如以楼层好,太阳足为理由租金偏高的时候,我们可以根据上面总结结论来看,楼层的改变对价格影响并不高,以此为由来砍价。并且在实际租房中可以挑出一些房子的毛病来砍价。
4.最后最重要的是,真正能影响房东是否接受砍价核心因素就是房子在他手上攥了多久,比如放盘一个月甚至更久,这时候房东肯定急于出租,这时候我们就需要新的指标,长久的爬取房价信息,并且价格进行监控,若发现房东自动降价那就坐实了他接受砍价。
九、不足/提升支出:
在爬虫方面本次案例中尝试了多进程,经测试提高了一定的效率,但由于小编功力有限,在后来尝试的过程中出现了不知名的错误待解决。
在模型线性回归预测方面,可以把地区进一步的划分,来提高模型准确度,并且在实际运用的时候更加方便业务的需求,毕竟按照整个大区域来分对于租房来说还是太宽泛了。
在总结的时候小编也提出了最终能影响房东是否接受砍价的是他房间多久没出租掉这个指标,我们可以在后期增加对房屋在网上挂了多久时间这个维度。
在实际运用方面,本次案例仅从租金角度出发,就如我们经常看到的一句话"xxx以实物为准,最终解释权归xxx",租金是一方面,但也要小心"便宜没好货",在租房子的时候多多进行实地考察,多家环境对比也是相当重要的。
文 / 苏州CPDA数据分析师 杨冰羽