当前位置 > CPDA数据分析师 > 36小时数据分析行业HOT点 > 机票爬虫:订票网真人只有5% 低价票根本买不着

机票爬虫:订票网真人只有5% 低价票根本买不着

来源:数据分析师 CPDA | 时间:2017-12-21 | 作者:admin

机票爬虫

 

爬虫(spider),本来是个起源于搜索引擎的概念,百度、搜狗等搜索引擎,依靠巨大的爬虫集群每天抓取互联网上数百亿网页。

 

随着技术的发展,现在的爬虫已经与以往大不相同。它被广泛用于互联网金融、电商、社交等领域。在机票领域,爬虫可以抓取机票价格,发现超值机票后,爬虫还可以仿冒真人用户将其抢先预订。

 

机票爬虫们威力之大,让人叹为观止:多数订票网站,真实用户产生的不到10%,其浏览量的90%由爬虫产生。

 

航空公司放出的低价机票,很少被普通用户买到。据业内人士估计,80%以上低价机票被票务公司的爬虫抢走。

 

专家:业内网站的流量九成以上是爬虫

 
其他行业的互联网公司,大家吹嘘自己价值的时候通常说,我的PV是多少、UV是多少。

 

在机票行业,谁也不敢这么说。因为都知道,真实流量只有百分之几。

 

携程的反爬虫专家在技术分享中举例:某网站的一个页面,每分钟的浏览量是1.2万,真实用户只有500个,爬虫流量比例是95.8%。

 

据采访多个内部人士表示,即使在爬虫的淡季,虚假流量也占据订票网站的50%,高峰期更是在90%以上。

 

这些爬虫流量只访问,消耗大量机器资源,却不产生任何消费,是每个公司最痛恨的东西。但是,因为怕误伤真实用户,各家公司的反爬虫策略做的非常谨慎。

 

价格战促生爬虫肆虐

 
某旅游网站的反欺诈工程师阿城(化名)表示,行业内的价格战在很大程度上促使爬虫程序的肆虐。

 

他举例说:假使行内有三个网站A、B、C,他们都在宣传的时候主打:上某某网,订票最便宜。事实上,航空公司给他们的价格基本是相同的,即使有的网站出票量大,挣得也是年底的返点,很难有太大的价格差别。

 

于是,网站A在某个月补贴300万,每张票平均补贴100元,使得自己网站上的机票价格看起来便宜好多。

 

但是在制定价格补贴的时候,为了预防黄牛党,大家都不敢每张票直接减100,而是热门航线减50,不热门的减150,市场上重点宣传那些不热门的线路。

 

而且在不同时间、不同航线,执行不同的价格补贴策略,同一张票,可能早上和中午的价格都不同。大家一看真便宜,于是蜂拥而至。

 

网站B的CEO一看,这不行啊,我们也补贴。他们补300万,我们补500万。技术部的某某,你去监测下他们的价格,我要知道他们的补贴策略。

 

网站上每天至少有几十万张票的价格出来,这肯定需要爬虫去爬,于是网站B的爬虫就出动了。

 

网站C同样也这么搞。

 

直到有一天,因为各家爬虫过于勤奋,导致服务器压力报警。

 

网站A的CEO一看,我们的出票份额是市场第一,技术部的人员配备是他们两倍,爬虫谁怕谁?用更强大的机器集群武装起来的爬虫们蜂拥爬向对手的网站。

 

事实上,国内的旅游网站有点名气的至少有七八家,都有各自的订票业务。这些家的爬虫爬来爬去,就有了爬虫流量占据所有流量95%的奇观。

 

爬虫和反爬虫之战硝烟四起。

 

提直降代,航空公司被迫加入爬虫之战

 

2015年上半年,国资委要求几家国有航空公司未来三年内直销比例要提升至50%,同时代理费要在2014年的基础上下降50%,这就是民航业影响深远的“提直降代”。

 

所谓“提直降代”,就是要求航空公司要直营飞机票,尽力削减票务代理、旅游网站的出票量。据业内人士介绍,直销比例每提高10%,航空公司就可以从代理人手中节约近10亿元的分销费用。