来源:数据分析师 CPDA | 时间:2019-06-04 | 作者:admin
说起江湖,在脑海中浮现的不仅是恩怨情仇的情节或者踏雪无痕的身影,还有他们那一层透露江湖意蕴的古风装束。收起心绪,说说我们这次研究的主题:淘宝下古风系列的商品探索。
本文的研究方向
2、利用爬虫技术获取相应的数据,并进行试调优化;
3、利用文本分析淘宝里的古风商品;
4、古风商品价格、销售量、评论量等数据回归和可视化分析。
2、数据采集:Python爬虫淘宝网的古风商品数据,并进行调错,反爬;
3、为分析清洗和处理所需的数据;
4、利用文本分析技术:jieba分词以及wordcloud可视化对高词频商品进行分析;
5、古风商品销量,价格等数据的回归以及可视化分析;
6、商品区域分布展示;
7、总结以及指出不足之处。
关键词搜索:古风
数据集:4303个(爬取了105页左右的数据,仅爬取淘宝网站,对天猫店铺直接忽略)
工具以及相关库: python(urllib.request,re, pymysql,jieba,wordcloud,matplotlab,basemap等)
一、创建数据库
1.下载 mysql workbench;
2.找到anaconda \Lib \site-packages \pymysql \connections.py
ctrl+F 搜索charset='' 在''中加入utf8;
3.mysql创建数据和表详细代码如下;
1.2 可能会遇到的问题:
1、字节长度设置少了(解决方式:varchar(250))
2、中文字段写入问题(解决方式: character set = utf8)
3、特殊符号的词处理(解决方式:replace将特殊符号替换为空白)
1、用户代理池,ip代理池的建立(池越多越好,越深越赞,本次仅采用了3个ip切换)
2、设定要抓取的目标,对抓取的网站进行分析,
3、构建一级页面的抓取并获得详情页面的Link以及详情页面的对应信息
4、进行抓包分析(可以利用fiddle工具实施)
5、循环抓取,对程序错误进行试调,有错误的地方用try-except进行处理
2、处理缺失值,重复值;
3、为后续数据分析对数据进行所需处理;
数据缺失值图表(本次案例没有缺失值):
四、Jieba词频处理及词云展示
词云可视化:
安装模块 wordcloud直接pip install wordcloud经常会遇到错误。
所以选择https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud,根据python版本下载对应的库。
安装cd D:pip install wordcloud‑1.4.1‑cp36‑cp36m‑win_amd64.whl
4.2、高频词云结果展示:
分析结论:
从商品上面来看:连衣裙,汉服,发饰,头饰,流苏等配饰比较多。
从风格,元素来看:复古风,古典,淡雅,中国风。
从图表上可知:
单个关键词来看:汉服(中国,古典不算商品)销量最高。
配饰总计更高一点:比如发饰,流苏, 步摇(原谅小编第一次知道流苏,步摇是下面这东西?!涨知识了)
5.2、商品的价格与销售量的分布情况:
从图表上可知:
价格区间在0-50元的销量更受大家青睐,这些应该是饰品之类的小件,其次为50-250元这个价位,这部分大多数应该衣服,裙子,在350元以上的评价量就很少了。同样也能看出看出古风系列的关键词消费的客单价主要是应该在0-350元之间。
某种程度上实证了微观经济学中的概念:在同等效用下,价格和销量(评论量)是凹型曲线。
5.3、top3古风商品的价格区间与销售量分布情况:
从上图可知:
0-50元区间:书签销售占比更高,
50-250元区间:汉服销售占比更高,和上面0-50元更多的是配饰的结论相符合。
5.4 价格与销售量的关系探索
从图表上可知:
1. 商品数量随着价格总体呈现下降阶梯形势,价格越高,商品的销售就越少;也满足上面所说的在同等效用下,价格和销量是凹型曲线。
2. 低价位商品居多,价格在0-250元之间的销量最多,250-500元之间的次之,价格500元以上的商品销售就相对较少;
3. 价格500元以上的商品,在售商品数量差异不大。
5.5、商品总金额与单价分布情况:
从图表上可知:
1. 总体趋势:由线性回归拟合线,从总体可以看出,商品总金额与价格关系不大;
2. 多数商品的价格偏低,但是总金额很高,开句玩笑,薄利多销吗?
3. 价格在0-250元的商品总金额较高,价格250-500元的商品总金额最高,在0-500元区间价格越高收入也随之相对越高,有一种上升趋势。
由地图可知:
各商品销量的主要区域主要分布浙江、广东、山东,其次为江苏,上海。怪不得江浙沪包邮,难道是因为商家都在这些地方,距离比较近?
2、仅对普通的淘宝店铺进行了抓取,未对天猫商家的数据进行抓取,后续技术提高后可以尝试增加天猫这一块的样本,毕竟常识来看同款商品天猫的价位比普通的淘宝店铺偏高,并且对于商品有最低和最高价的商品仅选择了最低价,综合来说,总体的价格结论可能会稍微偏低。
3、将关键词作为商品的分类,可能会有类型重叠部分,后续可以通过搜索类别+关键词作为依据。