400-050-6600

机器学习在传统服装行业的尝试

来源:成都CPDA数据分析师 / 作者:兰将军 / 时间:2020-11-02

       我在传统服装行业深耕有10余年了,最近几年才开始慢慢接触机器学习及大数据分析等领域,也有幸接触了公司涉及这些方面的项目,并结实了一群共同学习CPDA的同仁们。在此给大家分享一下机器学习在传统服装行业门店端销售预测所带来的价值和面临的挑战。

       首先我们来描述一个业务场景,公司4-5个人管理400-500家门店的补货,门店经常出现欠品或者爆仓的情况。我们知道商品的欠品会直接带来销售损失;同样爆仓的情况会增加门店仓库压力,影响卖场环境体验,如何高效地完成门店商品补货就是急需解决的问题。


我们先来看传统情况下我们的商品补货逻辑:

       计算门店SKU过去15天的平均历史销量加上陈列量通过保证商品周转天来进行补货,此销售预测方法的特点是简单、易懂、完全自动化,能够快速响应近期销售变动,更加灵敏。此种方法会带来以下的影响:


1、促销活动前,无法提前考虑促销活动的影响,销售预测过低,有滞后性促销活动后,无法自动剔除促销活动的影响,销售预测过高,有滞后性。


2、无法考虑产品销售曲线,始终存在系统性偏差,销售曲线呈上升趋势时预测过低,销售曲线呈下降趋势时预测过高。



       这种原始的补货方法在多个业务场景面临很多挑战,比如主推商品、商品调价、团购活动、进入活动周、活动周结束等等特殊情况,现在业务面对这些只能进行手工调整安全周转天数,去修正系统最终补货量。


以商品降价为例,用户所需操作如下:

       商品降价开始前手动调高各门店-SKU的安全周转天数,增大补货量;商品降价结束前手动调低各门店-SKU安全周转天数,减少补货量;商品回到正常销售后手动将各门店-SKU安全周转天数调回常规水平。该方法虽然可以从后端修正最终补货量,但调整频繁、操作繁琐,效率低;天数的调整依靠经验、无数据支持,无法保证有效性,效力低。


那么我们来看通过机器学习怎么来进行门店销售的预测呢?

首先我们来考虑影响门店销售的一些因素:

1、商品的生命周期;2、商品的调价;3、主推商品;4、活动周与非活动周;5、天气及温度对销售的影响。影响门店销售的因素如此之多,那么我们如何来保证我们商品不缺货不爆仓呢?我们先从最重要的销售预测开始。以下是销售预测训练的模型结构:


系统总体(如图)分为三个部分:

模型训练模块:模型通过读取SQL Server数据,将门店销售数据进行预处理,导入到模型中进行训练,得出销售预测模型,以便后续使用。

模型离线预测模块:系统会每天从SQL Server读取新增的销售数据,输入到销售预测模型中,预测出之后两周的销售数据,并将结果存储到数据库中,以便之后使用。

API 服务模块: 当API模块收到用户请求时,通过读取数据库相应信息,返回模型预测结果给用户端。用户端即可使用该接口进行销量预测。




       我们使用了XgBoot基础模型,通过AutoML技术进行自动超参数调优,找出最优化的模型结构和参数,来对未来两周的销售数量进行预测。为什么选择两周销量我们主要是考虑了门店与仓库的距离,还有仓储的运量进行评估。


算法的实现我们主要考虑了以下的一些内容:

构造训练数据:使⽤过去70天的交易数据构造训练数据,使得⽆销量样本和有销量样本比例近似为1:1。

构造特征:主要考虑了门店特征:例如门店面积、门店口岸、所在城市等;商品特征:例如商品品类、面料、颜色、吊牌价等。

天气特征:是否有雨、温度等。

促销折扣特征:例如促销类型、折扣力度。

模型训练:模型xgboost.XGBRegressor() ,模型主要参数暂略。

测试结果:使用了所有门店销量进行预测,通过和真实销量数据的比对,所有活跃门店每周销量大于2的SKU准确率在63%~95%之间,总体平均准确率为77%。


以下为门店未来两周预测的准确率(部分):


通过上线测试后,我们发现机器学习相较于人工原始的预测有了较大提升:





       我们在完成了较高的准确率预测,我们如何将预测值SKU的销售数量应用至我们的实际补货环境中呢,我们根据我们的实际业务,做了以下流程:




1、销售预测通过机器学习计算出门店-商品条码层级未来14天的销售数量,偏差值为30%-40%。

2、计算门店补货量,补货量=(陈列量+预测销量)-当前库存(含在途)。

3、根据仓库-门店的提前期进行提前补货。


       通过运行上线后的观察,我们发现机器学习和原来人工补货有了较大提高:机器学习补货相较与原有补货准确率提升40%左右;机器学习补货方案相较与原有补货方案周转天数降至14天。


       经过一段时间的尝试,对门店的销售预测达到了一些预期,并应用到了我们生产业务当中去,但是还有很多机会点等待实现,例如商品仓库补货与门店调拨的最优方案,销售人员能力与客流对销售的影响;还有一些困难点,例如服装的流行趋势,新品上市的表现也是当前模型的盲区;数据的不规范性,给我们数据清洗和聚类分析带来挑战。


       在这里我们可以预见服装行业基础资料的规范性和庞大的线上线下数据是可以给业务带来价值的,我们同样期待机器学习在供应链返单中带来更多有价值的机会点。也同样希望身在服装行业的数据分析师们能多交流,为提升传统服装零售行业的发展做出贡献。





Prev article

数字经济时代科技创新浅谈

Next article

SPSS单样本非参数检验——卡方检验

课程服务

认证服务

在线咨询