数据预测分析商业实战之逻辑回归模型
作者:暂无发布时间:暂无

1.通用建模流程包括【问题确立】,【数据收集及处理】,【分析及信号发现】,【模型开发】,【模型评估】,【执行】具体如图所示。



2.【样本筛选】主要内容为【时间窗口选择】、【特定人群选择】。选择一部分人群进行建模,例如客户的目标群体。对样本进行时间窗口的限定,选取时间窗口既不能离时间太近也不能太远。



3.【数据清洗】主要内容为【缺失数据处理】、【上限/下限】、【检查数据分布】。检查数据分布是否和预期一致,若不一致采用合理方法进行调整。若值过大或过小时,应通过限制【上限/下限】进行解决。这样是为了使数据分布不至于分散。



4.【筛选变量】主要内容为【相关性分析】、【变量聚类】。在【筛选变量】过程中使用相关性分析判断每个变量是否和建模因变量有相关性。通过【变量聚类】的方法归结于一起,从而减少变量数量。



5.【建立模型】主要内容为【Step-Wise】、【模型结果解释】。在建模阶段会使用【Step-Wise】方法,逐步加入变量到模型中,从而寻找最理想的模型。



6.【模型评估】主要内容为【VIF】、【C值】、【R的平方】、【Lift图】、【INS/OOS/OOT】。【VIF】是衡量模型中自变量贡献性的一个指标,【VIF】越大表示变量之间的贡献性越强。【C值】和【R的平方】是用于评价模型本身表现的参数。【C值】是用于逻辑回归模型,【R的平方】是用于线性回归模型。



7.【Lift图】从1-10划分为10个等级,【Lift图】将得分和实际的应变量的值合并到一张图。【INS/OOS/OOT】是指样本外验证和跨时段验证。



8.对于该问题首先要考虑到对高价值客户进行挖掘,根据【客户响应】和【客户消费金额大小】进行选取高价值用户。根据客户是否响应我们可以采用【逻辑回归】,这样可以对每位客户预测在其30之内购买的概率。



9.而要判断客户在响应之后消费金额大小时,我们可以采用【线性回归】,通过预测响应的人消费的金额。



10.回顾在预测性模型简介接触的知识点,首先了解什么是预测性模型,以及两种常见的预测性模型大致的样子。然后了解通用建模流程中的细节,最后通过案例了解预测性模型是怎样结合到实际商业的应用里。



11.逻辑回归的数据原理【应用场景】、【公式】、【模型估计】及【模型阐释/评估】。



12.蓝色部分【RR】代表了每一组的响应率,曲线所在图为【Lift图】,首先该曲线呈单调递减,在【Rank1】上有最高响应率。其次观察响应率是否是以相对平滑的速度向下递减,主要根据前两项值进行判断。



13.【蓝色】表示建模数据集,【绿线】是建模数据集里的子集,【红线】表示验证数据集。在理想状态下,我们希望用整体的建模数据集的子集,以及验证数据集,绘制出的曲线尽可能重合,这样可以表明模型是相对稳定的。



14.【虚线】表示是当我们的模型和随机抽取没有别的区别和几乎没有什么用的情况下,应该在十个组别上获得大致相同的结果。




特别声明:以上文章内容仅代表作者本人观点,不代表虎课网观点或立场。如有关于作品内容、版权或其它问题请与虎课网联系。
500+精品图书
20G学习素材
10000+实用笔刷
持续更新设计模板
立即领取

下载虎课APP

随时随地学技能
APP更方便
每天免费学课程
下载虎课网APP
随时随地学海量会员教程
特惠
充值
7折购
今日还在继续学习的你,太棒了!
7
折扣券可用于
年费无限VIP
立 即
使 用
此活动优惠不可与其他活动叠加使用
有效期:000000
消息
登录即可查看消息记录
建议
意见
官方
客服
在线咨询客服热线

您可以与在线客服进行沟通获得帮助

工作日:9:00~22:00节假日:9:00~18:00

联系在线客服

您可以电话联系客服进行沟通获得帮助

工作日:9:30~18:30

400-862-9191
虎课
积分
免费学习89000+个教程!
配套素材、源文件一键下载!
昨日学员已学习了27,078
并提交了210份作业!
登录后立即学习!
loading
微信扫码关注即可登录
您需要同意协议才可以进行登录
登录虎课网,每天免费学课程全站 89000+ 视频会员教程 | 每日可免费学 1
为确保账户信息安全
请先进行真实姓名验证后进行充值付款
立即验证