商业实战之建模操作演示1
作者:暂无发布时间:暂无

1.该图片的路径为云端路径,并非本地路径。使用的数据集为Excel表中的数据,使用Proc Contents data=dt.response_model语句来查看数据集是什么样的,有多少个变量,变量类型,为接下来数据处理提供方向。



2.选择1-8行代码,单击【运行】,如图所示。



3.首先了解数据集里面响应的基本情况,使用Proc freq data=dt.response_model语句来检查 response情况分布大致是怎样的。



4.选择10-12行代码,单击【运行】,如图所示。



5.将数据集分为三个子集,一个用于建模,两个用于验证。选择17-19行,单击【运行】,如图所示。



6.三块数据标记,一块是建模数据集【Build】、【Inval】和【Outval】。一般情况下在做验证数据集和建模数据集的时候会希望建模数据集以外的数据集记录数的比例大约在73开的左右。



7.若将上面两组看做建模数据集,下面看做验证数据集时,验证数据集为30%,上面则占70%。



8.根据标签将其分为三组,根据21-28之间的代码,将其分为【build_sample】、【in_sample】和【out_sample】。



9.选择21-32行代码,单击【运行】,如图所示。其中【0】代表未响应,【1】代表响应,【百分比】代表的是响应率的百分比。



10.在以上步骤里大致了解获得的原始数据是怎样的,以及变量和响应率是怎样的。将所有的原始数据分为【建模数据集】和【验证数据集】。



11.观察每个变量的分布情况,首先选择37-45行代码,单击【运行】,如图所示。可查看原始数据整体的相应情况。



12.【total_cnt 】是 【build_sample】中的总的记录条数,【total_responder】是总的响应者的数量,【avg_rr】是响应率,响应率的计算方法为【响应者的数量/总数量】。



13.49-60的代码为生成变量分布,查看这个变量的取值,以及在各个取值上面的记录数和响应数量,选择该代码,单击【运行】,如图所示。



14.对于有男性健在一共有三个取值,一种是【.】代表缺失值,【0】代表没有,【1】代表有。其中【count】代表总的条数,【responders】代表响应者的数量。



15.图中【Overall count】代表建模数据集的条数,【Overall RESPONDER】代表响应数量,【Overall RESPONDER RATE】代表总体响应率。



16.将低于平均水平用【黄色】标记,将高于平均水平用【蓝色】标记,如图所示。



17.用同样的方法,对其它变量进行类似操作,效果如图所示。




特别声明:以上文章内容仅代表作者本人观点,不代表虎课网观点或立场。如有关于作品内容、版权或其它问题请与虎课网联系。
500+精品图书
20G学习素材
10000+实用笔刷
持续更新设计模板
立即领取

下载虎课APP

随时随地学技能
APP更方便
每天免费学课程
下载虎课网APP
随时随地学海量会员教程
特惠
充值
7折购
今日还在继续学习的你,太棒了!
7
折扣券可用于
年费无限VIP
立 即
使 用
此活动优惠不可与其他活动叠加使用
有效期:000000
消息
登录即可查看消息记录
建议
意见
官方
客服
在线咨询客服热线

您可以与在线客服进行沟通获得帮助

工作日:9:00~22:00节假日:9:00~18:00

联系在线客服

您可以电话联系客服进行沟通获得帮助

工作日:9:30~18:30

400-862-9191
虎课
积分
免费学习89000+个教程!
配套素材、源文件一键下载!
昨日学员已学习了37,480
并提交了326份作业!
登录后立即学习!
loading
微信扫码关注即可登录
您需要同意协议才可以进行登录
登录虎课网,每天免费学课程全站 89000+ 视频会员教程 | 每日可免费学 1
为确保账户信息安全
请先进行真实姓名验证后进行充值付款
立即验证