SPSS使用分箱法来处理和清理数据

分类:知识百科 日期: 点击:0

  “分箱法”我相信学过统计学的朋友们并不陌生。它的主要功能是消除噪声数据,离散连续数据。在模型分析开始之前,我们经常需要使用分箱法来处理和清理数据。让我们带你去学习吧!

  操作方法:

  图1是我们准备分箱的数据。我们将按照每10岁的标准对年龄列进行分箱。

图1:分箱数据

  点击“转换”中的“可视分箱”,设置界面进入分箱。

图2:可视分箱

  将“年龄”拉入到“分箱的变量”点击中间“继续”。

图3:拉入要分箱的变量

  在图4所示的界面中,我们可以看到共有34个案例需要扫描,其中最大变量值为67,最小变量值为22,即需要分箱的数据年龄组在22至67岁之间。

  我们在“分箱化变量”中,填入“年龄段”,作为新生成的变量,单击“生成分割点”按钮。

图4:分箱化变量

  根据我们的分箱目的,我们应该每10岁分组一次,最小的年龄是22岁,所以我们需要填写第一个分割点“20”,填写宽度“10”,此时点击键盘Tap键,SPSS会自动生成分割点的值“5”,如图5所示。

  这样,SPSS将自动帮助我们20到30、30到40、40到50、50到60、60-70年龄组分组,共5组。

图5:生成分割点

  点击“应用”按下按钮后,返回“可视分箱”在界面中,我们可以在图6红框中看到后续的分箱值。默认情况下,标签栏为空值。如果设置20个分箱标签为2,我们可以自定义填写。

图6:设置自定义标签

  点击“确定”按钮开始分箱数据。分箱后的新数据结果如图7所示,生成新数据“年龄段”列,数据也非常正确地进行了分箱,如年龄为27的行数据,正确地设置在标签为2的分箱中。

图7:分箱结果

  以上是IBM的使用 SPSS Statistic按照每10岁的标准对演示数据中的年龄指标进行分箱教程。以上演示是等距分箱,小伙伴也可以自己在IBM SPSS 在Statistic中尝试不等距分箱哦。

标签:

版权声明

1. 本站所有素材,仅限学习交流,仅展示部分内容,如需查看完整内容,请下载原文件。
2. 会员在本站下载的所有素材,只拥有使用权,著作权归原作者所有。
3. 所有素材,未经合法授权,请勿用于商业用途,会员不得以任何形式发布、传播、复制、转售该素材,否则一律封号处理。
4. 如果素材损害你的权益请联系客服QQ:77594475 处理。