9、重和年龄选为自变量确定,可以看出输出的结果中(图4下方的表格)常量是0.062,而体重组因为跳过缺失值,所以对胆固醇的影响系数变大为1.137,相应地年龄的影响系数则减小为0.081。这就说明,直接跳过缺失值会对分析结果产生较大影响。缺失值的“转换”处理。由上述分析可知,当数据有缺失值时应当进行相应的处理,SPSS在“转换”模块中有一个专门的“替换缺失值”模块,点击进入后可以看到SPSS提供了五种填充值,包括序列均值、临近值的均值、临近值的中位数、线性插值和线性趋势。根据专家的经验和建议,在进行销售预测时一般应选择“线性趋势”,这是因为当数据在上升或下降的过程中有缺失值时,“线性趋势”会模拟销
10、售数据上涨或下降的波动态势,能够最大限度地接近实际情况。点击线性趋势后,系统就会自动生成一个变量,将这个变量填入缺失值的位置就可以完成数据的填充。EM模型填充。“分析”模块是SPSS的精华和核心部分,大部分基本分析模型都在这一模块,其中“缺失值分析”被当作一个独立模块放在其中,这说明对缺失值的分析处理是一项非常重要的工作。点击进入这一模块后,首先将胆固醇选到变量中,然后在“估计”中选EM模块,选择“保存完成的数据”,点击“继续”,然后点击“确定”,这时SPSS就会生成一列新数据,这就是采用EM模块填充缺失值后的数据。回归模型填充。在运用回归模型填充缺失值时,有两种方式可供选择:一种是比较简单的
14、“1”,如果有重复就是“0”,然后勾选将重复的个案移动到文件的最上端,点击“确定”,输出结果。这时可以看到,整个文件有27行数据,其中重复的个案是5个,重复的比例是18.5%。然后选择数据升序排列,将显示“0”的全部放到前面,将这5行选中,点击鼠标右键选择“剪切”将重复项删除即可。3.根据逻辑关系剔除根据逻辑关系可以剔除一些个案,例如年龄小于或等于23,而学历则选择为硕士或者博士,这些个案肯定是有问题的。再比如,受访者在前面选择没有使用某商品,后面却填写商品的使用体验,这显然不符合逻辑。在具体的操作中,工作人员可以根据自身的业务将其中不合逻辑的选项删除。根据逻辑关系剔除个案示例:首先打开文件,
15、可以看到学历分为6档,分别是1初中、2高中、3大学(包括专科)、4大学专科以上、5硕士以上、6博士级以上,然后通过“排列个案”将年龄和学历的数据全部升序排列,点击“确定”,这时就可以通过年龄和学历的对比寻找其中的问题,比如其中某个个案的年龄是20,学历却是5硕士以上或6博士级以上,就说明该个案有问题而应当剔除。如果问卷数据的数量太大,比如有600个数据,这时用肉眼就很难辨别其中的问题个案,这时就可以用SPSS进行有条件的数据甄选。首先可以通过点击“如果条件满足”选择个案,点击进入后可以用SPSS的计算器输入含义为“非(年龄20与学历5硕士以上)”的公式,然后点击“继续”并将选出的数据输入新的数
17、进行录入,这时就会形成多个文件,需要最后合并为一个大的文件,为此SPSS提供了合并文件功能。具体操作:进入SPSS的“数据”模块,在原有文件的基础上选择添加个案,将新文件添加进来,统一变量的值,然后选择“确定”,就可以将文件合并成功。2.重新编码重新编码是一项非常重要的功能,其中涉与一个“连续性变量的离散化”理论。例如:在统计啤酒的饮用量时,不同受访者的饮用量不等,但是数据统计并不关心单个受访者的具体饮用量,而是会设定不同的量级,比如1000毫升以下为1、10002000为2、20003000为3等依此类推,然后将不同受访者归入相应的量级,也就是要将连续性的变量转化为跳跃值,以便进行数据分析。具体操作:选择