如何处理和分析问卷数据？来看京东设计师的实战经验！优设网|数据清洗如何做_家电

其实进行基础的描述性统计与交叉分析时，Excel和Spss这两款工具都有相对应的功能可以实现，大家可以根据平时的使用习惯自行选择。

在实际工作中，这两个工具常结合起来使用。Spss的优势在于，两个视图查看数据比较方便、可以撰写语法来实现数据批量处理；Excel的优势在于，图表的可视化更丰富、更改图表外观非常便捷。因此，通常先使用Spss来进行数据清洗和分析，再导出到Excel中对图表的格式进行编辑。

线上问卷投放成本低、回收时效高，但由于难以监控用户填答的过程，致使问卷中常隐藏着一些不真实的数据，因此，回收问卷后的第一步，就是给数据做清洗以保证数据尽可能的真实有效。数据清洗包含三个方面，其一，规范数据视图（主要针对Spss）；其二，清理无效样本。其三，对特殊题型进行处理。

数据视图规范化是一个经常被忽视的环节，虽然它不对数据结果产生直接的影响，但是前期对数据视图做好规范化处理有利于减少后续数据分析、语法撰写出现失误的概率，也就是说，它是一个微小、但却可以提升工作效率的步骤。那么，如何对Spss的数据视图进行规范化呢？

△变量视图规范化可参考此示意图

清理无效样本遵循两个原则，从整体到部分、从一维到二维。

首先，对问卷样本整体进行处理。

首先需要剔除未完整填答必答题的样本，即未完整填答问卷的样本。其次，为尊重用户隐私，我们会将一些敏感问题设置为非必答题，这时可以根据项目需求来决定是否需要剔除非必答题未完整填答的样本

其次，对问卷各部分进行处理。

通常情况下，问卷设计会分为三部分。

甄别部分：此部分会设置一些题目来甄别参与问卷调查的用户是否为我们的目标样本

主体部分：此部分会根据项目的研究内容测量用户行为、用户态度

属性部分：此部分会获取用户的人口属性（人口属性（性别、年龄、婚姻、城市）、社会属性（学历、职位、个人月收入、家庭月收入）以便做用户画像

剔除不符合甄别条件的样本。根据项目需求，问卷中可能会设置一些甄别调研目标用户的题目，如拟对使用过某产品的用户进行问卷调查，那么在问卷设计时则会用一道甄别题来询问“您是否使用过该产品”，若该用户选择“否”，则需要剔除这类不符合甄别条件的样本

剔除连续性回答样本。连续性回答有两种情况，其一，选择同一选项过多：如该问卷有30道题，但某样本选择A选项有25道题，则将该样本视为连续性回答样本，需剔除；其二，填答呈现某种规律性：如某样本在填答中呈现“A-B-A-B”或”A-B-C-D”等某种规律，则被视为规律性填答的样本，需剔除

剔除不符合固定填答逻辑的样本。在问卷设计中，有一类题组前后两道题（几道题）有关联的逻辑，如选择前一道题A的人不能选择后一道题的B，此时则需要剔除互斥题矛盾的样本

剔除未通过陷阱题的样本。为了确认用户是有在认真填答问卷，有时会在问卷主体部分穿插一道“常识题“，如”中国的首都是哪里“，若用户选择非北京的城市，则会把该样本剔除

各个属性题组的内部数据清理，剔除人口属性、社会属性、站内属性三个属性题组内部数据存在矛盾的样本。如人口属性内部（性别、年龄、婚姻、城市），年龄与婚姻可能存在矛盾，20岁以下的女子、22岁以下的男子婚姻状态不能为已婚；社会属性内部（学历、职业、个人月收入、家庭月收入），个人月收入不能大于家庭月收入

各个属性题组间的数据清理，将人口属性、社会属性、站内属性进行两两比较，剔除题组间数据存在矛盾的样本。如人口属性的年龄与学历之间可能存在矛盾，小于18岁的群体一般情况下不会拥有本硕博学历

问卷中时有一些文本题，如选择题中的“其他，请注明”选项或填空题。

在处理文本题时，有两种情况，其一，回码，即当文本题的填答内容可量化或与原始选项可合并时，需将文本题的填答内容转置成可计算的数值，并删除文本题的填答内容。如某选择题为“请问您使用过下列哪些网购平台”，即便选项中有“京东”，但用户没有注意到该选项，而是在“其他，请注明”选项中填写了“京东”，此时就需要对该样本的填答情况进行回码，将之纳入到京东选项下，并删除文本填答内容。

其二，重新编码，若文本题的填答内容不可回码，需要进行重新编码，并记录到编码簿中。仍然以“请问您使用过下列哪些网购平台”这道题为例，若用户在“其他，请注明”中填写了未在既有选项中出现的答案，则需要对该答案进行重新编码，并做记录。

问卷数据分析时，最常使用的分析方法为频数分析、描述分析、交叉分析。

频数分析

拿到问卷数据后，首先可以将每道题各选项的频数按降序排列，从而对数据分布趋势有一个整体了解

数据解读：了解用户总体的行为、态度偏好

数据解读：了解不同维度上的用户行为、态度偏好

△频数分析可参考此示意图

描述性分析

常用于计算数值型的单变量统计量，主要包括以下三种类型的统计量。

常用的统计量有均值、中位数、众数、百分位数

常用的统计量有样本方差、样本标准差、均值标准差、极差、离散系数

常用的统计量有偏度和峰度

数据解读：了解用户行为、态度（数值型变量）的基本特征和整体分布形态，同时可为后续做更复杂的分析与建模做铺垫

交叉分析

适用于对两个及两个以上变量之间的关系进行分析，从而得出更为立体的调研结论。

数据解读：了解用户属性、行为、态度间的关系

△交叉分析解读可参考此示意图

数据格式规范化有助于快速的查找数据，也能让合作项目的小伙伴清晰的了解到问卷数据的产出，提升工作效率。使用何种格式来规范数据没有固定的模板，这里可以提供一些参考。

标记样本量

这一步骤是必须且重要的，问卷中的每道问题总填答人数、每个选项的填答人数都需要逐一进行标注

形成列联表

一般情况下，将问卷题目与选项置入到行变量中，将样本属性（如细分人群）的变量置入到列变量中，以方便查看

根据题组拆分sheet

将反映不同研究内容的题组数据置于Excel不同的sheet中，以便后续能够快速查找

△数据格式规范化可参考此示意图

以上就是回收问卷后，从清洗到分析的一些经验，有需要的小伙伴们赶紧用起来吧！

THE END

如何处理和分析问卷数据？来看京东设计师的实战经验！优设网

数据清理的技巧方式都有哪些？

揭秘顺丰智慧物流背后的数据管理逻辑财务元数据数据仓库顺丰速运数据中心infoq中国交通运输公司

《数据采集与预处理》课程思政案例

数据清洗经验分享：什么是数据清洗如何做好数据清洗（转）N神3

用R语言做简单的数据清洗

如何处理和分析问卷数据？来看京东设计师的实战经验！优设网

机器学习之数据清洗

机器学习之数据清洗

数据治理：数据清洗的5个步骤和最佳实践——数据空间

..::侯晓焱邢永杰：我国证人证言排除的刑事司法实务观察