如何处理和分析问卷数据?来看京东设计师的实战经验!优设网

其实进行基础的描述性统计与交叉分析时,Excel和Spss这两款工具都有相对应的功能可以实现,大家可以根据平时的使用习惯自行选择。

在实际工作中,这两个工具常结合起来使用。Spss的优势在于,两个视图查看数据比较方便、可以撰写语法来实现数据批量处理;Excel的优势在于,图表的可视化更丰富、更改图表外观非常便捷。因此,通常先使用Spss来进行数据清洗和分析,再导出到Excel中对图表的格式进行编辑。

线上问卷投放成本低、回收时效高,但由于难以监控用户填答的过程,致使问卷中常隐藏着一些不真实的数据,因此,回收问卷后的第一步,就是给数据做清洗以保证数据尽可能的真实有效。数据清洗包含三个方面,其一,规范数据视图(主要针对Spss);其二,清理无效样本。其三,对特殊题型进行处理。

数据视图规范化是一个经常被忽视的环节,虽然它不对数据结果产生直接的影响,但是前期对数据视图做好规范化处理有利于减少后续数据分析、语法撰写出现失误的概率,也就是说,它是一个微小、但却可以提升工作效率的步骤。那么,如何对Spss的数据视图进行规范化呢?

△变量视图规范化可参考此示意图

清理无效样本遵循两个原则,从整体到部分、从一维到二维。

首先,对问卷样本整体进行处理。

首先需要剔除未完整填答必答题的样本,即未完整填答问卷的样本。其次,为尊重用户隐私,我们会将一些敏感问题设置为非必答题,这时可以根据项目需求来决定是否需要剔除非必答题未完整填答的样本

其次,对问卷各部分进行处理。

通常情况下,问卷设计会分为三部分。

甄别部分:此部分会设置一些题目来甄别参与问卷调查的用户是否为我们的目标样本

主体部分:此部分会根据项目的研究内容测量用户行为、用户态度

属性部分:此部分会获取用户的人口属性(人口属性(性别、年龄、婚姻、城市)、社会属性(学历、职位、个人月收入、家庭月收入)以便做用户画像

剔除不符合甄别条件的样本。根据项目需求,问卷中可能会设置一些甄别调研目标用户的题目,如拟对使用过某产品的用户进行问卷调查,那么在问卷设计时则会用一道甄别题来询问“您是否使用过该产品”,若该用户选择“否”,则需要剔除这类不符合甄别条件的样本

剔除连续性回答样本。连续性回答有两种情况,其一,选择同一选项过多:如该问卷有30道题,但某样本选择A选项有25道题,则将该样本视为连续性回答样本,需剔除;其二,填答呈现某种规律性:如某样本在填答中呈现“A-B-A-B”或”A-B-C-D”等某种规律,则被视为规律性填答的样本,需剔除

剔除不符合固定填答逻辑的样本。在问卷设计中,有一类题组前后两道题(几道题)有关联的逻辑,如选择前一道题A的人不能选择后一道题的B,此时则需要剔除互斥题矛盾的样本

剔除未通过陷阱题的样本。为了确认用户是有在认真填答问卷,有时会在问卷主体部分穿插一道“常识题“,如”中国的首都是哪里“,若用户选择非北京的城市,则会把该样本剔除

各个属性题组的内部数据清理,剔除人口属性、社会属性、站内属性三个属性题组内部数据存在矛盾的样本。如人口属性内部(性别、年龄、婚姻、城市),年龄与婚姻可能存在矛盾,20岁以下的女子、22岁以下的男子婚姻状态不能为已婚;社会属性内部(学历、职业、个人月收入、家庭月收入),个人月收入不能大于家庭月收入

各个属性题组间的数据清理,将人口属性、社会属性、站内属性进行两两比较,剔除题组间数据存在矛盾的样本。如人口属性的年龄与学历之间可能存在矛盾,小于18岁的群体一般情况下不会拥有本硕博学历

问卷中时有一些文本题,如选择题中的“其他,请注明”选项或填空题。

在处理文本题时,有两种情况,其一,回码,即当文本题的填答内容可量化或与原始选项可合并时,需将文本题的填答内容转置成可计算的数值,并删除文本题的填答内容。如某选择题为“请问您使用过下列哪些网购平台”,即便选项中有“京东”,但用户没有注意到该选项,而是在“其他,请注明”选项中填写了“京东”,此时就需要对该样本的填答情况进行回码,将之纳入到京东选项下,并删除文本填答内容。

其二,重新编码,若文本题的填答内容不可回码,需要进行重新编码,并记录到编码簿中。仍然以“请问您使用过下列哪些网购平台”这道题为例,若用户在“其他,请注明”中填写了未在既有选项中出现的答案,则需要对该答案进行重新编码,并做记录。

问卷数据分析时,最常使用的分析方法为频数分析、描述分析、交叉分析。

频数分析

拿到问卷数据后,首先可以将每道题各选项的频数按降序排列,从而对数据分布趋势有一个整体了解

数据解读:了解用户总体的行为、态度偏好

数据解读:了解不同维度上的用户行为、态度偏好

△频数分析可参考此示意图

描述性分析

常用于计算数值型的单变量统计量,主要包括以下三种类型的统计量。

常用的统计量有均值、中位数、众数、百分位数

常用的统计量有样本方差、样本标准差、均值标准差、极差、离散系数

常用的统计量有偏度和峰度

数据解读:了解用户行为、态度(数值型变量)的基本特征和整体分布形态,同时可为后续做更复杂的分析与建模做铺垫

交叉分析

适用于对两个及两个以上变量之间的关系进行分析,从而得出更为立体的调研结论。

数据解读:了解用户属性、行为、态度间的关系

△交叉分析解读可参考此示意图

数据格式规范化有助于快速的查找数据,也能让合作项目的小伙伴清晰的了解到问卷数据的产出,提升工作效率。使用何种格式来规范数据没有固定的模板,这里可以提供一些参考。

标记样本量

这一步骤是必须且重要的,问卷中的每道问题总填答人数、每个选项的填答人数都需要逐一进行标注

形成列联表

一般情况下,将问卷题目与选项置入到行变量中,将样本属性(如细分人群)的变量置入到列变量中,以方便查看

根据题组拆分sheet

将反映不同研究内容的题组数据置于Excel不同的sheet中,以便后续能够快速查找

△数据格式规范化可参考此示意图

以上就是回收问卷后,从清洗到分析的一些经验,有需要的小伙伴们赶紧用起来吧!

THE END
1.盘点4种常用的数据清洗方法随着大数据时代的发展,越来越多的人开始投身于大数据分析行业。当我们进行大数据分析时,我们经常听到熟悉的行业词,如数据分析、数据挖掘、数据可视化等。然而,虽然一个行业词的知名度不如前几个词,但它的重要性相当于前几个词,即数据清洗。顾名思义,数据清洗是清洗脏数据,是指在数据文件中发现和纠正可识别http://baijiahao.baidu.com/s?id=1714040949358395597&wfr=spider&for=pc
2.数据清洗的具体方法有哪些?数据清洗流程清洗数据是数据分析和机器学习项目中至关重要的一步,其目标在于识别并纠正数据集中的错误、遗漏或不一致,以提高数据质量和后续分析结果的准确性。以下是一个详细的数据清洗流程,通常包括以下几个步骤: 1.数据收集与理解 收集数据:从各种来源(如数据库、API、文件等)获取数据。 https://blog.csdn.net/Shaidou_Data/article/details/143205411
3.值得收藏!数据清洗的十类常用方法数据清洗是数据治理过程中的一个重要环节,它指的是对原始数据进行筛选、修复、转换和处理,以确保数据的准确性、完整性和一致性。 在数据清洗过程中,不仅需要明确数据清洗的对象,还需要根据具体的情况选择合适的数据清理方法。以下是不同对象所对应不同的数据清洗方法。 https://www.fanruan.com/bw/article/178453
4.hive如何做数据清洗mob64ca12d6c78e的技术博客hive 如何做数据清洗 数据清洗在数据挖掘和分析中起着至关重要的作用,它可以帮助我们识别并处理数据集中的错误、缺失、重复和不一致的数据,从而提高数据质量和分析结果的准确性。在本文中,我们将讨论如何利用Hive进行数据清洗,并通过一个实际问题和示例来演示该过程。https://blog.51cto.com/u_16213326/11228478
5.spss数据预处理包括哪些内容spss数据预处理怎么做SPSS软件作为一款广泛应用的统计分析软件,提供了一系列强大的数据预处理功能。本文将详细介绍SPSS数据预处理包括哪些内容,以及SPSS数据预处理怎么做的内容,帮助您更好地利用软件功能,提高数据分析的准确性和效率。 一、 SPSS数据预处理包括哪些内容 在SPSS中,数据预处理主要包括以下几个方面的内容: 1、数据清洗:数据https://spss.mairuan.com/jiqiao/spss-djxklq.html
6.数据分析的流程是怎样的这项工作经常会占到整个数据分析过程将近一半的时间。如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要https://www.linkflowtech.com/news/626
7.阿里面试官惊叹:这种简历不用面了,直接来上班!数据库层面有没有 数据扩展? 2.QPS8W 总单量是多少 ? 3.本地缓存 怎么保证数据一致性? 4.MQ 如果挂了 怎么办? 5.Redis 集群 性能 了解吗? 6.数据清洗怎么做的? 7如何保证最终一致性? 8.顺序消息如何保证? 9.ES 怎么用的?数据量级多少?为什么用ES 不用Hbase? https://maimai.cn/article/detail?fid=1724482192&efid=gDtXEDVbtMnEeClsOjitVw
8.未经加工的数据如何处理和清洗数据清洗的第一步是将原始数据导入到一个能轻松操控和分析的环境中。Python的Pandas库是一个强大的数据处理工具,能够读取多种数据格式(如CSV和Excel)。在数据载入后,进行初步检查是一个好习惯。这包括去除多余的空格、转换文本大小写等。例如,以下代码展示了如何使用Pandas读取CSV文件: https://www.jianshu.com/p/1f71782b0323
9.如何对数据进行清洗数据清洗是数据预处理的重要环节,目的是纠正、删除或替换不准确、不完整、不合理或重复的数据,以提高数据质量和后续数据分析的准确性。 以下是对数据进行清洗的一般步骤和方法: 数据探索与评估: 在开始清洗之前,先对数据进行初步的探索,了解数据的整体情况,包括数据的类型、范围、缺失值、异常值等。 https://www.ai-indeed.com/encyclopedia/9102.html
10.机器学习中的数据清洗与特征处理综述在线清洗数据 在线清洗优点是实时性强,完全记录的线上实际数据,缺点是新特征加入需要一段时间做数据积累。 样本采样与样本过滤 特征数据只有在和标注数据合并之后,才能用来做为模型的训练。下面介绍下如何清洗标注数据。主要是数据采样和样本过滤。 数据采样,例如对于分类问题:选取正例,负例。对于回归问题,需要采集数据http://api.cda.cn/view/8897.html
11.数据清洗范文数据清洗的目的就是利用现有的技术和手段,消除或减少数据中的错误与不一致问题,将其转化成为满足数据质量要求的数据。 本文分析了从Web上抽取到的数据存在的质量问题,给出包括不完整数据和异常数据在内的属性错误以及重复与相似重复记录的描述,并提出对应的清洗方法;设计了一个由数据预处理、数据清洗引擎和质量评估三部https://www.gwyoo.com/haowen/64743.html
12.数据处理全流程解析(如何进行数据处理)当完成这几步操作后,此时数据就已经脱离APP了,开始往数仓的方向流动,数仓承担着接收数据并最终将数据落地到应用的职责。 02 数据是如何被接收的 数据在到达接入层后会经历解包、解析转换、数据清洗、数据存储四个技术流程。只有经过了这一系列的步骤,数据才能够以规整的形式呈现出来,以供下一个环节的消费。 https://www.niaogebiji.com/article-114218-1.html
13.QuickBI如何进行数据加工连接需要清洗加工的节点。 在清洗加工节点配置区域,进行以下配置。 新增计算字段 您可以按照图示步骤进入新增计算字段配置界面。 在新增字段-公式函数编辑页,输入①新建字段名称和②字段表达式,选择③字段类型,单击④确定后保存配置。 更多的计算字段示例请参见数据集的新建计算字段。 https://help.aliyun.com/zh/quick-bi/user-guide/data-processing
14.数据分析的八个流程这项工作经常会占到整个数据分析过程将近一半的时间。如果在上一步中,你的数据是通过手工复制/下载获取的,那么通常会比较干净,不需要做太多清洗工作。但如果数据是通过爬虫等方式得来,那么你需要进行清洗,提取核心内容,去掉网页代码、标点符号等无用内容。无论你采用哪一种方式获取数据,请记住,数据清洗永远是你必须要https://36kr.com/p/1491281074089859