下列统计量中,适用于测度分类数据集中趋势的是()。
A.均值
B.标准差
C.众数
D.中位数
【答案】C
【解析】众数适用分类数据、顺序数据;中位数适用于顺序数据和数值型数据。均值、标准差只适用于数值型数据。
12、离散程度的测度指标
离散程度的测度指标如下:
1.方差
(1)含义:数据组中各数值与其均值离差平方的平均数。
(2)主要内容:方差越小,说明数据值与均值的平均距离越小,均值的代表性越好。方差的单位是原数据的平方。如身高的方差是100平方厘米。
2.标准差
(1)含义:方差的平方根。
(2)主要内容
1)不仅能度量数值与均值的平均距离,还与原始数值具有相同的计量单位。
2)标准差越小,说明数据值与均值的平均距离越小,均值的代表性越好。
3)标准差的大小不仅与数据的计量单位有关,也与观测值的均值大小有关。
4)不能直接用标准差比较不同变量的离散程度。
3.离散系数
(1)含义:标准差与均值的比值。
1)离散系数主要用于不同类别数据离散程度的比较。
2)离散系数消除了测度单位和观测值水平不同的影响,因而可以直接用来比较变量的离散程度。
【多选题】
数值型数据离散程度的测度指标有()。
A.中位数
B.变异系数
C.均值
D.标准差
E.方差
【答案】BDE
【解析】离散程度的测度指标有方差和标准差、离散系数(变异系数)。集中程度的测度指标有众数、均值和中位数。
13、偏态系数
偏态系数的有关概念如下:
偏度:数据分布的偏斜方向和程度,描述的是数据分布对称程度。
偏态系数:测度数据分布偏度的统计量,取决于离差三次方的平均数与标准差三次方的比值。
偏态系数的取值
1.等于0:数据的分布是对称的。
2.偏态系数>0:分布为右偏。
1)取值在0和0.5之间,轻度右偏。
2)取值在0.5和1之间,中度右偏。
3)取值大于1,严重右偏。
3.偏态系数<0:分布为左偏。
1)取值在0和-0.5之间,轻度左偏。
2)取值在-0.5和-1之间,中度左偏。
3)取值小于-1,严重左偏。
某企业员工年收入数据分布的偏态系数为3.0,则该组数据的分布形态为()。
A.右偏
B.左偏
C.严重倾斜
D.轻度倾斜
E.中度倾斜
【答案】AC
【解析】偏态系数等于3,说明该组数据是严重右偏。
【答案】ACD
(1)0
【答案】DE
16、抽样调查的基本概念
抽样调查的基本概念:抽样调查是使用频率最高的一种调查方式。它是指按照某种原则和程序,从总体中抽取一部分单位,通过对这一部分单位进行调查得到信息,以达到对总体情况的了解,或者对总体的有关参数进行估计。
1.总体:调查对象的全体。
2.样本:样本是总体的一部分,由从总体中按一定原则或程序抽出的部分个体所组成。样本也是一个集合。抽样调查中调查的具体实施是针对样本而言的。
3.总体参数:总体指标值,它是未知的常数,是根据总体中所有单位的数值计算的,是通过调查想要了解的,不受样本的抽选结果影响。常用的总体参数包括总体总量、总体均值、总体比例、总体方差等。
4.样本统计量(估计量):是根据样本中各单位的数值计算的,是对总体参数的估计,也称估计量。它是一个随机变量,取决于样本设计和正好被选入样本的单元特定组合。常用的样本统计量有样本均值、样本比例、样本方差。
在某市随机抽取2000家企业进行问卷调查,并据此调查有对外合作意向的企业,该抽样调查中的样本统计量是()。
A.该市所有企业
B.该市所有有对外合作意向的企业
C.抽中的2000家企业
D.抽中的2000家企业中有对外合作意向的企业
【答案】D
【解析】本题中涉及的概念如下,总体:该市所有企业。样本:抽取出来的2000家企业。总体参数:该市所有有对外合作意向的企业。样本统计量:抽中的2000家企业中有对外合作意向的企业。抽样框:该市企业名录。
17、概率抽样(随机抽样)
1.特点
(1)按一定概率以随机原则抽取样本。
(2)总体中每个单元被抽中的概率是已知的或者是可以计算出来的。
(3)当采用样本对总体参数进行估计时,要考虑到每个样本单元被抽中的概率。
2.方法
(1)简单随机抽样。
(2)分层抽样。
(3)系统抽样。
(4)整群抽样。
(5)多阶段抽样。
随机抽样的特点主要包括()。
A.每个总体单元被注入样本的概率都相等
B.总体中每个单元都有一定的机会被抽中
C.以最大限度降低调查成本为目的
D.调查者可以根据自己的主观判断抽取样本
E.总体中每个单元被抽中的概率是已知或可计算的
【答案】BE
【解析】随机抽样即概率抽样,总体中每个单元被抽中的概率是已知的或者是可以计算出来,但概率可以相等也可以不相等,A选项错误;E选项正确。随机抽样中总体中每个单元都有一定的机会被抽中,B选项正确;以最大限度降低调查成本为目的的抽样方法是非概率抽样中的方便抽样,C选项错误;调查者可以根据自己的主观判断抽取样本,这是非概率抽样中的判断抽样,D选项错误。
18、非概率抽样
1.特点:抽取样本时并不是依据随机原则,调查者根据自己的方便或主观判断抽取样本。
(1)判断抽样(人为确定样本单元。例如选平均型单元作为样本)。
(2)方便抽样(为达到最大限度降低调查成本的目的,比如拦截式调查)。
(3)自愿样本(网上调查)。
(4)配额抽样(先分类再选,从各类型中抽取样本的方法没有严格的限制)。
下列抽样方法中,属于非概率抽样的是()。
A.判断抽样
B.配额抽样
C.方便抽样
D.整群抽样
E.多阶段抽样
【答案】ABC
【解析】通过本题掌握概率抽样方式与非概率抽样方式的区分,需注意“配额抽样属于非概率抽样”。
19、抽样调查的一般步骤
抽样调查的一般步骤如下:
1.确定调查问题
需要明确地定义问题。
2.调查方案设计
抽样方案的设计问卷设计。
3.实施调查过程
关键是要保证原始数据的质量,需要对调查过程进行有效的管理和监控。
4.数据处理分析
对数据进行统计分析;对总体参数进行估计等。
5.撰写调查报告
调查活动的最终成果,是前面劳动成果的展现。
下列抽样调查工作中,属于调查方案设计环节的有()。
A.问卷设计
B.数据编码和录入
C.撰写报告
D.统计分析
E.抽样设计
【答案】AE
【解析】抽样调查的第二步是调查方案设计,主要包括抽样方案的设计和问卷的设计。本题也可根据题干和选项的关联猜测选择。关键词是“设计”。
20、抽样调查中的误差
抽样调查中的误差:样本估计值和总体参数值之间的差异称为误差,一般来说,调查中的误差分为抽样误差和非抽样误差两类,抽样误差和非抽样误差的形成原因如下:
1.抽样误差的形成原因:由抽样的随机性造成的,用样本统计量估计总体参数时出现的误差。
2.非抽样误差的形成原因:除抽样误差外,由其他原因引起的样本统计量与总体真值之间的差异。
(1)抽样框误差:样本框不完善造成的。
(2)无回答误差:调查人员没能够从被调查者那里得到所需要的数据。无回答误差分为:
1)随机因素造成的,如被调查者恰巧不在家。
2)非随机因素造成的,如被调查者不愿告诉实情而拒绝回答。
(3)计量误差:由于调查所获得的数据与其真值之间不一致造成的误差。这种误差可能是由调查人员、问卷设计、受访者等原因造成的,例如调查员在调查中有意无意诱导被调查者;调查中的提问错误或记录答案错误;调查人员有意作弊;由于问卷的原因受访者对调查问题的理解有偏误;受访者记忆不清;受访者提供虚假数字等。
计量误差是调查所获得的数据与其真值之间不一致造成的误差,其产生原因包括()。
A.由于问卷的原因受访者对调查问题理解上有偏误
B.抽样的随机性
C.被调查者不在家
D.受访者提供虚假数据
E.调查人员在调查中有意无意地诱导被调查者
【答案】ADE
【解析】通过本题掌握抽样框误差、无回答误差、计量误差产生的原因。计量误差可能是由调查人员、问卷设计、受访者等原因造成的。本题中抽样随机性会形成抽样误差,计量误差属于非抽样误差,B项错误;被调查者不在家会导致无回答误差,C项错误。
21、五种基本概率抽样方法
简单随机抽样
1.含义:简单随机抽样分为不放回简单随机和有放回简单随机抽样。
(1)不放回简单随机抽样每个单位最多只能被抽中一次,比有放回抽样的抽样误差低。
(2)有放回简单随机抽样容易造成信息重叠而影响估计效率,较少采用。
3.适用条件:抽样框中没有更多可以利用的辅助信息;调查对象分布的范围不广阔;个体之间的差异不是很大。
分层抽样
1.概念:先按照某种规则把总体分为不同的层,然后在不同的层内独立、随机地抽取样本。
2.适用条件:抽样框中有足够的辅助信息,能够将总体单位按某种标准划分到各层之中,实现在同一层内,各单位之间的差异尽可能小,不同层之间各单位的差异尽可能大。(层内差异小,层间差异大)
系统抽样
1.概念:将总体中的所有单元按一定顺序排列,在规定范围内随机抽取一个初始单元,然后按事先规定的规则抽取其他样本单元。最简单的系统抽样是等距抽样(即将总体N个单位按直线排列,根据样本量n确定抽样间隔,抽样间隔=N/n≈k,k为最接近N/n的一个整数。在1—k范围内随机抽取一个整数i,令位于i位置上的单位为起始单位,往后每隔k抽取一个单位,直至抽满n)
2.系统抽样的优点:对抽样框的要求比较简单,它只要求总体单位按一定顺序排列,系统抽样的估计效果与总体排列顺序有关。
整群抽样
1.概念:将总体中所有的基本单位按照一定规则划分为互不重叠的群,抽样时直接抽取群,对抽中的群调查其全部的基本单位,对没有抽中的群则不进行调查。与简单随机抽样相比,整群抽样的优点如下:
(2)抽样框编制得以简化,抽样时只需要群的抽样框,而不要求全部基本单位的抽样框。
2.适用条件:如果群内各单位之间存在较大差异,群与群的结构相似,整群抽样会降低估计误差。
多阶段抽样
1.概念:经过两个或两个以上抽样阶段才能抽到最终样本单位,这就是多阶段抽样。如果经过两个阶段抽样,抽取到接受调查的最终单位,称为二阶段抽样;以此类推。在大范围的抽样调查中,采用多阶段抽样是必要的。
按照等级、类型和所属区域将某市所有医院划分为10组,然后在每个组内随机抽取3家医院进行医改政策评价的抽样调查,这种抽样方法是()。
A.分层抽样
B.简单随机抽样
C.整群抽样
D.两阶段抽样
【答案】A
【解析】本题调查医院对医改政策的评价,该市所有医院为总体,每个医院为总体单元或者个体,将医院分为10组,在每一组随机抽取个体,符合分层抽样的特点(先分层再在每一层随机抽),所以本题应选择A项分层抽样。本题的关键词是“每个”。
22、估计量的性质
估计量的性质如下:
1.一致性:随着样本量的增大,估计量的值稳定于总体参数的真值,这个估计量就有一致性,也称为一致估计量。
2.无偏性:对于不放回简单随机抽样,所有可能的样本均值取值的平均值总等于总体均值。
3.有效性:在同一抽样方案下,对某一总体参数θ,如果有两个无偏估计量θ1、θ2,如果θ1的可能样本取值较θ2更密集在总体参数真值θ附近,则认为θ1比θ2更有效,θ1的方差必然小于θ2的方差。
总体参数的无偏估计量的方差小于其他的无偏估计量的是()。
A.有效性
B.一致性
C.重要性
D.无偏性
【解析】在同一抽样方案下,对某一总体参数θ,如果有两个无偏估计量θ1、θ2,如果θ1的可能样本取值较θ2更密集在总体参数真值θ附近,则认为θ1比θ2更有效,θ1的方差必然小于θ2的方差。
23、影响抽样误差的因素
影响抽样误差的因素如下:
1.抽样误差与总体分布有关,总体单位值之间差异越大,即总体方差越大,抽样误差越大。
2.抽样误差与样本量n有关,其他条件相同,样本量越大,抽样误差越小。
3.抽样误差与抽样方式和估计量的选择也有关。例如分层抽样的估计量方差一般小于简单随机抽样。
4.利用有效辅助信息的估计量也可以有效的减小抽样误差。
A.总体单位值之间的差异大小
B.样本量大小
C.访问员的选择
D.抽样方式的选择
E.估计量的选择
【答案】ABDE
【解析】本题中C选项访问员的选择只影响非抽样误差。
24、影响样本量的因素
影响样本量的因素如下:
1.调查的精度:调查的精度是指用样本数据对总体进行估计时可以接受的误差水平,要求的调查精度越高,所需要的样本量就越大。
2.总体的离散程度:在其他条件相同情况下,总体的离散程度越大,所需要的样本量也越大。
3.总体的规模:对于大规模的总体,总体规模对样本量的需求几乎没有影响,但对于小规模的总体,总体规模越大,为保证相同估计精度,样本量也要随之增大。
4.无回答情况:无回答减少了有效样本量,在无回答率较高的调查项目中,样本量要大一些,以减少无回答带来的影响。
5.经费的制约:样本量是调查经费与调查精度之间的某种折中和平衡。
关于样本量的说法,正确的有()。
A.调查误差越小所需的样本量越大
B.总体方差越小所需的样本量越小
C.总体规模越大样本量要同比例增大
D.经费越少样本量越小
E.无回答率越高需要抽取的样本量越大
【解析】对于大规模的总体,总体规模对样本量的需求则几乎没有影响,但对于小规模的总体,总体规模越大,为保证相同估计精度,样本量也要随之增大(但不是同比例的)。C项错误。
(1)它们具有共同的研究对象。
(2)在具体应用时,常常必须互相补充。
D.回归分析研究变量间相互关系的具体形式
26、回归模型分类
统计学的定义:描述因变量如何依赖自变量和误差项的方程称为回归模型,回归模型的类别如下:
1.根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型。
2.根据回归模型是否线性,回归模型分为线性回归模型和非线性回归模型。
一元回归模型和多元回归模型的划分依据是()。
A.模型的数量
B.样本量
C.因变量数量
D.自变量数量
【解析】根据自变量的多少,回归模型可以分为一元回归模型和多元回归模型。
27、一元线性回归模型
根据抽样调查数据中人均收入和人均可支配消费进行回归分析,得到估计的一元线性回归模型Y=1000+0.7X,(X,人均可支配收入;Y,人均消费,单位为元),当人均可支配收入为20000元时,人均消费将为()元。
A.1000
B.20000
C.14000
D.15000
【解析】当X=20000时,Y=1000+0.7*20000=15000元。D选项正确。
28、回归模型的拟合效果分析
回归模型检验
一般情况下,使用估计的回归方程之前,需要对模型进行检验,其内容包括:
1.结合经济理论和经验分析回归系数的经济含义是否合理。
2.对模型进行假设检验。
3.分析估计的模型对数据的拟合效果如何。
决定系数
一元线性回归模型拟合效果的一种测度方法是决定系数。
1.决定系数,可以测度回归直线对样本数据的拟合程度。
2.决定系数的取值在0到1之间,大体说明了回归模型所能解释的因变量变化占因变量总变化的比例。决定系数越接近1,回归直线的拟合效果越好。
回归模型决定系数的取值范围是()。
A.-1到1之间
B.大于等于0
C.0-1之间
D.没有限制
【解析】决定系数的取值在0到1之间,大体说明了回归模型所能解释的因变量变化占因变量总变化的比例。决定系数越接近1,回归直线的拟合效果越好。
统计指标值是平均数(如,人均国内生产总值序列)
某国2013—2019年能源生产总量
A.相对数
B.时期
C.绝对数
D.平均数
E.时点
【答案】BC
30、平均发展水平的计算(一)
1.由时期序列计算序时平均数:就是简单算术平均数。
2.由时点序列计算序时平均数
(1)第一种情况,由连续时点(逐日登记)计算,又分为两种情形:
1)资料逐日排列且每天登记。即已掌握了整段考察时期内连续性的时点数据,可采用简单算术平均数的方法计算。
(2)第二种情况,由间断时点(不逐日登记)计算,又分为两种情形:
某超市2013年6月某商品的库存量记录见下边,该商品6月份的平均日库存量是()台。
A.48
B.40
C.45
D.50
31、平均发展水平的计算(二)
某行业2000年至2008年的职工数量(年底数)的记录如下:
则该行业2000年至2008年平均每年职工人数为()万人。
A.1300
B.1325
C.1333
D.1375
【答案】B
第二次平均(加权平均):1100×3/8+1400×2/8+1500×3/8=1325万人。
32、增长量与平均增长量
增长量
1.计算:报告期水平-基期水平,反映报告期比基期增加(或减少)的绝对数量。
2.备注:根据基期的不同确定方法,增长量分为逐期增长量和累计增长量。
逐期增长量
1.计算:报告期水平-报告期前一期水平。
累计增长量
1.计算:报告期水平-最初水平。
平均增长量
关于变量增长的说法,正确的有()。
A.增长量是报告期发展水平与基期发展水平之差
B.累计增长量是报告期水平与前一期水平之差
C.逐期增长量是报告期水平与前一期水平之差
【答案】ACE
【解析】通过本题掌握增长量、逐期增长量、累计增长量、平均增长量的含义。
33、发展速度的有关概念
发展速度的有关概念如下:
发展速度
1.含义:以相对数形式表示的两个不同时期发展水平的比值。
2.计算公式:
定基发展速度
1.含义:报告期水平与某一固定时期水平(通常是最初水平)的比值。
环比发展速度
1.含义:报告期水平与其前一期水平的比值。
A.定基发展速度
B.环比发展速度
C.环比增长速度
D.定基增长速度
【解析】定基发展速度是报告期水平与某一固定时期水平的比率。
34、定基发展速度与环比发展速度的关系
定基发展速度与环比发展速度的关系如下:
1.定基发展速度等于相应时期内各环比发展速度的连乘积。
简单记忆:定基积。
2.两个相邻时期定基发展速度的比率等于相应时期的环比发展速度。
简单记忆:环比比。
我国国内旅游总花费2014年为30311.9亿元,2015年为34195.1亿元,则国内旅游总花费2015年的环比发展速度为()。
A.1281%
B.1.77%
C.112.81%
D.101.77%
【解析】环比发展速度=报告期水平/基期水平=34195.1/30311.9╳100%=112.81%。
35、增长速度
增长速度
1.含义:报告期增长量与基期水平的比值,表明报告期比基期增长(或降低)了百分之几或若干倍。
2.公式:
增长速度=报告期水平—基期水平/基期水平=发展速度—1。
定基增长速度
1.含义:报告期累计增长量与基期水平的比值。
定基增长速度=定基发展速度—1。
环比增长速度
1.含义:报告期逐期增长量与基期水平的比值。
环比增长速度=环比发展速度—1。
以2000年为基期,2008年和2009年我国粮食总产量定基增长速度分别为14.40%和14.85%。2009年对2008年的环比发展速度为()。
A.0.39%
B.14.63%
C.100.39%
D.114.63%
【解析】两个相邻时期定基发展速度的比率等于相应时期的环比发展速度,环比发展速度=2009年定基发展速度/2008年定基发展速度,而定基发展速度=1+定基增长速度,所以可得环比发展速度=(1+14.85%)/(1+14.4%)=100.39%。
36、速度的分析应注意的问题
(2)速度指标的数值与基数的大小有密切关系。
A.不宜采用几何平均法计算平均发展速度
B.不需要结合水平指标进行分析
C.速度指标数值与基数大小有密切关系
【答案】CDE
37、平滑预测法
平滑预测法包括移动平均法和指数平滑法。
指数平滑法的特点是:观测值离预测时期越久远,其权重也变得越小,呈现出指数下降。
我国居民消费价格指数1996-2002年数据如下表:
选取平滑系数为0.8,用指数平滑法预测,则2003年居民消费价格指数的预测值为()