测量者采用一定的测量方法或借助一定的测量工具,对观测对象的某个质量特性进行赋值的过程,即对测量对象进行量化的过程。由于客观事物及其现象具体特征不同,进行数据收集时采用的测量尺度也不同,因此得到的数据精确程度也不同。按照由粗略到精细,由初级到高级,可将数据的测量尺度分为定类测量尺度、定序测量尺度、定距测量尺度和定比测量尺度四个层次。
(1)定类测量尺度。
定类测量尺度只能表明个体所属的类别而不能体现数量大小、多少或先后顺序,一般用于对测量对象进行平行的分类或分组。例如,0=男,1=女,可以是两类,也可以是多类。以定类测量尺度收集的数据称为属性数据。使用定类测量尺度进行分类必须保证每个个体或单位都能够归属于某一类别,并且只能属于某一个类别,即“=”(属于)或“≠”(不属于)。
(2)定序测量尺度。
定序测量尺度是对事物之间等级或顺序的一种测度。如产品按其质量高低列为一等品、二等品、三等品等。它不仅可以测度类别差,还可以测度次序差,并可比较大小,但其序号仍不能进行加减乘除等数学运算。有时在质量管理中也把定序数据转化为定类数据,然后用二项分布或泊松分布进行分析。
(3)定距测量尺度。
定距测量尺度是以数值来表示个体的特征并且能测定个体之间数据差距的尺度。定距尺度不仅能区分事物的类别,进行排序,比较大小,还可以精确地计量差异的大小,可以进行加减运算,不能进行乘除运算。如温度20℃与10℃的差距与10℃与0℃的差距相等,但定距数据中“0”是没有意义的,所以没有倍数的概念,因此不能说20℃比10℃热一倍。
(4)定比测量尺度。
定比测量尺度是对事物之间比值的一种测定。例如,人的年龄、身高、体重,物体的长度、面积、容积等数量标志。除了具有以上三种尺度的全部特性外,还具有一个特性,那就是可以计算出两个测度之间的比值,即能够进行乘除运算。这种数据中的“0”是有意义的,所以有倍数的概念,因此我们可以说20cm是10cm的两倍。
2、数据类型
数据分类的方法很多,按照不同的方法或不同数据特性所分的类别不同。
(1)从计量尺度来说,分为定性数据与定量数据。
定性数据是指只能用文字或数字代码来表现事物的本质特征或属性特征的数据,如人口按性别分为男与女两种类别,或者用1,0分别表示男性与女性。定量数据是指用数值来表现事物数量特征的数据,如两位学生的考试成绩分别为85分与80分。
(2)按统计角度,可分为连续型数据与离散型数据(或称属性值数据)。
用量具进行测量得出的可连续取值的数据是连续型数据,也称计量数据,如长度、重量、温度等。它可以比较敏感地反映过程变化,包含的信息丰富。离散型数据也称非连续型数据、计数数据,反映过程变化时不如连续型数据敏感。如合格/不合格,成功/失败,是/否,接受/拒绝,好/坏等。离散型数据又分为计件值数据和计点值数据。计件值数据是指按件计数的数据,如不合格品数、彩色电视机台数等;记点值数据是指按缺陷点计数的数据,如疵点数、沙眼数、气泡数等。
观测数据是指在没有对现象进行人为控制条件下,通过统计调查或观察而得到的数据。实验数据是在人为控制条件下通过实验方式获取的关于实验对象的数据。
(4)按加工程度,可分为原始数据与次级数据。
原始数据是研究者直接对研究对象进行调查、观测和实验所获得的反映个体特征的数据,也称为直接数据。次级数据也称为加工数据或二手数据,是指已经过加工整理、能反映总体数量特征的各种非原始数据。
二、收集数据与方法
三、抽样方法
抽样时需要考虑的重点是所抽取样本对总体的代表性和准确性。采用不同的抽样方法样本的代表性和准确性不同,因此必须采用合适的抽样方法,常用的有简单随机抽样、分层抽样等。
1、简单随机抽样
简单随机抽样也叫单纯随机抽样,指直接从抽样总体中随机地抽取样本,并以该样本对总体相应的指标做出统计推断。简单随机抽样必须满足两个条件:
(1)等可能性,即总体的每个个体都有同等机会被抽到。
(2)独立性,即每次抽样都是相互独立的。常用的简单随机抽样方法有:
简单随机抽样使用简单,但当总体中各标志值之间差异较大时,这种抽样形成的代表性较小,这时采用分层抽样的代表性更好。
2、分层抽样
分层抽样又称类型抽样或分类抽样,是统计分组与随机抽样的结合。它是将抽样总体按某一标志分层,然后从每层总体样本中随机抽取若干个样本组成抽样样本。
四、描述性统计方法
当我们获得样本数据后,需找出能反映数据分布特征的各个代表值,如数据分布的集中趋势,数据分布的离散程度,数据分布的偏度和峰度,等等。在前面已经介绍了常用的描述数据集中程度的统计量有均值、中位数、众数等;反映数据分布的离散程度的统计量有方差、标准差和极差等。这里仅介绍反映数据分布形状的统计量:偏度和峰度。
偏度是对数据分布的偏移方向和程度所作的描述。若已知样本数据,其偏度的估计为:
例1:为了解某地区成年人心脏健康程度,项目小组对该地区的成年人脉搏分别进行了随机抽样。小组测量的脉搏的数据如表4—3所示。
解:运用MINITAB进行计算,实现路径为统计→基本统计量→图形化汇总,得到的结果如图4-41和图4-42所示。
在图4-41和图4-42中,包含了样本的大量信息,包括平均值、标准差、方差、极值、中位数、四分位数、偏度、峰度,以及对样本的正态性检验和置信区间的计算结果。
五、数据的图示方法
1、直方图
直方图是用矩形的宽度和高度来表示频数分布的图形,我们可以从图中看出数据的聚集程度与离散程度。作直方图的步骤一般如下:
例2:表4-5为某公司4个月共120天的销售量数据,利用MINITAB给出其直方图。
解:运用MINITAB进行计算,实现路径为:图形→直方图,得到的结果如图4-43所示。
2、茎叶图
茎叶图是由“茎”与“叶”两部分组成,反映原始数据分布的图形,其图形是由数字组成的,高位数字为茎,低位数字为叶。茎叶图类似于横置的直方图,它能给出数据的分布情况,又能给出每一个原始数据,即保留了原始数据。我们可以在茎叶图上看出数据的分布形状及数据的离散状况。下面通过一个例子来说明茎叶图的做法。
例3:根据例2的数据,给出销量的茎叶图。
解:运用MINITAB进行计算,实现路径为:图形→茎叶图,选中“修整异常值”,在增量中填上10,得到的结果如图4-44所示。
3、箱线图
箱线图比较简单,从中位数可以确定中心趋势或者位置;箱体的长度可以确定观测值的离散程度;如果中位数不在箱体的中心,说明分布是有偏的。
例4:从某班级随机抽取11人,对两门课程的考试成绩进行调查,所得数据如表4—6所示。给出两门课程的考试成绩比较箱线图。
解:运用MINITAB进行计算,实现路径为:图形→箱线图,得到的结果如图4-45所示。
4、链图
链图的绘制具有以下步骤:
(2)找到数据的中位数,画一条水平线穿过该折线图,标识为“中位数”或x。
图4-46就是一个链图的例子。
判断过程是否受到特殊因素影响可从以下几方面进行:
(1)链的长度。
链的长度是指位于中位数同一侧的连续点数目。除非过程受到异常因素影响,否则过程中不太可能出现一长串连续点落在中位数的同一侧。如果只有一个点落在中位数线上,忽略该点;如果有多个点落在中位数上,按每侧各占50%把这些点分配到两侧。如果最长链的长度较长,这个过程很有可能受到特殊波动原因的影响。
(2)链的数目。
位于中位数同一侧连续点的序列构成一个链。一个受控过程中期望得到的链的数目同样可以用数学方法来确定。一个没有受特殊因素影响的过程,链不会太多也不会太少,应通过统计检验判断链的数目是否正常。
(3)趋势。
链图中不应该存在任何异常的连续上升和连续下降的序列。如果出现这种情况,则暗示存在某种异常趋势。如果连续增高或连续降低的点数较多,那么有可能存在特殊因素引起的过程偏移,需通过统计检验判断链图中的趋势是否异常。
5、正态概率图
正态概率纸是一种特殊的坐标纸,横坐标是等间隔的,用来表示观察值的大小,其纵坐标是按标准正态分布累积概率分布Φ(x)=P(X≤x)标示的。在正态坐标纸上:
用正态概率纸可检验一组数据x1,x2,…,xn,是否为来自正态分布的样本。具体操作如下:
例5:用正态概率纸检验某品牌的防锈剂的防锈能力是否服从正态分布。
解:运用MINITAB进行计算,实现路径为:统计→基本统计量→正态性检验,得到的结果如图4-47所示:
根据图4-47右侧的P值可判定样本防锈能力是否服从正态分布。其假设是:H0:数据服从正态分布,H1:数据不服从正态分布。根据假设检验的规则,如果P值小于0.05,则认为分布非正态;如果P值大于0.05,没有充分的理由拒绝原假设,可以认为分布为正态。