计量资料的箱线图,也是一种直观呈现数据分布的统计图,若数据中存在离群值,在箱线图中还将标示出这些离群值。
生成箱线图的操作不只一种,可以通过Analyze=>Descriptive=>StatisticsExplore生成,也可以通过绘图菜单进行操作,如下所示:
菜单:Graphs=>LegacyDialogs=>Boxplot,选择Simple箱线图进行设置:
图2-3-11
因为选择了分组输出模式(如果没有分组变量,则应点选Summariesofseparatevariable选项再进行设置),需要定义分组变量(将smoker设置为本图的分类变量),点击【OK】即可输出箱线图:
图2-3-12
在上图中,新生儿体重的箱线图分为2组输出:母亲吸烟组和母亲不吸烟组。
1)没有离群值的箱线图
正常情况下,箱线图中展示了5个统计量,从上到下依次为:最大值、上四分位数(Q3或P75)、中位数、下四分位数(Q1或P25)和最小值,分别对应顶部的横须、箱体的上边界、箱体内的粗横线、箱体的下边界和底部的横须。
(需要注意的是,根据SPSS的算法说明,"theupperandlowerlimitsoftheboxaretheTukeyhingesH1andH2",就是说箱子的上下限采用的是Tukey构造的统计量H1和H2,而这两个值,多数情况下与SPSS计算的Q1与Q3并不完全相同,因为算法不同,也就是说:SPSS中的箱线图,箱体的上边界、下边界对应的值,并不完全等于SPSS的Q3与Q1)
如果箱体中的粗横线位于箱体中间位置,而由箱体伸出的上下须线长度大体相当,说明这个数据的分布应该是对称的。
2)有离群值的箱线图
有时我们得到的箱线图是这样的:
图2-3-13
在箱体伸出的T须线之外,还有一些用圆圈和星号标示的点,这些点旁边的数字是记录号(行号),按照SPSS的对离群值的定义:
$IQR=Q_3-Q_1$,$STEP=1.5\cdotIQR$,值$y_i$如果:
$Q_3+STEP\ley_i\ltQ_3+2\cdotSTEP$,或$Q_1-2\cdotSTEP\lty_i\leQ_1-STEP$,则$y_i$为离群值,在箱线图中用圆圈标示;
如果$y_i\geQ_3+2\cdotSTEP$或$y_i\leQ_1-2\cdotSTEP$,则$y_i$为极值,用星号标示。
SPSS输出的箱线图,如果有离群值,则上下横须对应的值,是比离群值(在横须上部的,包括极值)小的第一个样本值,或比离群值大(在横须下部的,包括极值)的第一个样本值。