分位数是将总体的全部数据按大小顺序排列后,处于各等分位置的变量值。如果将全部数据分成相等的两部分,它就是中位数;如果分成四等分,就是四分位数;八等分就是八分位数等。四分位数也称为四分位点,它是将全部数据分成相等的四部分,其中每部分包括25%的数据,处在各分位点的数值就是四分位数。四分位数有三个,第一个四分位数就是通常所说的四分位数,称为下四分位数,第二个四分位数就是中位数,第三个四分位数称为上四分位数,分别用Q1、Q2、Q3表示。
第一四分位数(Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数(Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四分位数(Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartileRange,IQR)。
首先确定四分位数的位置:
Q1的位置=(n+1)×0.25
Q2的位置=(n+1)×0.5
Q3的位置=(n+1)×0.75
n表示项数。
在上例中(n+1)恰好是4的整数倍,但在很多实际工作中不一定都是整数倍。这样四分位数的位置就带有小数,需要进一步研究。带有小数的位置与位置前后标志值有一定的关系:四分位数是与该小数相邻的两个整数位置上的标志值的平均数,权数的大小取决于两个整数位置的远近,距离越近,权数越大,距离越远,权数越小,权数之和应等于1。4
对于四分位数的确定,有不同的方法,另外一种方法基于N-1基础。即
Q1的位置=1+(n-1)x0.25
Q2的位置=1+(n-1)x0.5
Q3的位置=1+(n-1)x0.75
Excel中有两个四分位数的函数。QUARTILE.EXC和QUARTILE.INC
QUARTILE.EXC基于N+1的方法,QUARTILE.INC基于N-1的方法。
引证:1.minitab软件自带“公式与方法”(methodsandformulas)内,关于第一四分位数的原文如下:
1stquartile(Q1)
Twenty-fivepercentofyoursampleobservationsarelessthanorequaltothevalueofthefirstquartile.Therefore,thefirstquartileisalsoreferredtoasthe25thpercentile.Q1iscalculatedasfollows:
let
w=(N+1)/4
y=thetruncatedintegervalueofw
z=thefractioncomponentofwthatwastruncatedaway
Q1=x(y)+z(x(y+1)-x(y))
Note:whenwisaninteger,y=w,z=0,andQ1=x(y)
关于第三四分位数的原文如下:
3rdquartile(Q3)
Seventy-fivepercentofyoursampleobservationsarelessthanorequaltothevalueofthethirdquartile.Therefore,thethirdquartileisalsoreferredtoasthe75thpercentile.Q3iscalculatedasfollows:
w=3(N+1)/4
Q3=x(y)+z(x(y+1)-x(y))
Note:whenwisaninteger,y=w,z=0,andQ3=x(y)
以上引文中,w代表分位数位置,y代表位置的整数部分,z代表位置的分数部分。
2.论四分位数的计算(湖南工学院工商管理系祁德军南华大学数理学院陈明)
(原文截图)
实例1
数据总量:6,47,49,15,42,41,7,39,43,40,36
由小到大排列的结果:6,7,15,36,39,40,41,42,43,47,49
一共11项
Q1的位置=(11+1)×0.25=3,Q2的位置=(11+1)×0.5=6,Q3的位置=(11+1)×0.75=9
Q1=15,
Q2=40,
Q3=43
实例2
数据总量:7,15,36,39,40,41
一共6项
数列项为偶数项时,四分位数Q2为该组数列的中数,
(n+1)/4=7/4=1.75,Q1在第一与第二个数字之间,
3(n+1)/4=21/4=5.25,Q3在第五与第六个数字之间,
Q1=0.75*15+0.25*7=13,
Q2=(36+39)/2=37.5,
Q3=0.25*41+0.75*40=40.25.
1、将数据从小到大排序,计为数组a(1ton),n代表数据的长度
2、确定四分位数的位置:b=1+(n-1)×0.25=2.25,b的整数部分计为cb的小数部分计为d
计算Q1:Q1=a(c)+[a(c+1)-a(c)]*d=a(2)+[a(3)-a(2)]*0.25=15+(36-15)×(2.25-2)=20.25
3、计算如上Q2与Q3的求法类似,四分位差=Q3-Q1
不论Q1,Q2,Q3的变异量数数值为何,均视为一个分界点,以此将总数分成四个相等部份,可以通过Q1,Q3比较,分析其数据变量的趋势。
将n个数从小到大排列:
Q2为n个数组成的数列的中数(Median);
当n为奇数时,中数Q2将该数列分为数量相等的两组数,每组有(n-1)/2个数,Q1为第一组(n-1)/2个数的中数,Q3为为第二组(n-1)/2个数的中数;
当n为偶数时,中数Q2将该数列分为数量相等的两组数,每组有n/2数,Q1为第一组n/2个数的中数,Q3为为第二组n/2个数的中数。