二)组距分组次数分布表(重点。简单应用)若观测变量的取值变动均匀,则应采用等距分组。分组的组数不宜太少,也不宜过多。
1.确定组数:记变量值的个数为N,组数为m,则斯特吉斯公式为:
m=1+3.322lgN
lg20=lg2+1=1.3010
lg60=lg2+lg3+1=0.3010+0.4771+1=1.7781
lg50=1.6989
lg2=0.3010
lg3=0.4771
lg5=0.6990
lg7=0.8451这几个是应该记住的。非常实用
等距分组的组距为w,则由下式可计算出w的最低值为:W=【max(xi)-min(xi)】/m
(一)算术平均数
算术平均数又称均值,它是一组变量值的总和与其变量值的个数总和的比值,是测度变量分布中心最常用的指标。
1.简单算术平均数=(x1+x2+…+xn)/n
2.加权算术平均数=Σxifi/Σfi=Σxi*(fi/Σfi)式中fi/Σfi为各组的频率。
(2)组距数列算术平均数的计算方法。组中值=(上限+下限)/2缺下限组的组中值=上限-邻组组距/2缺上限组的组中值=下限+邻组组距/2
3.应用算术平均数应注意的几个问题(1)算术平均数容易受极端变量值的影响。2)权数对算术平均数大小起着权衡轻重的作用,但不取决于它的绝对值的大小,而是取决于它的比重。(3)根据组距数列求加权算术平均时,需用组中值作为各组变量值的代表。
5.算术平均数的变形——调和平均数令xf=m
(3)数学期望的性质:
1)设c为常数,则E(c)=c。
2)设X为随机变量,a为常数,则E(aX)=aE(X)。
3)设X、Y是两个随机变量,则E(X士Y)=E(X)+E(Y)。
4)设X、Y是相互独立的随机变量,
下限公式:m0=L+△1/(△1+△2)*d
上限公式:m0=U-△1/(△1+△2)*d
式中:m0代表众数;
L和U分别代表众数组的下限和上限;
d代表众数组的组距;
△1代表众数组的次数与前一组次数之差;
△2代表众数组的次数与后一组次数之差。
在正态分布的情况下,算术平均数、中位数和众数三者在数量上完全相等。它们在分布图形中处于同一位置
(1)当有极大变量值出现时,算术平均数向右远离众数,中位数居中,众数的位置在图形的最左边,它们三者之间在数值上的关系是:m0<me<,这种偏态分布称为正偏分布或右偏分布
(2)当有极小的变量值出现时,也是对算术平均数的影响最大,它向左远离众数,中位数次之,其位置仍处于三者的中间,众数不受影响,其位置处于三者的最右边。<me<m0,
无论是左偏还是右偏,中位数总是在众数与算术平均数的中间位置。经验表明,在适度偏斜的情况下,众数与中位数的距离约为中位数与算术平均数距离的2倍。
三个经验公式:
=(1/2)*(3me-m0)
me=(1/3)*(m0+2)
m0=3me-2
识记、应用(重点):极差、平均差、标准差、变异系数的概念和计算公式。
极差又称全距,是指一组变量值中最大变量值与最小变量值之差,用来表示变量的变动范围。通常用R代表极差。
R=max(xi)-min(xi)(2)在组距数列的情况下,极差=最大一组变量值的上限值-最小一组变量值的下限值。假若在组距数列中出现了开口组,则极差无法计算。
极差指标的特点:其计算简单,意义明了,它是离散程度测度指标中最粗略、最简单的一种,常用于工业产品质量的检查和控制。
当研究资料中出现极端数据时,采用四分位全距来衡量数据之间的差异程度要比全距更具代表性。
Q1的位置:(n+1)/4=2.5,则Q1=14
Q3的位置:[3×(n+1)]/4=7.5,则Q3=21
故IQR=|Q1-Q3|=|14-21|=7(件)
平均差是变量的各个取值偏差绝对值的算术平均数。
平均差反映了变量的各个取值离其算术平均数的平均距离。
简单平均法(未分组,简单A.D=(Σ|xi-|)/n
已分组的变量数列资料A.D=Σ|xi-|fi/Σfi
标准差是变量的各个取值离差平方的平均数的平方根,又称为根方差。标准差是最常用的反映变量分布离散程度的指标。
(1)简单标准差σ=[Σ(xi-)2/n]1/2
(2)加权标准差σ=[Σ(xi-)2f/Σf]1/2
4.方差的性质
(1)设c为常数,则D(c)=0。
(2)设X为随机变量,c为常数,则有D(cX)=c2D(X)。
(3)设X、Y是两个相互独立的随机变量,则有D(X+Y)=D(X)+D(Y)。
各个衡量变量取值之间绝对差异的指标与算术平均数的比率,通称为变异系数,
极差系数VR=R/*100%
平均差系数VA.D=A.D/*100%
方差系数Vσ=σ/*100%
贝努里大数定理
辛钦大数定律
德莫佛—拉普拉斯中心极限定理这个定理还给离散型随机变量与连续型随机变量之间的转换提供了一种有效途径。
1.样本均值的标准误样本均值的标准误((1)若所得样本是采用有放回简单随机抽样方式抽取)公式为:
有放回抽样:不有放回抽样:
有放回抽样:不放回抽样:
样本比例的标准误的估计公式:有放回抽样:不放回抽样:
二、总体均值的区间估计(领会)
(一)大样本情形下总体均值的区间估计
大样本情形下,样本均值的概率分布可看作是正态分布。概率保证为1-α。
总体均值μ的置信区间为:
用样本均值估计总值均值μ所产生的抽样估计误差,记为:
δ称为抽样估计的极限误差或误差限。
(二)小样本情形下,正态总体均值的区间估计
只讨论正态总体小样本均值的区间估计。
对于来自正态总体的一个小样本,在给定的置信概率1-α之下,总体均值μ的置信区间为:
用样本均值估计总值均值μ所产生的抽样估计误差-μ,记为: