《统计学原理》教案

发布时间 : 星期三 文章《统计学原理》教案更新完毕开始阅读

?F?0.5??0.3829

即约有38.29%的亩产量在525—575公斤之间。

【例4-8】解放军战士的身高是按正态分布的,经抽查平均身高175公分,标准差4公分,现在军服厂要裁制1000000套军服,问身高在171~179公分之间应裁几套?

根据正态分布标准化的要求z?x?x?44?1 ,查概率表则有:

?P?171?x?179??P?x?175?4??F?1??0.6827

即身高在171~179公分之间需裁制100000×0.6827=68270(套)。 三、 关于正态分布的定理

单变量的概率分布,包括单变量的正态分布,我们已经讨论过了,但是不论是样本平均数x还是样本成数p,都是多变量和的运算结果,例如样本容量为n的样本平均数x是n个变量和的平均,因而要估计x落在某一区间的概率就要考虑n个变量和的分布,显然它比单变量的分布要复杂得多,以下关于正态分布的两个定理帮助我们解决这个难题。

㈠正态分布再生定理

如果变量X服从于其总体平均数为X、总体标准差σ(X)的正态分布,即总体变量X服从正态分布N?X,?2?X??,则从这个总体中抽取容量为n的样本平均数x也服从于正态分布,其平均数E?x?仍为X,其标准差??x???,即样本平均数x服从于正态分布N(X,μ2)。而标准随机变量z?x?X? 则服从于标准

正态分布N(0,1)。

这条定理表示,只要总体分布是正态的,则不问样本单位数n是多少,样本平均数都服从正态分布,分布的中心不变,而标准差即抽样误差则视重置抽样或不重置抽样分别为

??Xn? 或

?2?X??nn??1?? ,它们比总体标准差都大大缩

N??小了,因而样本平均数的分布是更加集中于总体平均数周围。

㈡中心极限定理

如果变量X分布的平均数X和标准差σ(X)都是有限的数,则从这个总体所抽取的容量为n的样本,样本平均数x的分布随着n的增大而趋近于平均数X、标准差为σ(x)=μ的正态分布,即样本平均数趋近于正态分布N(X,μ2)。而样本变量 z?x?X? 则趋近于标准正态分布N(0,1)。

这条定理并不要求总体分布是正态的,甚至可以是不知道的。客观上存在着总体平均数和标准差,只要样本的单位数增多,则样本平均数x就趋近于正态分布。这和正态分布在生定理限制总体为正态,而对样本单位数不加限制的情况是不同的。

我们知道,总体成数P是服从于平均数P为方差P(1-P)的(0,1)分布,而样本成数p则是n个(0,1)变量的平均。因此中心极限定理也适用于样本成数的分布。具体说,从任一总体成数为P、方差为P(1-P)的(0,1)分布总体中,抽取容量为n的样本,其样本成数p的分布随着样本单位数n的增大而趋近于平均数E(p)=P,标准差为??p???p的正态分布,即样本成数p趋近于正态分布N(P,μp2)。而样本标准变量z?p?P?p 则趋近于标准正态分布N(0,

1)。

这条定理是中心极限定理的推广。

在实际工作中,总体变量的分布通常是不知道,样本平均数或成数的分布是否接近于正态,或接近到什么程度,起决定作用的因素是样本容量n。样本容量n越大,样本平均数或成数的分布也越接近正态。一般认为样本单位数不少于30的是大样本,抽样分布就接近于正态分布。

四、 抽样分布的正态逼近

统计量是建立在随机抽样实际观察取值的基础上,所以抽样分布都是离散型的概率分布。要估计样本统计量的取值落在某一区间的概率,最精确的方法是将统计量的所有可能取值全部列出,并计算相应的概率,编制统计变量的分布列,然后再计算指定区间内各项概率之和。但是这种方法通常计算工作量很大,对于复杂的抽样方法,甚至统计量的概率分布都难以描述,要估计统计量取值某一点或某个区间的概率就没有办法做到。

利用正态分布的有关定理,我们知道当样本的容量相对大(不少于30)时样本平均数和样本成数都趋近于正态分布,因此可以利用正态分布来近似地估计样本平均数和样本成数取值某一点或某个区间的概率。现在举例说明如下。

【例4-9】某地区高等学校考生入学考试成绩平均X=550分,标准差σ=250分,现在从考生中随机抽取100名,问100名考生的平均成绩落在540~580分之间的概率是多少?

依题意求概率P?540?x?580?先计算两个标准变量z1,z2。 z1?x1?X?540?550250100x2?X?580?550250100?1.2 ?1025?0.4

?n z2??n P?540?x?580?? ? ?

121212?P?x?X?10?Px?X?301??2??

?F?z1??F?z2????F?0.4??F?1.2?? ?0.3108??54.04% ?0.7699f(x) 540 550 580 x

图4-16 正态分布图

从以上解题中,我们可以认识到:

1. 全地区高等学校的入学考生成绩未必形成正态分布,但是100名样本平均成绩则趋近于正态分布,这是因为样本容量n=100,是属于大样本的平均数。

2. 全体考生的每人成绩的分布可能相当分散,有的成绩高有的成绩低,但样本100名平均成绩则是相当集中的,成绩在平均数550分附近的540—580分间占考生总数的54.04%。依此推算样本平均数成绩在525—575分约占考生总人数的68.27%。

【例4-10】某县粮食平均亩产X=760公斤,亩产标准差σ=380公斤。现在随机抽取400亩,求样本平均亩产在800公斤以上的概率。

依题意求P?x?800?,先计算标准变量z。 z?x?X?800?7603804001?n?4019?2.1

?? P?x?800 =?1?0.9643??1.785%

2

760 800 x

21?1?P?x?X?40??

f?x? 图4—17 正态分布图

如果全县粮食亩产量是按正态分布,则以计算亩产在800公斤以上的概率为

P?X?800??PX?X?40???1?1?P?X?X2?40??40??1???11?F?????1?0.0797??23802????=46% 。这意味着亩产在800公斤以上的可能性达到46%是相当大的。但400

亩样本平均亩产在800公斤以上的概率只有1.785%,几乎是很少可能的。这是因为样本平均数的抽样误差仅及总体亩产误差的1/20。

【例4—11】某厂零件加工不合格品率达到6%,现在从加工件中随机抽取36件,求样本不合格率在4%以下的概率。

已知总体不合格品P=6%,(1-P)=94%, ?p?依题意求概率P?p?4%?。

P?p?4%?? ?1212P?1?P?n?0.06?0.9436?4% 。

?1?P?p?P?2%???11??2%1?F??2??4%??????

?1?F?0.5????1?0.3829??30.9%

2即样本不合品率在4%以下的概率为30.9%。

4% 6% p

图4—18 正态分布图

第四节 总体参数估计的一般原理

一、科学的抽样估计方法要具备三个基本条件。

首先是要有合适的统计量作为估计量。我们知道统计量是样本变量的函数,根据样本变量可以构造多种统计量,但不是所有的统计量都能够充当良好的估计量,例如,从一个样本可以计算平均数、中位数、众数等等,现在要用来估计总体平均数,究竟以哪个样本统计量

联系合同范文客服:xxxxx#qq.com(#替换为@)