本文主要参考资料:
定义
中心极限定理就是从总体中抽取n个样本,再将这n个样本分为m组,求出每组的平均值,这m个平均值的分布接近正态分布。
条件:
1.对于原来的总体,不要求符合正态分布
2.样本量要足够大,每组样本数量也要足够大(一般当n≥30时,样本均值的抽样分布更接近正态分布;如果n<30,就要使用t分布)。
3.样本量越大,抽样分布越接近正态分布
结论:
1.抽样分布的均值就是总体均值
2.抽样分布的标准差与总体标准差的关系:(SE是抽样分布的标准差)
*使用之心极限定理以样本抽样分布均值作为总体均值,是点估计的一种最简单的方法。但从每次随机取数得到的分布也可以看出,样本均值其实是以一定概率在总体均值附近浮动的,所以这就有了后面将要讲的置信区间。
正态分布
标准正态分布:均值为0,标准差为1.
PDF(概率密度函数)图中曲线下的面积代表了概率, 这部分面积即累积概率分布。
置信区间:
关于置信区间,一种普遍的错误理解是:总体待估计参数(比如说均值)以一定的概率落在置信区间内。这种理解的错误在于,总体的待估计参数是确定量而非随机量,而对于确定量来说,其落在某个区间内的概率非0即1.
正确的理解是:以相同的抽样方式,获得N组抽样样本,每一组抽样样本点数为M,对于每一组抽样样本,按某一置信度,比如说95%,计算出置信区间,那么将会有0.95*N组所计算出来的置信区间中包含有总体待估计参数值。
我的简单小结:置信区间就是总体待估参数有x%的概率落在该区间内。(典型的错误解释!真的很容易落入这个陷进!!!)
百度百科给出的求置信区间的方法:
1.求出样本均值
2.根据样本量确定抽样误差:通常认为,100个样本的抽样误差为±10%;500个样本的抽样误差为±5%;1200个样本时的抽样误差为±3%;(由此可见,样本数量越大,置信区间越小,越靠谱)
3.区间下限:样本均值-抽样误差;区间上限:样本均值+抽样误差