专栏文章

中心极限定理

计量本子＊ 2020-02-08

本文主要参考资料：

定义

中心极限定理就是从总体中抽取n个样本，再将这n个样本分为m组，求出每组的平均值，这m个平均值的分布接近正态分布。

条件：

1.对于原来的总体，不要求符合正态分布

2.样本量要足够大，每组样本数量也要足够大（一般当n≥30时，样本均值的抽样分布更接近正态分布；如果n＜30，就要使用t分布）。

3.样本量越大，抽样分布越接近正态分布

结论：

1.抽样分布的均值就是总体均值

2.抽样分布的标准差与总体标准差的关系：（SE是抽样分布的标准差）

*使用之心极限定理以样本抽样分布均值作为总体均值，是点估计的一种最简单的方法。但从每次随机取数得到的分布也可以看出，样本均值其实是以一定概率在总体均值附近浮动的，所以这就有了后面将要讲的置信区间。

正态分布

标准正态分布：均值为0，标准差为1.

PDF（概率密度函数）图中曲线下的面积代表了概率，这部分面积即累积概率分布。

关于置信区间，一种普遍的错误理解是：总体待估计参数（比如说均值）以一定的概率落在置信区间内。这种理解的错误在于，总体的待估计参数是确定量而非随机量，而对于确定量来说，其落在某个区间内的概率非0即1.

正确的理解是：以相同的抽样方式，获得N组抽样样本，每一组抽样样本点数为M，对于每一组抽样样本，按某一置信度，比如说95%，计算出置信区间，那么将会有0.95*N组所计算出来的置信区间中包含有总体待估计参数值。

我的简单小结：置信区间就是总体待估参数有x%的概率落在该区间内。（典型的错误解释！真的很容易落入这个陷进！！！）

百度百科给出的求置信区间的方法：

1.求出样本均值

2.根据样本量确定抽样误差：通常认为，100个样本的抽样误差为±10%；500个样本的抽样误差为±5%；1200个样本时的抽样误差为±3%；（由此可见，样本数量越大，置信区间越小，越靠谱）

3.区间下限：样本均值-抽样误差；区间上限：样本均值+抽样误差

版权归作者所有，转载请注明出处

热度 0

推荐文章

LOFTER-网易轻博