LOFTER for ipad —— 让兴趣,更有趣

点击下载 关闭
中心极限定理
计量本子* 2020-02-08

本文主要参考资料:

博客:中心极限定理通俗介绍

简书:数据探索之抽样估计

 知乎:如何理解95%置信区间


定义

中心极限定理就是从总体中抽取n个样本,再将这n个样本分为m组,求出每组的平均值,这m个平均值的分布接近正态分布。

条件:

1.对于原来的总体,不要求符合正态分布

2.样本量要足够大,每组样本数量也要足够大(一般当n≥30时,样本均值的抽样分布更接近正态分布;如果n<30,就要使用t分布)。

3.样本量越大,抽样分布越接近正态分布

结论:

1.抽样分布的均值就是总体均值

2.抽样分布的标准差与总体标准差的关系:(SE是抽样分布的标准差)

*使用之心极限定理以样本抽样分布均值作为总体均值,是点估计的一种最简单的方法。但从每次随机取数得到的分布也可以看出,样本均值其实是以一定概率在总体均值附近浮动的,所以这就有了后面将要讲的置信区间


正态分布

标准正态分布:均值为0,标准差为1.

PDF(概率密度函数)图中曲线下的面积代表了概率, 这部分面积即累积概率分布。

置信区间

关于置信区间,一种普遍的错误理解是:总体待估计参数(比如说均值)以一定的概率落在置信区间内。这种理解的错误在于,总体的待估计参数是确定量而非随机量,而对于确定量来说,其落在某个区间内的概率非0即1.

正确的理解是:以相同的抽样方式,获得N组抽样样本,每一组抽样样本点数为M,对于每一组抽样样本,按某一置信度,比如说95%,计算出置信区间,那么将会有0.95*N组所计算出来的置信区间中包含有总体待估计参数值

我的简单小结:置信区间就是总体待估参数有x%的概率落在该区间内。(典型的错误解释!真的很容易落入这个陷进!!!)

百度百科给出的求置信区间的方法:

1.求出样本均值

2.根据样本量确定抽样误差:通常认为,100个样本的抽样误差为±10%;500个样本的抽样误差为±5%;1200个样本时的抽样误差为±3%;(由此可见,样本数量越大,置信区间越小,越靠谱)

3.区间下限:样本均值-抽样误差;区间上限:样本均值+抽样误差



推荐文章
评论(0)
联系我们|招贤纳士|移动客户端|风格模板|官方博客|侵权投诉 Reporting Infringements|未成年人有害信息举报 0571-89852053|涉企举报专区
网易公司版权所有 ©1997-2024  浙公网安备 33010802010186号 浙ICP备16011220号-11 增值电信业务经营许可证:浙B2-20160599
网络文化经营许可证: 浙网文[2022]1208-054号 自营经营者信息 工业和信息化部备案管理系统网站 12318全国文化市场举报网站
网信算备330108093980202220015号 网信算备330108093980204230011号
分享到
转载我的主页