LOFTER for ipad —— 让兴趣,更有趣

点击下载 关闭
【R语言的社会统计分析】Chapter 1 绪论
暮紫简歌Jane 2020-08-23

Contents 目录

1.1 什么是统计学?

1.2 数据

1.3 随机化原则(Randomization)

1.4 数据收集方法


1.1 什么是统计学?

对于学习社会科学的学生,比如学习社会学的同学,一定熟知有一本杂志叫做《American Sociology Review》,这是被奉为圣经的杂志。

任意翻开一期《American Sociology Review》,有一篇文章《非洲裔美国人、西班牙裔以及白人对黑人和白人之间的不平等是否有不同的解读?》这是一个社会学问题,为了回答这个社会学问题,研究人员使用了从1977年到2004年的美国社会调查(General Social Surveys)数据。

翻开其它社会科学的论文(现在很多社会科学的研究选择使用定量研究的方法),你会发现有一些出镜率非常高的明星词汇(高频词):

  • 变量(variable)

  • 相关性(correlation)

  • 回归(regression)

  • 显著(significant)

  • p值(p-value)

  • 数字后带***

其实说了这么多,还没有对统计学下一个非常严谨的定义。可以这样理解:

无论是在科学领域还是社会领域,如果一个重要且严肃的问题被提出,那么仅提供一个简单的答案是远远不够的。我们在寻求答案的同时,往往还需要掌握一系列可以被检验的证据,并了解其所伴随的证明过程。”(这段话讲的其实是科学的本质。)

维基百科对科学的定义:

Science is a systematic enterprise that creates, builds and organizes knowledge in the form of testable explanations and predictions about the universe.

这里,老师认为最关键的一个词是:testable,可验证的、可检验的。其实统计学就为大家提供了一套提供证据、检验证据的科学方法。当然,可被检验的证据并不一定是数字,但是现在,量化的证据已经逐渐成为人们对证据最直接的联想。

 当人们开始以一副需要深思熟虑的架势来迎接某一议题时,量化的证据变得越发重要。统计学就是为这套证明过程提供科学方法的理论体系

什么是统计学?

牛津字典:“统计学是一门关于收集、分析、解释、展示以及组织数据的学问。”

统计学是一套获取与分析数据的方法。

具体而言,统计学为设计(design)、描述(description)和推断(inference)提供方法学基础。

设计——对数据收集方法的计划

比如,当你做一个社会调查时,需要考虑:

  • 如何抽取访谈对象

  • 需要多少访谈对象

  • 使用电话访问还是入户访问

  • 甚至是问卷设计的方方面面

统计分析人员应在第一时间参与研究项目的设计!(从研究设计的初期,就需要统计人员的介入,否则到后期,如果发现数据质量有问题时,也无力回天了。)所以,数据收集方法的设计是统计学家要解决的一个很重要的问题,尤其是我们社会科学统计学家要解决的问题。

描述——对现有数据的总结提炼

  • 原始数据通常是杂乱无章的。

  • 如何从无序的数据中总结出有应用价值趋势和特点需要多种描述统计方法的支持。

  • 描述有时指对数据的简化。

推断——依据现有的样本数据对总体进行的推测

  • 研究者所感兴趣的通常不是样本本身。

社会统计学

 

  • 社会统计学,是指将统计方法应用于对社会环境中人类行为的研究。

  • 它与生物统计学、商务统计学、计量经济学、医学统计学等其他统计学应用领域共享着以概率论和统计推断为代表的统计学经典理论成果。

  • 同时也根据社会科学研究问题的特性,发展出了其特有的方法论体系。(社会学所感兴趣的概念通常相对抽象,比如说我们想了解“野心”、“成就”、“能力”、“亲密度”、“幸福感”等,甚至测量爱情。由于这些需求,发展出了很多社会学特有的统计方法。)

  • 如:结构方程模型(SEM,Structural Equation Modeling,专攻潜变量不可直接观测变量),项目反应理论(Item Response Theory,用于教育学领域,测量学生的学业能力)和调查统计方法(Survey Methodology)等。

对定量研究的质疑

  • 社会学与物理学存在着本质上的差异;

  • 社会科学的分析对象是异质性的;

  • 社会科学想要发掘出“放之四海而皆准”是困难的;

老师观点定性和定量不是两种敌人

  • 一般情况下,研究问题是如何产生的——我们发现了一个新的社会现象,对它脑子里产生了很多问号、产生了好奇。于是乎,你可能会和周围的同事、同学聊天,看他们是怎么想的,这就相当于定性研究里的深度访谈;有时候你找到一群人,做一个焦点小组访谈,看看他们对每件事的看法,于是乎比较系统地成立了一个研究假设。所以,通过定性研究,我们需要产生研究问题,建立研究假设。

  • 建立研究假设后,我们不光是需要一个答案,还需要证明、需要证据,把数字摆上台面,于是就需要设计一个定量研究了。通过定量研究,我们要通过各种抽样方法来收集很多数据,然后对数据进行分析、进行描述,可能还为了解答相关性、因果关系做一些统计建模,再回归总体做一些统计推断。

  • 通常情况下,做一个社会学定量研究有两类结果:一种是和正常人常识性的理解特别一致,比如用一万多的样本得出:“男人在离婚后更容易再婚。”另一种是和常理完全相反,比如在1910年的酗酒研究得出酗酒家庭的孩子可能并不一定有任何的劣势。

  • 总得来说,定量研究可能会产生和常理一致的结果,也有可能产生有违常理的结果,产生有违常理的结果的时候,我们感到很新鲜,于是乎又要问一个为什么,有的时候可能需要重新的焦点小组访谈或者深度访谈的方法来回答这个问题,有的时候通过新的问题,要建立新的假设、进行新一轮的定量分析。

  • 随着问题不断出现,从定性、定量再到定性这么一个过程一直是往复循环的,两种方法一直在互为补充。


1.2 数据

数据data

  • 信息收集几乎是所有科学领域的核心,它为我们提供统计分析中的观测值。

  • 社会科学研究通过不同的方法收集数据。相对传统的方法包括调查、实验以及对行为的直接观察等,有时我们也会利用各种统计年鉴及一些因其他目的而获取的数据(如户籍资料、健康档案、税务信息等等)。

  • 网络数据的爆发性积累,网络抓取数据也逐渐成为一种主流的数据获取方法。


数据库 database

  • 将收集来的数据按照一定数据结构来组织、存储和管理,就形成了数据库。

  • 目前,很多高质量的数据都可以从互联网直接获得。

  • 数据提供者通常会提供调查问卷和数据使用说明,更严谨的数据提供者还会共享包括抽样方案(sampling method)、权重(sampling weights)、编码手册(codebook)、缺失值处理方法(imputation of miss values)等内容的多个技术报告。

经典数据库

西方国家

  • 1972:美国综合社会调查(GSS,Genaral Social Survey)

  • 1957:威斯康辛追踪调查(Wisconsin Longitudinal Study )

  • 1992:健康与退休追踪调查(Health and Retirement Study)

  • 1960年代:瑞典双胞胎注册数据库(The Swedish Twin Registry)

随着数据库问卷设计、数据设计方法的不断完善,越来越多的国家开始以这些数据收集的方法为基础建立姐妹数据库,姐妹数据库就大大提高了国家间的数据可比性,为更加严谨的国际的比较带来了无尽的可能。

我国

  • 中国综合社会调查(CGSS)

  • 中国健康与养老追踪调查

  • 中国家庭追踪调查

  • 中国教育追踪调查

  • 中国健康与营养调查(CHNS,1989)


两对概念

总体与样本

  • 研究所观测的个体成为研究对象(subject)。

    对于一个典型的社会科学研究,我们研究的对象通常是人。有时候我们也会研究双胞胎,有的时候会研究一个家庭、一个小组、一个社区、一个学校、一个组织,有的时候还可能是一个国家和一个地区。

  • 总体是指研究所感兴趣的所有对象的集合。

  • 样本是研究所收集的属于总体子集的数据。

Eg:中国综合社会调查

以CGSS2013年的数据为例,该调查的目标总体是全国三十一个省市、自治区、直辖市(不含港澳台)的所有城市农村家庭户,其样本是2013年所收集到的数据。相对全国十几亿人,我们收集到了11438名居民的数据。

社会科学终极的目标是获得关于总体的信息,但对总体的信息收集会受到限制。

参数与统计量

  • 参数是对某一总体特征的数量概括;(Eg:总体的平均数、总体的四分位数、总体的百分位数、总体的方差、总体的最大值、最小值)

  • 统计量是对某一样本特征的数量概括;

  • 在实际研究中,我们感兴趣的实际上是参数的取值,而非从某一特定样本中获得统计量的取值;


统计软件——SAS、SPSS、STATA、R

SAS是对实力用户(power user)是非常强大的,不仅提供了很多数据分析功能,而且提供了非常强大的数据管理功能。对于个人用户来说,SPSS和STATA可能更容易上手。

老师观点:未来,科学传播的途径必然遵循共享性和开放性的原则,所以R是符合这个趋势的。

R语言

  • R是用于统计计算和绘图的一种语言和环境。

  • R提供了多种统计方法与绘图技术,且具有高度扩展性。

  • 活跃于各个领域的R语言爱好者正在痴狂地编写着代码,不断地扩展它的功能。


1.3 随机化原则(Randomization)

统计推断运用样本统计量对总体参数进行推测,这种推测的准确性极大地依赖于样本对总体的代表性。

要保证样本的代表性,就要引入随机化的理念。

随机化是达到良好样本代表性的有效途径,它是保证我们可以将样本特征安全地推广到总体的必要条件。

简单随机抽样(Sapmle Random Sample)

  • 简单随机抽样是大多数统计推断方法的发展基础,这种抽样方法需要确保对象被抽中的概率相等。

  • 如果我们用n来代表样本中研究对象的数量,称之为样本量。那么对简单随机抽样的定义是这样的:

    一个从总体中抽取n个研究对象的简单随机样本与其他相同样本量的可能样本被选择的概率相同。

  • 简单随机抽样体现了公平原则,大大降低了严重偏差,进而导致错误推断的机会。

抽样框(sampling frame):是一个包含总体所有研究对象的花名册。

以计算机生成随机数法为例

  1. 为抽样框中全部研究对象编号;

  2. 用计算机生成包含这些编号的集合;

  3. 从这个编号集合中抽取样本;


1.4 数据收集方法

抽样调查

  • 很多研究从总体中抽取样本,并对样本中的研究对象进行访谈,这种数据收集的方法称为抽样调查。

  • 抽样调查可能是面对面的访谈,可能是电话调查,也可能采取由调查对象自己填写问卷的形式。

  • 抽样调查存在着一些可能造成偏差的潜在问题。


实验研究

  • 有些研究的数据是从一个计划周详的实验中获得,社会科学中较多使用这种方法的自然是心理学。

  • 大多数饰演的目的是比较调查对象当暴露在不同的实验条件时的反应,这些反应有一些结果变量测量。

  • 所谓不同的实验条件是我们研究所假定的可能影响结果变量取值的因素。

例子

  • 在医学研究中,我们通常关心一种即将上市的新药对某种病是否有治疗效果,这时候的实验条件被称为处理(treatment)。

  • 研究对象被分成实验组(treatment group)和对照组(control group),有时还会增加一个安慰剂组(placebo group),参与研究。

  • 研究者此时就需要一个完善的实验设计,将研究对象分组。

  • 一个好的实验设计必然会通过随机化的方法将对象分组,使用的经常是随机数表。

 

观察性研究(Observational Study)

  • 在社会学研究中,我们很少有条件进行一个严格实验。

  • 受到伦理问题和研究问题自身性质的限制。

  • 这时,我们需要使用观察的方法对研究对象的特征进行记录。

  • 观察性研究只对研究对象进行被动观察,而不做任务干预。

  • 大多数社会调查属于观察性研究的范畴

PS:实验研究和观察性研究最根本的区别就在于有无干预(Manipulation),实验研究有所干预,而在观察性研究里,我们很被动,只观测、不干预。

 

科学的核心任务之一是建立因果关系。

  • 遗憾的是,单纯通过观察研究想要建立因果关系是不可能的。

  • 严格来说,只要数据是依靠观察所收集的,所观测数据的形态特征总可能归因于我们没有观察到的某些变量。

  • 对于因果关系比较严谨的证明,还是要通过实验研究的方法获得的。相反,实验研究通过随机分组,使可能影响实验结果的其他因素达到了基本平衡。



推荐文章
评论(0)
分享到
转载我的主页