抽样技术主要概念、术语与问题(兼作复习提纲)(参考答案)

抽样技术主要概念、术语与问题(兼作复习提纲)(参考答案)本文简介:一、主要概念、术语1、(作为数据收集方法的)观察研究,普查与抽样调查,实验设计数据收集有三种类型:观察研究(observationalinvestigationsorstudies)、普查与抽样调查(censusesandsamplesurveys)、实验设计(ExperimentDesigns)。
抽样技术主要概念、术语与问题(兼作复习提纲)(参考答案)本文内容:
一、主要概念、术语
1、(作为数据收集方法的)观察研究,普查与抽样调查,实验设计
数据收集有三种类型:观察研究(observational
investigations
or
studies)、普查与抽样调查(censuses
and
sample
surveys)、实验设计(Experiment
Designs)。在观察研究中,把观察到的事实都记录下来,而不考虑或很少考虑它们对总体的代表性。在普查与抽样调查中,基于样本代表性的观念,把对总体或样本中的每一个成员进行观察得到的事实记录下来。在实验设计中,涉及实验条件的控制。
一个有控制的实验应满足三个条件,而观察数据(observational
data)至少不满足其中一条:(a)
实验在相同的条件下重复进行,从而产生一个非控制误差(uncontrolled
variation)的测度;
(b)
重复实验是相互独立的;
(c)
重复实验所产生的非控制误差源于实验的随机化性质。
科克伦认为观察研究有两个显著的特征:
(a)
其目的是研究可能存在的因果关系(cause-effect
relationships);
(b)
这种研究通过将研究对象以预先确定的非随机方式分成不同的处理组。
但事实上,来自观察研究的数据不能用于检验是否存在因果关系——它仅能暗示这种关系,其程度影响是否值得进一步的实验设计。
“观察研究”最一般的含义是“任何非实验研究”(any
investigation
that
is
not
an
experiment),包括总体的描述性调查(即抽样调查),其基本特征即未对研究对象作任何方式的处理或操纵。自Wold与Cochran始,“观察研究”则用于指称上述集合中的一个子集:即那些目的在于对假设的因果关系(cause-effect
relationship)的研究。
2、非概率抽样;判断抽样,方便抽样,自愿样本,配额抽样,滚雪球抽样
偶遇抽样(方便抽样)(便利样本)即事先不预定样本,碰到即问或自动回答者。例如:未经许可的街头随访或拦截式访问,野生动物的捕获…。这是抽样之初始观念形态,触目皆是。既不求(不愿,不能)问题之甚解,当不以科学的态度对待。
判断抽样(立意样本)即基于调研者对总体的了解和经验,从总体中抽选“有代表性的““典型的“单位作为样本。例如:对民间代表,意见领袖,学者,专家的访谈。该方法常为社会学研究采用。是否典型,非外行所能把握。故此法不宜为统计学研究所用也。
配额抽样即按母体某些特征予以配置样本,但抽样时却由调查员任意抽取。例如:1921年意大利人口普查。此法曾迷惑了统计学家的智慧,但终于有建议以“分层随机抽样”取而代之。
滚雪球抽样(滚式样本)(辐射样本)即利用样本寻找样本。例如:都市中的原住民〖土著人〗样本。样本已是如此的稀有,再要求得方法之“科学”即为奢望。此外,有一所谓“逆抽样”的概率抽样方法试图解决之。
3、概率抽样;有限总体,样本及其四种类型,选取概率;抽样设计;抽样单位,目标单位,抽样框
即。其中,为一确定的有限总体,它是标号的序列;是所有可能的样本的集合,是某些标号的序列,它是有顺序的或无顺序的,它是有重复的或无重复的,在这样的意义下,是确定的;是选取概率的集合,是取中样本的概率,它也是确定的。也可记为,称抽样设计。
一个抽样单元或直接是抽样总体中的一个个体的具体表现或其对应之物,或是抽样总体中的一个个体集的具体表现或其对应之物。抽样单元可以有层次结构:初级单元由二级单元构成。
目标单位组成目标总体,抽样单位(单元)组成抽样总体。目标总体是所要研究对象的全体,
抽样总体是从中抽取样本的总体,它们在实践中并非皆一致。
抽样框由抽样单元组成,是抽样总体的具体表现或其对应之物。常有名录框,区域框,自然框;可为多重抽样框。
4、均方误差(MSE),估计量的方差,估计量的偏差
以估计,所产生的均方误差(Mean
Squared
Error,MSE)定义为,所产生的估计量的方差定义为,所产生的估计量的偏差定义为。三者之间存在如下关系:。
5、抽样误差,非抽样误差
抽样误差是由于抽取样本的随机性造成的样本值与总体值之间的差异,只要采用抽样调查,抽样误差就不可避免。抽样误差是一个一般性的概念,它可以用估计量的方差或估计量的标准差度量。在抽样调查中,抽样误差可以控制,其基本方法是改变样本容量。
非抽样误差是相对于抽样误差而言的,它的产生不是由于抽样的随机性,而是由于其他多种原因引起的估计值与总体参数之间的差异。这些原因主要分为三类:抽样框引起的误差,无回答引起的误差,计量工具引起的测量误差。
6、SRSWOR(数学定义,直观定义)
SRSWOR的数学定义:为有限总体,记为的所有子集,。如果样本的选取概率为:
则称此抽样设计为不放回的简单随机抽样(SRSWOR,Simple
Random
Sampling
Without
Replacement)。
SRSWOR的直观定义:为有限总体,逐个不放回地抽取次:每次抽取时,总体中余下的单元被抽中的概率相等。
7、样本的三种形式
样本的三种形式可分别记为:,,。其中,是标号的集合,之下标没有独立的意义;,是标号的序列,分别是第次抽中的标号;是维随机向量,定义如下:
8、分层抽样,分层随机抽样
分层抽样是这样一类概率抽样,其中:,即有限总体可分为层;,即样本从各层独立抽取;是给定的选取概率的集合,但如何确定却又各种方法。
分层随机抽样是这样一类概率抽样,其中:,即有限总体可分为层;,即样本从各层独立抽取;是给定的选取概率的集合,且,即各层样本以SRSWOR方式抽取。
9、样本的代表性
样本的代表性即样本对总体的代表性。历史上,关于样本的代表性有两种不同的观点。一种观点可称之为立意选取(Purposive
Selection),即最具代表性的样本应与总体在主要变量方面结构一致。另一种观点可称之为随机抽取(Random
Selection),即样本应以概率抽样方式随机取出,其对总体的代表性则以估计量的均方误差度量。两种观点的分歧随Jerzy
Neyman于1934年以论文“On
the
Two
Different
Aspects
of
the
Representative
Method:The
Method
of
Stratified
Sampling
and
the
Method
of
Purposive
Selection”建立抽样理论而消弥。所谓样本的代表性,即只有以概率抽样方式取得的样本,方可用估计量的均方误差度量其对总体的代表性。
10、按比例分配样本,奈曼分配,最优分配
按比例分配样本即以方式分配样本,奈曼(Neyman)分配即以方式分配样本,最优分配即以方式分配样本。当费用函数为线性形式时,最优分配将在给定费用时使估计量的方差最小或在给定方差时使费用最小。
11、查特吉法,累计法
查特吉(Chatterjee)法是用于解决多目标变量情况下样本分配问题的一种方法。大略如下:
累计法是用于确定分层界限的一种常用方法。例示如下:
12、事后分层
在抽样设计中,当几个辅助变量都适宜于分层时(各层比重已知),一个单位属于哪一层要在数据收集到以后才知道(或:各层没有抽样框),因此不能在抽取样本时采用分层抽样。
此时,可在抽取时采用,但在估计时采用分层估计量。比如,估计总体均值的事后分层估计量为,其中,。与一般分层估计量不同的是,此处,为随机变量。
13、简单估计,(分别、联合)比率估计,(分别、联合)回归估计,
简单估计是指当没有任何辅助信息的情况下,样本以SRSWOR方式抽取,估计量为样本数据的线性组合,为各抽中单位所赋权重是相同的。具体而言,指以,或估计总体均值,以估计总体总值。
比率估计是用辅助信息改进估计程序的一种方法。在样本以SRSWOR方式抽取的条件下,比率估计以估计总体比率,以估计总体均值,以估计总体总值。若样本以分层随机抽样方式取得(即辅助信息用于抽样设计),比率估计可以两种方式进行。以总体均值的估计为例,乃分别比率估计,乃联合比率估计。
回归估计是用辅助信息改进估计程序的一种方法。在样本以SRSWOR方式抽取的条件下,回归估计以(为已知的数)或(为样本回归系数)估计总体均值。若样本以分层随机抽样方式取得(即辅助信息用于抽样设计),比率估计可以两种方式进行。以总体均值的估计为例,(为已知的数)或(为样本回归系数)乃分别回归估计,(为已知的数)或(其中,)乃联合回归估计。
14、(总体、样本)回归系数
总体回归系数定义为:
样本回归系数定义为:
15、整群抽样,群内相关系数,设计效应
当在实际中准备采用某种抽样方式,或者如果对此尚未作出决定,正在考虑采用某种抽样方式时,应该经常把这些抽样方式下采用的各种不同单位加以比较。当较大的抽样单位由若干目标总体单位组成时,这种较大的抽样单位可称为群。一旦某一抽样单位被取中,则组成该抽样单位的所有目标总体单位皆被调查,这种抽样称整群抽样。
群内相关系数定义如下:
其中可用估计,可用估计。
在规模相等的整群抽样中,群内相关系数用于表示其抽样效率:
即整群抽样的抽样效率为。
设计效应指与SRSWOR相比,其他抽样设计的设计效应。设计效应定义为:,是其他抽样设计的估计量的方差,是SRSWOR的估计量的方差。
16、有放回不等概率抽样,抽取概率,PPS抽样,HH估计
有放回不等概率抽样是这样一类概率抽样,其中,中之乃有放回抽取所得,且存在,使。
抽取概率(drawing
probability)定义为:,指当容量为的样本被逐次取出时,第次取到标号的概率。
PPS抽样按如下方式抽取容量为的样本:(1)以同样的方式有放回抽取次;(2)每一次都有与抽样单元大小成比例的抽取概率:。
HH估计指PPS抽样中,以估计量估计总体总值,其中乃对第次所取到的抽样单元调查所得的数据,乃第次所取到的抽样单元的相对大小。
17、不放回不等概率抽样,(一阶、二阶)包含概率,PS抽样,HT估计,布鲁尔法,水野法,耶茨-格伦迪法,Raj估计量
不放回不等概率抽样是这样一类概率抽样,其中,中之乃不放回抽取所得,且存在,使。
一阶包含概率(1-level
inclusion
probability)定义为:
,即抽样单元在样本中的概率。
二阶包含概率(2-level
inclusion
probability)定义为:
,即抽样单元、在样本中的概率。
PS抽样按如下方式抽取容量为的样本:(1)样本以不放回的方式抽取;(2)一阶包含概率(1-level
inclusion
probability)与抽样单元大小成比例:。
HT估计指PS抽样中,以估计量估计总体总值,其中乃对样本中抽样单元调查所得的数据,乃抽样单元的一阶包含概率。
布鲁尔(Brewer)法以如下步骤抽取样本:
其一阶、二阶包含概率为:
水野(Midzuno)法以如下步骤抽取样本:
其一阶、二阶包含概率为:
耶茨-格伦迪(Yates-Grundy)方法以如下步骤抽取样本:
其一阶、二阶包含概率并无一般计算公式,故不用HT估计而用Des
Raj估计:
二、主要问题
1、抽样调查主要有哪些作用?
(见教材P6)
2、抽查调查与普查相互关系如何?表现在哪些方面?
(见教材P7)
3、抽样框有哪些主要类型?试各举一例。
(见教材P9~10)
4、试分析估计量的偏差对统计推断的可靠性的影响。
实际工作中,当时,此影响可忽略不计。
5、试分析估计量的偏差对基于MSE的统计推断的可靠性的影响。
实际工作中,当时,此影响可忽略不计。
6、为什么在确定样本容量时需预先估计总体方差?总体方差的预先估计一般有哪些方法?
样本容量根据调查要求或确定。调查要求的方差记为,估计量的方差为,通过以确定样本容量。但的理论公式与总体方差有关,一般用样本方差估计,但样本尚未取出,故实际是不可用样本数据估计的,故需预先估计。
总体方差可用如下方式预先估计:
(1)分两步抽取样本,先有一个含量为
的简单随机样本,从它估计和,然后得所要的;
(2)采用试点调查的结果;
(3)采用以前同一总体或同类总体抽样的结果;
(4)猜测总体的结构,并利用数学的结论。
7、采用分层抽样有哪些实际理由?
使用“分层抽样”的实际理由通常有(Cochran,P128):
(1)如果需要有总体的某些分类数据,且要具有规定的精确度,则将每一个分类看作一个“总体”是合适的。
(2)为便于行政管理而要求分层。
(3)总体的各个不同部分的抽样问题可能显著地不同。
(4)分层可能提高整个总体参数估计值的精确度。
8、历史上关于样本代表性有哪些不同观点?你如何理解样本代表性?
历史上,关于样本的代表性有两种不同的观点。一种观点可称之为立意选取(Purposive
Selection),即最具代表性的样本应与总体在主要变量方面结构一致。另一种观点可称之为随机抽取(Random
Selection),即样本应以概率抽样方式随机取出,其对总体的代表性则以估计量的均方误差度量。两种观点的分歧随Jerzy
Neyman于1934年以论文“On
the
Two
Different
Aspects
of
the
Representative
Method:The
Method
of
Stratified
Sampling
and
the
Method
of
Purposive
Selection”建立抽样理论而消弥。所谓样本的代表性,即只有以概率抽样方式取得的样本,方可用估计量的均方误差度量其对总体的代表性。
9、试比较分析简单随机抽样(SRSWOR)与分层随机抽样。
10、试分析偏离最优分配所产生的影响。
11、在SRSWOR下,试比较分析简单估计与比率估计。
12、试述比率估计的偏差控制方法。
13、采用整群抽样有哪些实际理由?
在许多调查中,人们最初可能打算采用目标总体单位作为抽样单位,但后来发现目标总体单位没有可靠的名单,而编制这份名单的费用太大。而以较大的群单位为抽样单位,则或者有现成的抽样框,或者抽样框的编制容易得多。
即使有了目标总体单位的名单,人们出于经济上的考虑,也会选择较大的群单位。
14、试比较分析群规模相等的整群抽样与简单随机抽样(SRSWOR)。
15、试述HT估计量的最优性质并加以证明。
