袁方 社会学研究方法教程

发布时间 : 星期四 文章袁方 社会学研究方法教程更新完毕开始阅读

[键入文字]

分析两变量间非线性关系的相关比例测量法:测量一个定类变量与一个定距变量相关程度的,即因变量(定距变量)在自变量(定类变量)各值上的差异情况。两定距变量是非线性关系时,可将一个变量看作是定类变量,采取比例相关测量法分析,由于定类变量不具有数量大小的概念,故不存在是否线性相关的问题,因此两个非线性相关的变量关系分析可用相关比例测量法来测量。 <5>定类变量----定距变量:两个变量中,因变量为定距变量时,采用相关比率来测量两者间的相关程度。相关比率,又称eta平

方系数,简写为E,

2E2?(y?y)??(y?y)??(y?y)2i?2??2

其中,

y是因变量y的平均数,yi是在每个自变量值(xi)上因变量的平均数。E=E22??,其值在0-1之间。E具有消减误

2差比例的含义。eta平方系数的计算公式可简化为E??Ny?Ny?y?Nyii2?2?2?2其中Ni是自变量值xi的个案总数,N是全部调查

对象总数。相关比例测量法基本上是用于分析非对称关系的,但要求并不严格。

<6>定类变量----定序变量:(A)用theta系数,简记为?,其值在0-1之间。?系数是专门用于测量定类变量与定序变量间关系有无和强度的,它测量的是变量间非对称关系,并且不具有消减误差比例的含义。(B)采用测量两个定类变量关系的?系数和?y系数,即将定序变量作为定类变量处理。虽然这样做会损失数据的某些信息,如等级差别,但方便了统计分析工作,因此在社会研究时大多数人都采用这两个指标分析一个定类变量与一个定序变量的关系。

<7>定序变量---定距变量:(A)将定序变量看作是定类变量,采用相关比例测量法。(B)将定序变量看作是定距变量,采用r相关系数。严格地说,低测量层次变量不能使用高测量层次的统计指标,但在有些情况下,由于这种提高测量层次的方法给研究结果的解释带来的危害程度不大,大部分社会学家还是接受了这种做法。

(4)一元方差分析:是关于一个定类变量和一个定距变量关系的分析。二元方差分析是对于两个定类变量与一个定距变量的关系的分析。依此类推 ,n元方差分析是指n个定类变量与一个定距变量关系的分析,二元以上的方差分析都叫做多元方差分析。方差分析是由对变量间相关关系的分析,到建立描述变量间因果关系得一般线性模型的过渡,后者是大多数多变量分析方法的核心思想。

<1>总离差平方和:TSS=

??(yi?1j?1mniij?y)2。表示全体观测值yij对总平均数(推测值)的离差平方和。

?<2>组内离差平方和(人大99<名>:残差):RSS=

??(yi?1j?1mni2,表示各观测值队本组平均数的离差平方和,它不是由自?y)iji?变量而是由其他未知因素引起的。又称剩余平方和。 <3>组间离差平方和: BSS=TSS-RSS=

?n(y?y)iii?1m??2,表示各组的平均数与总平均数的离差的平方和。它是由于自变量值xi的不同引起的差异。

<4>F?BSS/df1RSS/df2其中df1、df2分别是BSS与RSS相应的自由度,df1?m?1,df2?N?m(m为变量x值的类别

数,N为观测总数)。df1?df2?df即F?BSS/m?1,F越大就表示x与y越可能相关。 由此可见,方差分析的基本

RSS/N?m思想就是把推测的全部误差(TSS)分为两部分;可被自变量x消减的部分(BSS)和剩余部分(RSS),然后从这两部分的相互比较中看x与y是否相关。如果两个变量一个定序一个定距,当把其中的定序变量看作为定类变量时,也可以使用方差分析,

第 33 页 共 49 页

33

[键入文字]

实际上许多社会调研人员都是这么做的。

(5)一元回归分析:是对相关的两个变量间关系的具体形态的一种深入分析。它不仅分析两个变量关系的有无、大小和方向,而且要了解两个变量具体是以什么方式发生关系的。回归分析是一种因果分析,它是根据两变量间关系的具体形态,选择一个合适的数学模型,用来近似的表达变量间平均变化关系,这个数学模型就是回归模型。一般用于分析定距变量间的关系,它除了具有描述和说明这种关系的功能外,还具有预测的功能,这也是相关分析所不及的。

<1>一元回归模型:对于已知相关的两个变量x与y,架设他们之间是一种线性关系,则对这一关系可以用一元线性方程y=a+bx表示,其中的a和b是待定系数。这个方程叫做回归方程,b称为回归系数,a称为截距,即x=0时,y的值。a与b的计算公式:

?(x?x)(y?y)?N(?xy)?(?x)(?y) a?y?bx??y?b(?x) b?NN?x?(?x)(x?x)??????222<2>散点图与回归直线: 为了直观的看出x与y的关系形态,往往先作关于所调查的数据的散点图,即在直角坐标系中,将由每一横坐标xi与相应的纵坐标

yi(i=1,2,---n)所确定的点标示出来。x与y间存在一种线性关系时,虽然有多条直线来近似的刻画这种关

系,但其中只有一条直线的代表性最好,这条直线就是回归直线。回归直线的方程就是回归方程,回归方程中的a就是回归直线的y轴的截距,回归系数b就是回归直线的斜率,b值具有描述自变量对因变量的影响的大小和方向的作用。

<3>回归系数与r相关系数:回归系数与r相关系数都是描述两个定距变量间的线性关系的指标。r相关系数十一种对对等关系测量法,它反映的是两个变量有无关系,关系的强弱,但它不能给出一个变量x有

x的变化时,y的变化y具体有多大。b值可

以做到这种区分,不过b值却无法反映两个变量间关系的强弱。此外,b与r值不同的是,b值所描述的是一种因果关系,而相关关系只是因果关系的必要条件。尽管有上述不同,但回归分析与相关分析之间有着密切的关系,实际上r值所要表示的,就是以回归方程作为预测工具时所能减少的误差比例,r值越大,就表示回归方程的预测能力越强,即散点图中的点越靠近回归直线。因此,我们用r作为决定系数,在社会研究中往往要先计算r值,然后再决定是否用回归分析进行预测。

<4>回归分析的作用:回归分析模型是一种因果关系模型,因为增加了因果关系,因此与相关分析相比,它的作用也大于相关分析。除了具有与相关分析同样的简化资料的功能,还增加了预测的功能,即当得到了两个变量x与y的回归方程后,就可以从自变量的值经回归方程计算出y的预测值。

但应当注意的是,应用回归方程来预测因果变量时,一般不应使用超出资料所包括范围的自变量的数值,因为回归线段以外未观察到的点可能出现非线性的趋势。此外,预测的回归方程式只能反映一定时期内事物之间的相互关系,随着时间的推移,这种关系会起变化,因此回归模型也要作相应的修改,如果这时还使用原来的模型作预测就会得到错误的结论。回归分析在应用时有许多假设前提,例如其关系是线性的,自变量无测量误差等等。 118、

单变量与双变量的统计推论: (1)统计推论的一般概念:统计推论分两类<1>参数估计(复旦97<简>:什么

叫统计推论?其特点是什么):就是根据一个随机样本的统计值,来估计总体的参数值。 <2>假设检验:是首先对总体的情况作出假设,然后抽选出一个随机样本,以这一样本的统计值来检验原先的假设是否正确。社会调查研究中大多采用假设检验的统计推论方法。(2)参数估计:分为: <1>点估计(复旦97<简>:进行总体参数的点估计时,衡量估计值的好坏标准有哪几条):就是从一个适当的样本统计值来估计总体的未知参数值。缺点是无法了解这种估计和推测的可信程度如何,区间估计可以弥补这一缺陷。<2>区间估计(浙大2001<名>;南大2000<名>):就是通过样本统计值来推测总体未知参数的可能范围。这一可能范围的大小,取决于我们在估计时所要求的可信度(即置信水平)的高低,对于同一样本,如果要求这种估计的可信程度越高,则总体参数的可能范围越大,反之越小,这一可能的范围2称为置信区间(南大2000<名>,人大02、06名),显然,置信水平与置信区间成正比。

(A)区间估计的一般程序:(a)确定置信水平。(b)计算标准误差。(c)根据样本统计值和标准误差确定置信区间。 (B)平均数的区间估计: (a)当总体方差?已知的时候,根据抽样分布理

2

第 34 页 共 49 页 34

[键入文字]

论,

Z?x?M??n满足标准正态分布N(0,1),式中n为样本容量,M为待估总体平均数。区间

??????????x?Z,x?Z?/2??/2?????为待估平均数M、置信水平为1-?的双侧置信区间。在置信水平为95%时,总体平均数

?n??n?????????????2

的置信区间为:?x?1.96?(b)当总体方差?未知时,分两种情况:a:当n?100时,总体平,x?1.96????。

?n??n???均数的双侧置信区间为:

S?S???x?t,x?t?/2??/2?nn??。

t?/2值需要查t分布表。

S?S???b:当n?100时,总体平均数的双侧置信区间为:?x?Z?/2,x?Z?/2?。从上面的公式可知,置信区间与样本大小成反

nn??比。只要将样本加大,就可以提高估计的精确程度。 (C)方差的区间估计:(a)当样本n?100时,由抽样分布理论可知,

n?1?2?(n?1)S2(n?1)S2?S??满足自由度为n-1的?分布。对于给定置信水平1-?,区间?,2?即待估总2?1?a/2???a/2222体方差?的双侧置信区间,?a/2,?1?a/2的值可由?分布表查出。(b)当样本n?100时,总体方差在置信水平1-?下的

2222?(2n?2)S2(2n?2)S2?,双侧置信区间为??。由总体平均数与方差的讨论可知,总体参数的区间估计方法的选择除

?2n?1?Z?/22n?1?Z?/2?考虑参数的类型以外,还应考虑样本的规模。在大样本的情况下,常采用正态分布,而在小样本时,则要采用其他类型的分布。 (D)总体成数的区间估计:当样本规模n?100时,总体成数的双侧区间估计是:

P?Z?/2?P(1?P)n,其中?=1-置信

水平,Z?/2值由查正态分布表得到;P为样本成数;P为总体中某类所占百分比,当总体成数未知时用样本成数代替。有时,我们还要对两个总体均值差或成数差进行估计。这时,若两个样本都是大样本(n1>100,n2>100),则两个总体均值差的双侧置信区间为: 2?????12?2?,??(x1?x2)?Z?/2n1n2??????22???(x1?x2)?Z1?2??/2?n1n2????成数差的双侧置信区间为:

???PP2(1?P2)? 1(1?P1)?,??(P1?P2)?Z?/2nn 12???? ??P(1?P)P(1?P)112???2 (P1?P2)?Z?/2n1n2???? 第 35 页 共 49 页

35

[键入文字]

在?1,?2未知时用S1,S2代替。在两个总体成数未知时,用对应的样本成数代替。

(E)r相关系数的区间估计,在置信水平1-?的要求下,总体r相关系数的置信区间可由如下方法求出:首先将样本相关系数带入公式:Z=1.151log

'22221?r1?r中求出Z值,则总体Z值得置信区间为?Z''??'?Z?/211?,Z'?Z?/2?,由上式

n?3n?3?Z'=1.151log

1?r,将两值对应的两个r值求出,这两个r值即为相关系数的置信区间端点值。 1?r(3)假设检验:<1>定义:如果经验资料是由抽样调查获得的,由资料计算出的结果还不能马上验证原有理论假设是否为真,而要首先对这一结果的显著性进行检验,即检验这结果是否对总体具有显著的代表性,这种与抽样调查结合在一起的显著性检验称为统计假设检验,简称假设检验。 <2>当样本资料与原假设不符,有两种可能:(A)原假设错误。(B)样本缺乏代表性。因此,如果不对样本的代表性进行检验,剔除因样本代表性所产生的结果与假设不符的情况,而否证原理论假设,就有可能抛弃正确理论假设的错误的危险。同理,在样本结果与原假设相符的情况下,有可能犯以假当真的错误 <3>假设检验的一般概念: (A)原假设与备择假设。原假设又称虚无假设(人大03名),一般用H0表示,它常常是根据已有的资料或根据周密考虑后确定的。但直接用于假设检验的不是原假设,而是所谓的备择假设,又称研究假设,备择假设就是与原假设相反的假设,用H1表示,它是当原假设被推翻时需要接受的假设。假设检验依据的是小概率原理,就是说小概率事件被认为是在一次观察中不可能出现的事件,因此,如果再一次观察中出现了小概率事件就应当否定此事件是小概率的说法。假设检验的逻辑就是求出H0是正确的可能性,如果能证明这种可能性极小,就应否定H0,接受H1。 (B)显著性水平与否定域(接受域):显著性水平(人大99,08<名>:显著度;南大99<名>):是指假设成立的标准,即小概率的值,用?表示。显著性水平意味着总体参数值与样本统计值具有同等特性的概率为1??,抽样误差不超过?。在进行研究时,通常是先决定显著性水平的大小,若样本统计值达到这一水平,则可确认样本具有较好的代表性,原假设可以成立。拒绝域(人大00,04名):就是在显著性水平下,拒绝原假设H0的区间,它位于抽样分布的一端或两端的小区域内,根据小概率原理,当由样本算出的统计值落入此区域内时,则原假设被否定。反之接受域就是接受H0的区间,它位于抽样分布的中间区域内,若由样本算出的统计值落入此区域内,则接受H0。(C)双边检验(人大09简答)与单边检验(人大05名,02简答简述假设检验中双边检验与单边检验的区别):拒绝域位于抽样分布两端的检验即双边检验。当拒绝域只集中在抽样分布的右端,则叫作右侧单边检验,如果是在左边就叫做左侧单边检验。一般来说,双边检验较单边检验更难否定H0,因此在提出备择假设时,最好说明方向。<4>假设检验的步骤:(人大08论述论述假设检验的基本思想、步骤及在统计分析中的具体应用)(A)建立原假设H0与备择假设H1。(B)根据总体的分布形态和变量的测量层次以及样本的规模等,选择能反映H0的统计量和确立H0成立条件下的这一统计量的分布。(C)根据问题的需要,规定适当的显著性水平?,并据此确立拒绝域或接受域。(D)根据样本统计量的观测值进行判断,若其落入拒绝域,则拒绝原假设,接受备择假设,反之接受原假设。<5>弃真与纳伪(人大00简答简述假设检验中的两类错误,09简答):在进行判断时,无论是作出拒绝或接受假设的判断,都不会百分之百的正确,都会有一定错误。(A)判断的第一类错误是弃真的错误:即原假设反映了客观世界的真实情况,但却在检验中被作为错误的看法而加以拒绝。犯弃真错误的概率为?。(B)

第 36 页 共 49 页

36

联系合同范文客服:xxxxx#qq.com(#替换为@)