袁方 社会学研究方法教程

发布时间 : 星期四 文章袁方 社会学研究方法教程更新完毕开始阅读

[键入文字]

分数。 112、

定量资料的整理: (1)资料的审查:<1>完整性审查:(A)资料总体的完整性。(B)每份资料的完整性。<2>统

一性审查:首先是检查所有问卷、报表登记填报方法是否统一;其次要检查对同一指标的数字所使用的量度单位是否一致,以及不同表格对同一指标的计算方法是否统一等。对于统计资料的统一性审查包括:(A)审查指标的定义和分组的标准是否与自己研究的分类相一致。(B)审查指标统计总体范围是否一致。 <3>合格性审查:(A)提供资料者的身份是否符合所规定的调查对象的身份。(B)所提供的资料是否符合填报要求。(C)所提供的资料是否正确无误。方法:(a)判断检验。就是根据已知情况判断资料是否真实正确。(b)逻辑检验。即从资料的逻辑关系来检验其是否正确真实。(c)计算检验。通过各种数字运算来检验各项数字的正确性。<4>整个审查要经历三阶段:(A)由调查员进行审查。(B)有现场专职的检查员进行检查。(C)调查结束后(2)资料的分类和编码:<1>编码(复旦98<名>;人大04名):就是将文字资料转化为数字形式的过程。编码的目的使用一组变量表示各项调查问题,用每一变量的不同取值表示对这一问题的不同回答,从而使文字资料转化为数字形式。<2>编码步骤:(A)对回答进行分类。(B)建立回答类别与变量数值之间的对应关系。(C)注意:(a)对于开放性问题,因实现不能预料到答案的情况,故无法在设计问卷时事先分类,这时,编码就要从对问题的回答进行分类开始。(b)一般的讲,开始时分类可细一些,当分析不要求过细的分类时可以将某些类别进行合并。分类的多少还要考虑统计分析方面的问题。(c)任何调查都不免有一些回答这对一个问题不做任何回答的情况,为此对问卷中的每个提问要增加一个无回答编码。对无回答编码的原则是明确区分无回答与其他回答,通常的习惯是用9或几个9来代表无回答。对无回答的项目,不能一概简单地认为是缺失数值或回答率低。统计缺失数据时,应结合回答人的情况分析。如行政人员不回答“技术职称”是正常的。<3>编码项目:问卷编号、问卷所属区域或部门、其他要进行统计的分类标准。<4>编码方法:(A)预编码:方法是在设计问卷时对回答的每一个种类都指定好其编码值,并印在问卷上。预编码主要限于回答类别事先已知的问题,这些问题主要是封闭性问题,或回答已经是数字而不需要做转换的问题。优点:处理资料时比较简单,省时省力。缺点:无法用于开放性回答,因为我们无法事先知道回答的种类。(B)后编码(南大2000<名>):是指对问卷的编码过程是在问卷回收之后进行的,而不是与问卷设计同时进行的,多用于对开放性问题的编码。比较费时费力。(C)边缘编码:实际上是一种预编码方法,它与一般预编码的不同之处在于,这种方法不仅指定了编码值,而且给出了每个项目记录回答的空间,现在应用得最多。边缘编码是在问卷上每个调查项目旁边的空白处标明填写编码的位置。问卷回收后,将每份问卷上的回答变成指定位置上的编码。(D)编码簿:用以指示每个编码的意义和变量的位置。作用是建立变量和调查内容、变量值与回答类别的一一对应关系。它可以(a)作为编码工作的指南。(b)使研究者在分析过程中便于查找变量及各种编码所代表的意义。(E)编码簿的主要项目:(a)问题号码。是在调查表或问卷上的问题的题号,有了题号就可以知道这一题目在资料卡片上的哪几列。(b)变量号码。有了变量号码,研究者可以知道变量的代号,方便分析计划的拟定,在分析时直接饮用变量号码而不必提及变量名称。(c)项目名称。又称变量名称,用概括性语言表明项目的含义。(d)编码的内容说明。即给出每一(3)资料的登录:<1>个案登录:即将各个调查对象的全部数据资料以编码的形式记录在一张张卡片上,即建立个案档案。<2>总体登录:即将所有调查对象的全部数据记录在一张资料卡片上,这种方法适用于为电子计算机处理作准备。(4)资料的汇总:就是根据研究目的,对分类后的各种数据进行计算和加总,汇集到有关的表格之中,以集中系统地反映调查资料总体内部的数量情况。汇总的目的:<1>初步了解数据的分布情况。<2>为编制次数分布表作准备。<3>为深入的统计分析作准备。<4>便于保存调查资料。 113、

计算机处理资料的一般过程。(1)输入前的准备:<1>资料的审查。<2>资料的分类与编码。<3>登录,即将问卷中

的回答转录到资料卡片上。一般将编码、登录与数据输入过程结合起来,为此,越来越多地采用也边编码的方式。(2)输入数据:指通过对计算机输入设备的操作,将资料卡片中的资料送入计算机贮存起来,以备调用。输入方式:<1>键盘输入;<2>卡片输入;<3>光电输入。(3)资料的净化(复旦98<简>:对录入的数据进行检查的主要方法):<1>幅度检查(北大99<名>):使用一个自编的简单程序或者已有的统计软件可以将某一变量的分布显示出来,这样就可以检查出一部分错误。例如,变量性别的取值只有两个-----1(男)、2(女),因此,5和8是违规数字。这样,我们首先了解到,性别这个变量的数据有错误。然后,我们可以变出一个程序列出含有性别变量的违规值的学生的编号,通过核对问卷,就可以知道这些违规值是如何出现的,以及如何修正了。<2>逻辑检查:利用变量之间的逻辑关系来净化资料。(4)数据的处理。

第十五章:资料的统计分析

第 29 页 共 49 页

29

由调查组织机关的检查员进行检查,重点是检查回答登记错误,计算错误及调查员是否对英调查对象均进行了调查,有无作弊等。

项目问题答案的分类以及分配给每一类别的数字。(e)列序号。即每一项目应当占哪几列。

[键入文字]

114、 115、

统计分析的作用:(1)可对资料进行简化和描述。(2)可对变量间的关系进行描述和深入地分析。(3)可通过样本统计分析的步骤:(1)对应用统计分析的前提条件进行考察。统计分析是建立在树立统计理论基础上的,因此他的

资料推断总体。

应用必须满足一定的理论前提。(2)制定统计分析方案:<1>再次确定自变量与因变量。<2>定义复合变量。问卷或调查表上出现的各个变量,一般称为基本变量或原始变量。用基本变量组合而成的新的变量,称作复合变量。<3>变量分组:将类别或属性相同的变量组合成有意义的数组。<4>提出统计计算的要求并提出适当的统计方法。(3)选择统计分析方法的原则。必须根据研究目的和资料本身的特点选择适当的统计分析方法。从研究目的考虑:是描述性研究还是解释性研究。描述性研究在于说明某种社会现象的状况;对于解释性研究,除了采用描述性研究的方法外,还要使用控制变量、建立因果统计模型和分类及综合变量等多种统计分析技术。研究资料的性质,主要考虑:<1>变量的测量尺度;<2>资料的收集方法;<3>数据的分布形态;<4>变量的个数。(4)对于统计结果的解释。统计分析是一种定量分析方法,但任何具体的两都是有质的规定性以及数量关系背后的社会背景情况,如果不了解这种质的规定性以及数量关系背后的社会背景情况,就可能做出肤浅、错误的甚至荒谬的解释。因此,对于统计结果的分析,有赖于对事物作深入地观察和了解,决不能凭表面的数据就轻易的下结论。 116、

单变量的统计描述:(人大04简答 怎样对不同尺度的单个变量做描述性统计分析)(1)变量的分布:<1>频次分

布:就是变量的每一取值出现的次数。对于连续性变量,如定距变量 ,频次的计算必须分组进行。其中每组上限即下一组的下限,通常将下限包括在本组中,每组用组中值表示。<2>频率分布:用变量每个取值的频次数除以总个案数,他是一个相对指标,派出了样本规模的影响,因而可以用来比较不同的样本。一般频率分布使用比率的形式表示的。(2)统计图与统计表。<1>统计表就是以表格形式来表示变量的分布。在制作统计表时,如果有未回答或回答不符合要求的情况,可以有两种处理方法:(A)仍以调查总数为基础计算频率,这时应加入一类:未详。(B)以有效回答为基数计算频率,这时应在表的下面、紧接着表的地方注明:未详****户。<2>统计图:是以图形表示变量的分布情况。统计图虽然不如统计表精确,但是更直观、生动、醒目。(A)圆瓣图:是用一个圆代表现象总体,每一瓣代表现象中的一类,其大小代表他在总体中所占的百分比频率。(B)条形图:多用于描述定类与定序变量的分布,他是以长条的高度表示变量不同取值的频率分布的,其中长条的宽度没有意义,一般均化成等宽长条。长条的排列可以使离散的,也可以使紧挨着的。(C)直方图(人大02、08名):是由紧挨着的长条构成的,与长条图不同的是,他的条的宽度是有意义的,实际上它不是用长条的高度而是用长条的面积表示频率的大小,长条的纵轴高度表示频率密度(频率密度=频率/组距),长条的宽度表示组距。直方图仅适用于定距变量。(D)折线图:是用直线连接直方图中条形顶端的中点而成的。当组距逐渐减小时,折线将逐渐变为平滑,趋向为曲线。(3)集中趋势分析:是从一组数据中抽象出的一个代表值,以代表现象的共性和一般水平。除可以说明某一社会现象在一定条件下数量的一般水平外;集中趋势还可以对不同空间的同类现象或同一现象在不同时间的状态进行比较;以及分析某些社会现象之间的依存关系。<1>众数Mo(北大92<问>:试用分布理论简述算术平均数、中位数和众数三者之间的关系):就是出现频率最高的变量值。众数可以适用于任何测量层次的变量,对于定类和定序变量,众数可直接从变量的频率分布中观察到;对于定距变量,如果变量是在第I组具有最高的频率密度,则用第I组的组中值表示变量的众数。<2>中位数Md:是将观察总数一分为二的变量值。若将数据从小到大顺序排列,则Md取值于(N+1)/2处的变量值。当N为偶数,由于(N+1)/2处无数值,取中间位置左右两数的平均值。对于经过分组的资料,中位数的位置则是通过计算累计百分比频率得到的。即首先计算出含有累积频率50%的区间,然后求出这个区间的上下限值(U、L)最后利用公式(参见教材)计算中位数值。中位数一般用于描述定序及定序以上的测量尺度的变量的集中趋势。<3>平均数:仅适用于定距及定距以上变量,但有时也可用于定序变量。如求平均等级。对于分组值,一般用组中值来代替变量值,然后加权平均计算平均数。需要指出的是,用组中值计算的加权平均数知是用原始数据计算的平均数的近似值。由于分组是人为的,所以在变量分布不均匀的情况下,不同的分组会有不同的结果。<4>分布与三值的关系:正态分布时,三值重合;偏态分布中,三值不重合,在正偏态时,由于左边频次密集,这使得中位数偏向左方,但由于右侧的变量取值大,故平均数叫中位数偏右,即平均数>中位数>众数;而在负偏态时则相反,有平均数<中位数<众数。(4)离中趋势分析:用以概括描述数据间差异程度的统计指标。与集中趋势相比,二者区别:<1>集中趋势描述的是现象的共性,而离中趋势描述的是现象的差异性,如果离中量数大,说明数据分布很分散,这时集中值对数据的代表性低;反之,则说明数据的分布很集中,集中值对数据的代表性高。<2>在由样本资料推论总体(5)常用的李中趋势测量指标:<1>异众比率:即非众数的各变量值得总频数在观察总数中的比例。可见,异众比率是对众数的补充,异众比率越小,说明众数的代表性越好。<2>极差:是对定序及定序以上尺度的变量离散程度的测量。它等于最大观察

第 30 页 共 49 页

30

时,集中值告诉我们的是如何去估计与预测总体,而离中趋势则告诉我们这一估计与预测的误差大小,因此,两者是互补的。

[键入文字]

值与最小观察值间得差。极差越小说明资料分布越集中。<3>四分互差(复旦97<名>):也是对定序及定序以上测量尺度的变量离散程度的测量指标。把一组数据按序排列,然后分成四个数据数目相等的段落,各段分界点上的数叫作四分位数,即第一个四分位数Q1以下包括了25%的数据,Q2是中位数,第三个四分位数Q3以下包括了总数据中的75%的数据。四分互差就是第三个四分位数与第一个四分位数的差,即Q=Q3-Q1。优点是可以克服极差中几支队资料分散程度度量的干扰。四分互差的间距越小,说明中位数的代表性越大,数据分布越集中。对于分组数据,求Q1与Q3的方法也可以用线性插值法或直接用公式(参见教材) 进行计算。其中L1、L3为含有累计百分比25%与75%的区间的下限,U1、U3为对应上限,n1、n3为含有累计百分比25%与75%的区间的频次;cf1与cf3为含有累积百分比25%与75%所在组以前组的累积频次。(4)方差与标准差。只适用

2于定距变量。方差等于每一观察值与其平均数的差的平方和除以观察总数,即而标准差则是它的正平方根。 ?2(xi?x)(5)离散系数与标准分数:离散系数是标准差与平均数之百分比:(公式参见教材)标准分数:(公式参见教材)将原始数据标

?确定原始数据在总体分布中的位置;?准化有两个作用:<1><2>对不同分布的各原始数据进行比较。

117、

双变量的统计分析:(1)列联表(北大92<名>;人大98<名>:偏表、边缘表):<1>定义:又称交互分类表,所谓

?N交互分类,指同时依据两个变量的值,将所研究的个案分类。交互分类的目的是将两变量分组,然后比较个组的分布状况,以寻找变量间的关系。这样的表又叫作条件次数表。表的最下一行和最右一列分别是每类地区和每种产业的总次数,称为边缘次数。其分布称为边缘分布。其余的次数称为条件次数。每一条件下的分布称为条件分布。<2>注意:(A)在制作条件百分比列联表时,一般应将自变量放在表的最上端横行位置上。因变量放在表的最左一列。计算百分比通常是按照自变量的方向,因为研究的目的是要了解自变量对因变量的影响,因此应计算在自变量不同取值情况下因变量的变化情况如何。 (B)在制作列联表时,应在<3>列联表的作用:(A)具有对变量进行描述的作用。(B)可对不同类别进行比较。(C)是对变量关系的一种解释性分析。 <4>列联表应用:可用于各种测量层次的变量,在用于定序变量时,变量应按取值的大小顺序排列。用于定距尺度的变量时,需要事先进行分组,然后以组的首尾相接顺序排列。<5>列联表的优点:直观、资料丰富,不仅可以看到关系的有无、大小,而且还可以了解这种关系得详细结构。 (2)消减误差比例(人大08名pre准则;99简答简述削减误差的比例与相关系数的关系07简答简述构建统计相关性指标中PRE准则):是指一种对变量间关系的测定,简称PRE。假设在不知道x的情况下,对y进行预测的全部误差是E1,在知道x的情况下,由x预测或解释y的总误差为E2,则由x预测或解释掉y的误差为E1-E2,消减误差比例PRE=(E1-E2)/E1。PRE越大,表示以x预测或解释y时所减少的误差越多,即x与y的关系越强。换言之,PRE的值表示的是用一个社会现象(x)来解释另一个社会现象(y)时,能够消除百分之几的错误,即x对y的解释力有多大。PRE的值在0与1之间,当E2=0时,PRE=1,说明x与y完全相关,x能百分之(3)相关分析(复旦96<名>:相关关系;南大99<名>:相关系数;南大95<名>:相关分析 ):相关,就是指两个变量间存在一种连带关系,即当一个变量的值发生变化时,另一个变量的值也相应地发生变化。相关分析就是以一个统计指标是变量与变量间的关系,这个统计值称为相关系数。通常大多数相关系数取值在0与?1之间,0代表无相关,?1代表完全相关,相关系数越大,表示相关程度越强。<1>注意:(A)虽然相关系数可以描述变量之间关系的有无、大小和方向,但相关系数多大时才能断定两个变量有必然的、规律性的联系,是很难说的,在统计学中,需要大到0.7以上,但社会现象间很少有这样密切的联系,所以研究人员一般要结合定性分析来断定是无内在的、本质的联系。 (B)数据所显示出的相关(或无关)关系,实际上也可能并不反映变量间存在有意义的关系。 <2>定类变量==定类变量:(A)Lambda系数:(a)对称形式,用?表示,即用于测量的两个变量间的关系是对等的,即无自变量与因变量之分。(b)非对称形式,用?yx表示,几所测量的两个变量间有自变量与因变量之分,x为自变量,y为因变量。(公式见教材)其中, =Y变量众数的频次; =Y变量每个取值之下的X变量的众数的频次; =Y变量每个取值之下的X变量的众数的频次; 为X变量的每个取值之下的Y变量(B)Tau-y系数,简称 系数,它是测量变量间非对称关系的,其中y为因变量,x为自变量。 系数也具有消减误差比例的含义。 通常都用经过简化的公式:计算,其中 (j=1,

)为 的边缘分布次数, 为 (i=1,

)的边缘分布次数; 为同属于 和 的

个案总数。 的取值在0-1之间。通常 值比 值更好,但 值较 值易于计算。此外,二者都是测量变量间非对称关系的,因此 与 、 与 的意义是不同的。<3>定序变量---定序变量:(A)Gamma系数:一般用G表示,它适用于分析两个变量间的对等关系,即两个变量无所谓自变量与因变量之分。G系数具有消减误差比例的含义。

表的最后一行汇出自变量各类数值的个案总数,并以括号括起来。

百解释y的变化;若E2=E1,则PRE=0 ,说明x与y之间没有关系,x对y无解释力。

众数的频次;N= 调查对象总数。Lambda的取值在0-1之间。Lambda系数具有消减误差比例的含义。

第 31 页 共 49 页 31

[键入文字]

G?同序对数?异序对数

同序对数?异序对数其值在-1到+1之间,既表示相关程度,也表示相关方向。式中同序对是指某个案在两个变量上的相对等级是相同的,异序对是指某对个案在两个变量的相对等级上是相反的。

G系数是分析两个等级序列的关系的,故又称等级相关系数,在社会研究中,它所涉及的往往是研究对象本身的的某两种特征间的等级关系。 在等级分布表中,有时两个个案分数相同,分不出高低,这是一般用两级的平均值作为这两个个案的等级。

Tx表示仅在变量x上同等级的对数,Ty表示仅在变量y上同等级的对数,Txy表示在两个变量上都同级的对数。Tx、Ty、Txy叫做同分对,G系数不考虑同分对,而只考虑同序对与异序对。

大规模调查中资料的等级分布往往是用列联表的形式给出的,这时,同序对数量等于表内每个频次乘以其右下方全部频次之和,然后加总。而异序对数量则等于表内每个频次乘以其左下方全部频次之和,然后加总。

(B)dyx系数,与G系数一样,dyx系数也是等级相关系数,其值也在-1到+1之间,也具有消减误差比例的意义。不同于G系数的是,dyx系数测量的两个变量间的关系是非对称性的,即所测两个变量有自变量x与因变量y之分,因此,其计算公式:

dyx?同序对数?异序对数同序对数?异序对数+仅在y变量上同等级的对数

当资料是以次数列联表形式给出时,同序对与异序对的数量计算方法同G系数,Ty等于列联表中的每个频次乘以它有面的所有同行频次之和,然后加总。

(C)斯皮尔曼等级相关系数(Spearman),一般用?表示。与G系数和dyx系数不同,斯皮尔曼相关系数不失考虑个案对在两个变量上的相对等级,而是考虑单个个案在两个变量上的等级差异,它在计算每个个案在两个变量上的等级时,不仅要做高低的比较,还要考虑等级的差异是多少。

以Di表示第i个调查对象在两个变量上的等级差异(xi?yi),xi为它在x变量上的等级值,yi为它在y变量上的等级值,N

表示全部调查对象总数,则??1?6?Di2N(N?1)2,?取值在-1到+1之间。

斯皮尔曼等级相关是以没有相同等级为前提的,如果某些个案在同一变量的等级是相同的,且相同等级不太多时,可取其平均值。 <4>定距变量---定距变量:最常用的是皮尔森相关系数:用r表示,

r??(x?x)?(y?y)?(x?x)??(y?y)ii?2?ii???

2其中,x是变量x的平均数,xi为x变量的第I个观察值;y是y变量的第I个观察值。r值在-1到+1之间。

r系数要求调查对象的成对资料N?50而且两个变量的分布应近似于正态分布。r系数是测量的两个变量间对等关系的,并且,r的平方值具有消减误差比例的含义。在实际计算时,一般采用下属经过简化的公式:

?r?N?xiyi?(?xi)?(?yi)N?xi?(?xi)22N?yi?(?yi)2变量x与变量y间存在线性关系这一假设,是r系数的前提,如果两个变

2量间的关系不符合线性相关的假设,用

第 32 页 共 49 页

r相关系数进行分析就会犯错误。

32

联系合同范文客服:xxxxx#qq.com(#替换为@)