第一讲SPSS数据预处理操作.

发布时间 : 2024/4/29 4:09:11 星期一文章第一讲SPSS数据预处理操作.更新完毕开始阅读

SPSS数据文件的建立

如上一章所述，建立SPSS数据文件有两种方法：一是在SPSS中直接输入，二是从其他数据文件转入。重点介绍第一种方法，它类似于在FOXPRO建立数据库。首先，在SPSS Variable View窗口中建立数据文件结构，如定义变量类型、宽度、标签等；然后在SPSS Data View窗口输入数据，并保存为“.sav”格式的SPSS数据文件。通常情况下，调查问卷的数据文件建立与录入都是采用第一种方法。在问卷数据录入前，还必须对问卷选项进行编码。 2.1 问卷设计及数据编码 2.1.1 问卷

一份调查问卷的结果通常表现为文字型和数字型两大类，其中文字型包括二项选择问题、多项选择问题、排序问题、开放式问题、连线问题等调查结果，而数字型包括百分比、绝对数等。对于数字型，可直接录入数据；而文字型则需要进行事前或事后编码，且不同类型的调查结果有不同的编码表现。此外，无论是数字型还是文字型，都有可能碰到调查数据缺省或不应该有的情况。这同样需要事先编码。

下面将以为了解大学生购书情况进行调查而获得的一份问卷为例，介绍几种常见问卷数据编码。

2.1.2 数据编码

1、单项选择题的编码

由于单项选择题的答案是唯一的，所以对各答案依次编码为1、2、3….。如问卷中的第1题有四个答案，可依次编码“1”代表答案“300元以下”，“2” 代表答案“300—500元”，“3” 代表答案“500—700元”，“4” 代表答案“700元以上”。于是，被访问者选择的任何答案都可以用1，或2，或3，或4来表示。

2、多项选择题的编码

问卷中的第5题是多项选择题，共有6个答案项。编码时，可将6个答案看作6个变量，用“1”表示选择了该项答案，用“0”表示没有选择该项答案。若第5题答案顺序是从左到右、一行一行的排列，则012号问卷结果的编码是“0 0 1 1 1 0”。此外，该题的第6个答案项没有唯一的表现，应该视为开放性问题的编码（详细解释见后面）。

3、排序题的编码

对于排序题的编码，其处理方法是：将每个序位当作一个变量，而需要排序的那些选项作为每个变量的取值。如问卷中第3题有六个选项要排序，将“购书时考虑的第一因素”作为第一个变量，记为“Q301”；其取值可为“内容”、“价格”、“包装”“实用性”、“知名作家的作品”、“热门畅销书”中的任何一个，可分别编码为“1”、“2”、“3”、“4”、“5”、“6”。同理，可将“购书时考虑的第二因素”、“购书时考虑的第三因素”等依次作为第二、第三变量等，记为“Q302”、“Q303”等；而每个变量的取值都与Q301相同，同样也编码为1、2、3、4、5、6。于是，012问卷第3题排序结果可转化为6个变量的取值依次为：2，4，1，5，6，3。

4、开放式问题的编码

对于开放式问题，如第5题的“其他”选项，第7、8、9题，有的答案是数字型，可直接录入，但有的答案则需要归类编码。其中第5题的“其他”选项和第7题的第一个空，由于事先不知道有多少类答案，需事后抽查部分调查问卷结果统计后才能初步确定与编码。这就是“事后编码”，它类似于二项选择问题的编码。至于第9题的“性别”、“专业”、“年级”等问题的所有可能答案，在事先都容易确定，可以直接编码录入数据。这就是“事前编码”，如“性别”有两个选项——男或女，可用“1”表示“男”，“0”表示“女”，也类似于二项选择问题的编码。

问卷编号：012 1.您的月收入大概有多少？ ■300元以下 □300—500元 □500—700元 □700元以上 2.您购书的主要目的是： ■ 学习、考试需要 □ 了解时尚、热点 □ 休闲娱乐 □ 个人爱好及收藏 3.您购书时主要考虑的因素依次是: （请在选项前横线上标出序号） 3 内容 1 价格 6 包装 2 实用性 4 知名作家的作品 5 热门畅销书 4.您较能接受的书的价格为： ■ 20元以下 □ 20—50元 □ 50元以上 □ 需要，则无所谓 5.您购书的地点一般是：(可多选) □ 新华书店 □ 校内书店 ■ 学校附近书摊 ■ 菜园坝书刊市场 ■ 商家在校园内的图书展销 □ 其他跳蚤市场 6.您对商家来校园内进行图书展销的看法是： □ 既方便又实惠，很好 ■ 无所谓，视其内容、价格而定 □ 没兴趣，宁愿到正规书店购买 7.您最近一次购书的时间是两个月前；花费为 5.60 元； 8.您平均每个月的购书支出占月收入的比例为 2% ； 9.您的性别女，专业经济学，年级大二，电话 62650029 。 5、缺失值的编码

问卷中，若遇到被调查者不回答的一些选项，则应该当作缺失值。缺失值又称为用户缺失值(User Missing Value)。如第8题“您平均每个月的购书支出占月收入的比例”有缺失值，可编码为99%。又如，第7题“花费”有缺失值，可编码为9999.99。如果可以选择的项目有9项，但被调查者正好选择了第9个选项，则以“0”表示缺失值。当然，缺失值也可用研究者自己能够识别的其他数字来表示，如“0”或“9”为用户缺失值。

用户缺失值与系统缺失值(System Missing)的含义不同。系统缺失值主要是指计算机默认的缺失方式，如果在输入数据时空缺了某些数据或输入了非法的字符，计算机就把其界定为缺失值，这时的数据标记为“·”，而用户界定的缺失值则不会在数据显示时出现“·”。

6、“不适用情况”的编码

当碰到被调查者不适用的选项时，被调查者不需要对这些题进行回答，这种情况下，研究者可以用“8”、“98” 等值来赋值表示“不适用”。若答案正好是8，可以以0替补。 2.2 在SPSS数据窗口直接输入数据

进入SPSS系统时，系统就已经生成了一个空数据文件，即空白的数据管理界面（见图1.2）。在输入

数据之前，必须先在Variable View窗口下定义变量。通常的做法是：把问卷中的问题定义成变量，把答案项编码定义成取值，并定义变量的类型、数据项宽度、标签、缺失值（或叫缺省值）等。然后，在Data View窗口下输入数据，并存盘为“*.sav”文件就行了。 2.2.1 定义变量

在Variable View窗口下，从列顶端可看到1 0 种功能选项，分别是：Name，Type，Width，Decimals，Label，Values，Missing，Columns，Align和Measure等变量属性。见图2.1。

●Name，即变量名。SPSS变量命名原则如下： 1) SPSS变量的变量名由不多于8个字符组成；

2) 首字符是字母，其后可为字母或数字，或除“？”，“！”和“*”以外的字符。但应该注意不能以下划线“＿”和圆点“·”作为变量名的最后一个字符；

3) 变量名不能与SPSS保留字相同。SPSS的保留字有all，and，by，eq，ge，gt，le，lt，ne，not，or，to，with，crosstabls，thru等。

4）SPSS中虽不区别大小写字符，但程序中的命令和关键词要用大写字母，表示系统内定；变量名等宜用小写字母，表示可人为指定。

5）可以用中文做变量名，但最好不用，因为涉及一个兼容性问题。

图2.1 定义变量

●Type：变量类型。

有8种变量类型可供选择，包括Numeric（数值型变量），Comma（带逗号的数值型变量），Dot（带圆点的数值型变量），Scientific notation（科学计数法），Date（日期型变量），Dollar（货币型变量），Custom currency（自定义型变量），String（字符型变量）等。其中，常用的有三种Numeric，String和Date；系统默认的变量类型为标准数值型变量（Numeric）。实践中，应尽量采用数值型变量，以方便以后的统计分析。

Width：变量的长度。系统默认长度为8。

Decimals：小数位数。若为数值型变量，必须指定小数位数。系统默认小数位数为2。

Label：变量标签，是对变量的进一步说明。变量较多时，需采用变量标签对变量的含义加以解释，

以免混淆。在数据统计分析过程中，会在变量名相对应的位置上显示该变量的标签，有利于分析结果得出结论。

Values：标签变量值。标签是对变量的可能的取值所附加的进一步说明。无论是问卷结果显示是数字型还是文字型，只要答案是分类的（也称分类变量），如问卷中第9题“性别”，编码后都要定义其取值的标签。具体操作：单击行中Values格，再单击格中的按钮，即可定义值标签，如图2.2。

图2.2 值标签的定义

Missing：缺失值的定义。可指定缺失值。 Columns：列宽度。

Align：对齐方式，分为左对齐、右对齐、中间对齐。

Measure：变量的度量类型。Scale为定量变量，Ordinal为等级变量，Nominal为定性变量。以问卷中第1题为例，可定义变量名称Name为“Q1”，数值型变量Numeric，宽度Width默认为8，小数位数Decimals为0，变量标签Label为“被调查者的月收入”，标签值Values为“1=300元以下”，“2=300—500元”，“3=500—700元”，“4=700元以上”，其他则均选择系统默认。此外，定义问卷中的变量时，必须定义问卷编号变量，便于差错和统计分析。也就是，录入问卷调查结果之前，应先录入问卷编号，如上节问卷编号为“12”。

如果有许多个变量的类型相同，可以先定义一个变量，然后把该变量的定义信息复制给新变量。具体操作为：先定义一个变量，在该变量的行号上单击右钮，弹出如图2.3（A）所示的快捷菜单，选择Copy；然后用鼠标右钮选择多行，弹出如图2.3（B）所示的快捷菜单，选择Paste；再把自动产生的新变量名称（如Var0001、Var0002、Var0003、??）改为所要的变量名称。 2.2.2 数据的直接输入

定义好了变量就可以开始输入数据。如果样本不大，变量不多，可以直接在SPSS中Data View窗口输入数据。输入方法就如同在Excel中输入一样，每一个变量占一列，每一行代表一个被观测个体的记录或一份问卷（Case），数据就录在行列交叉处。

和其他常用统计软件相比，SPSS数据界面最大的优势就是支持鼠标的拖放操作，以及拷贝粘贴等命令，下面的数据输入技巧就是对这些功能的利用。

1、连续多个相同值的输入

如前面group变量有连续多个1，如果直接输入，可以在第一格内输入1并回车，然后回到刚才的单元格并单击右键，选择copy，最后用拖放方式选中所有应输入1的单元格，单击右键并选择paste，所有选中的单元格就会都被刚才拷贝的1填充。

第一讲SPSS数据预处理操作.

下载：第一讲SPSS数据预处理操作..doc

最近浏览

最新搜索

站内搜索