应用统计学 基础复习

发布时间 : 星期二 文章应用统计学 基础复习更新完毕开始阅读

统计学 BASIC

第一章 绪论 第一节 研究对象 1统计学

1.1统计学分为数理统计与应用统计,

1.2应用统计分为心理统计、生物统计、医学统计、社会统计、经济统计等等… 1.3心理统计分为描述统计、推论统计、研究设计。 2.推论统计

2.1推论统计常用于从局部数据估计总体情况。 例:6岁儿童的男女身高差异问题的研究。从某地区随机抽取男生30人,平均身高为 114cm; 女生27名,平均身高为 112.5cm。

能否根据这一次测量的结果下结论:6岁男生的身高比女生高?

2.2心理与教育类实证研究的结果,基本上都不能直接得出结论,而需要运用推论统计。 第二节 为什么要学习统计学

一、发现随机现象的运动规律 二、贯穿整个心理学研究过程的方法与技术 三、心理学研究资料分析的技术 四、“行话”——方便交流、阅读与撰写 五、心理学专业的应用技术之一 第三节 基础概念

一、总体、样本和个案

例:关于汽车限行制度,想了解A城市民对此事件的态度

调查对象: 所有A城市民 调查目的: 赞成vs.反对,各自的比例 可以去问所有的A城市民吗?

? 不可能,只能问其中一部分,幵根据该部分的观点来了解永川市民的总体观点 二、统计量(特征量)和参数

(一)总体的特性称为参数,用希腊字母表示; 样本的特性称为统计量,用英文字母表示 (二)统计量(特征量)和参数 统计指标 统计量 参数 平均数 标准差 相关系数 回归系数 三、数据(变量)的类型

(1)根据数据反映的测量水平,可分为: “称名”,特点:起名称作用,不同的数字没有大小之分(不可比较),不能加减乘除。 “顺序”,特点:可比较,不能加减乘除。 “等距”,特点:可比较、可加减,不能乘除。 “比率”,特点:可比较、可加减乘除。 ? 四种类型变量的数学关系比较 数据类型 称名 顺序 等距 等比 √ √ √ √ √ √ √ 数学关系 =or≠ >or< + or - √ √ ×or ÷ √ - 1 -

统计学 BASIC

(2) 离散数据 (又称间断数据)和连续数据 A.离散数据的特点:

a.离散数据,变量的数值在变化上是有限的,数值与数值之间无法找到跟小单位的数值 (如人数、性别、国籍等)

b.离散数据的所有取值在数学上是不连续的,所有取值的数目是有限的,可以一一列举,相邻的两个取值之间不能再取中间值。

c.离散数据往往只能取整数,不能无限细分。 B.连续数据的特点:

a..连续数据, 如果技术允许,数值可以无限分割(如身高、体重等)

b.连续数据是指在一定范围内连续变化、取值无限多的变量,不能一一列举。 如人数是离散数据

c.长度、温度、重量、时间等都是连续数据

Q: 心理测验或教育考试中五分制得分和百分制得分属于哪一种数据(离散or连续)? A: 五分制是离散数据。一般将百分制近似地看作连续数据。

Q: 心理测验或教育考试中五分制得分和百分制得分分别属于哪一种数据(称名、顺序、等距、等比)?

A: 五分制是顺序数据。

一般将百分制近似地看作等距数据。 通常将量表分数也近似看作等距数据。 ? 通常来说:

称名数据和顺序数据是离散型数据 (不可任何运算) 等距数据和比率数据是连续型数据 (可加、减) ?练习:

1. 找出下列数据中与其他不同类的数据:A.60斤 B.60升 C.60米 D.60辆 2. 通常的百分制考试分数属于( )数据 3. 通常将量表分数视为( )数据

4. 从变量水平的角度,找出下列数据中与其他不同类的变量取值

A.10厘米 B.10兊 C.10毫升 D.10摄氏度 ? 注意事项:

i. 数据类型:是本门课程的基础,是心理学量化研究的基础,务必烂熟于心!! ii. 离散/连续:正确区分连续变量(等距与比率)与离散变量(称名与顺序),方能选用正

确的统计方法。

2 统计图表

? 注意事项:统计表的 标题 位于上方

统计图的 图题 位于下方

? 常用统计图

(1)条形图?离散型data (2)圆形图?间断性data (3)线性图?连续性data

(4)散点图?两列变量均为连续性data 3 集中量数

? 集中量,用来表现数据资料的典型水平或集中趋势(central tendency)。

? 常用的集中量包括算术平均数、加权平均数、调和平均数、中(位)数和众数等等。 3.1 算术平均数

- 2 -

统计学 BASIC

? 算术平均数(arithmetic average )一般简称为平均数(average)或均数、均值(mean)。 ? 一般用M,或者用

表示。

? 算术平均数是应用最普遍的一种集中量。

3.1.1 算术平均数的计算公式

注:

3.1.2 平均数的性质 (1)

? 即:观测值与平均数之差(称为离差)的总和为零。

(2)每个观测值都加上一个常数C 后,计算得到的平均数等于原平均数加上这个常数。 (3)每个观测值都乘以一个常数C 后,计算得到的平均数等于原平均数乘以这个常数。 (4)一组数据中最小的是:

? 即:各观测值与算术平均数之差(离差)的平方和最小。 3.1.3 算术平均数的意义

a) 算术平均数是是“真值”(true score)的最佳估计值。 b) 真值是反映某种现象的真实水平的分数。由于测量过程中的各种偶然因素的影响,真值

往往很难得到。

c) 在实际测量中,往往采用“多次测量,取平均数”的方法,用平均数去估计真值。 3.1.4 算术平均数的优缺点

A. 算术平均数具备一个良好的集中量所应具备的一些特点:反应灵敏; 严密确定; 简明易

懂; 适合进一步代数运算;与中位数、众数相比,受抽样变动影响较小等等。 B. 主要不足:容易受两极端数值的影响; 如有模糊不清的数值时,无法计算。 3.1.5 计算和应用算术平均数的原则

a) 同质性原则:算术平均数只能用于表示同类数据的集中趋势。

b) 平均数与个体数值相结合的原则:在解释个体特征时,既要看平均数,也要结合个体的

数据。

c) 平均数与标准差、方差相结合原则:描述一组数据时既要分析其集中趋势,也要分析离

散程度。 ?练习:

现有原始数据96、91、88、82、80、79、74 ①. 计算它们的算术平均数;(84)

②. 对每个数加以5,再计算它们的算术平均数; ③. 对每个数乘以5,再计算它们的算术平均数; 根据以上各小题的计算结果可以得出什么规律? 3.2 中位数

? 中位数(median)又称为中数,是按顺序排列的一组数据中位于中间位置的数。 ? 中位数是常用集中量的一种。 一般用Md或Mdn表示。

- 3 -

统计学 BASIC

3.2.1 中位数的计算方法 首先将一组数据按顺序排列:

3.2.2 中位数的优缺点 ? 中位数的优点

a) 中位数是根据全部数据的个数来确定其位置的,意义简明; b) 对按顺序排列的数据来讲,计算中位数也比较容易; c) 中位数不受两端极端数据的影响 ? 中位数的缺点 A. 反应不灵敏;

B. 不适合进一步代数运算的要求。 3.2.3 中位数的适用条件

i. 一组数据中有极端数据时;

ii. 一组数据中有个别数据不确切、不清楚时;

iii. 当需要快速估计一组数据的代表值时,也常用中数 iv. 资料属于等级性质时。 3.3 众数

? 众数(mode)用Mo表示,有两种定义:

a) 理论众数是指与频数分布曲线最高点相对应的横坐标上的一点; b) 粗略众数是一组数据中出现次数最多的那个数。

? 众数也是一种集中量,也可用来表示一组数据的集中趋势。 3.3.1 众数的计算方法

A. 观察法寻找粗略众数: 数据中出现次数最多的数即为众数。

B. 公式法计算理论众数的近似值: 用公式计算的众数称为理论众数。一般在心理与教育统

计中常用的公式有皮尔逊的经验公式和金氏插补法公式。 ? 皮尔逊经验公式:

a) 皮尔逊经验公式只有当数据分布呈正态或接近正态时才能使用。 b) 当数据分布呈偏态时,一般用金氏插补法计算众数。

?练习: 对于下列数据,使用何种集中量数表示集中趋势,其代表性更好?幵计算出来。

4、5、6、7、29 (中数 6) 3、4、5、5、7、5 (众数 5) 2、3、5、6、7、8、9

第三节 差异量数

1.变异性(variability):反映数值与数值之间的不同。

例如: 第一组数据7,6,3,3,1

第二组数据3,4,4,4,5具有与乊相同的均值(4),但变异性呢?

第三组数据4,4,4,4,4根本没有变异性——数值乊间无差异,但和前面两组具

有相同的均值。

- 4 -

联系合同范文客服:xxxxx#qq.com(#替换为@)