主成分分析法在全国各省市区规模以上工业发展评价中的应用

发布时间 : 星期三 文章主成分分析法在全国各省市区规模以上工业发展评价中的应用更新完毕开始阅读

主成分分析法在全国各省市区规模以上工

业发展评价中的应用

WRY 2015000000

东北财经大学 管理科学与工程学院 管理科学与工程专业

【摘 要】本文以主成分分析法为分析工具,针对8个全国各省市区规模以上工业主要统计指标进行建模分析,提取出4个主成分,并计算得出全国各省市区规模以上工业的主成分、综合成分及其排名,经过分析最后得出4个结论。通过主成分分析,可以全方位的了解各个省市地区的工业发展状况。

【关键词】地区工业发展;工业统计指标;变量;SPSS;主成分分析法

1引言

衡量一个国家的经济发展状况,主要是看这个国家的工商业的发展水平。我国在新中国成立以前一直是以农业为主体来发展经济,工商业的发展还是在改革开放以后有了很大的发展。目前,我国主要是农业和工业占据主体地位,并且,工业在很大程度上辅助着农业的发展。因此,我国在每年的统计数据中,把全国各省市区的工业情况做以统计就显得尤为重要。但是,我国的工业涉及各行各业,每个行业的统计指标也不尽相同,要把全国各省市区的工业一起做以统计就要依据相同的统计指标来进行。依据我国的统计年鉴,我国各省市区规模以上工业主要统计指标(2010年)主要有8个,随着我国工业的不断发展和成熟,主要统计指标有可能还要增加或者有其他的变化。

目前,我国主要采用等份计分法等来做评价,而这些方法具有人为给定权数、指标数量多、评价工作量大等缺陷,因而有可能出现误判。近年来,随着多元统计方法和决策分析方法的普及和应用,主成分分析法也成为一种较新的评估方法。主成分分析法能够在最大限度地保留原有信息的基础上,对高维变量系统进行最佳的综合与简化,并且能够客观地确定各个指标的权数,避免了主观随意性。为此,本文根据主成分分析法,对全国及各省市区规模以上工业进行评价,以便客观而准确地衡量一个地区的工业发展情况。

2主成分分析法

2.1主成分分析法简介

主成分分析是一种数学变换方法。它把给定的一组变量X1,X2,…,Xk通过线性变化,转换成一组不相关的变量Y1,Y2,…,Yk。在这种变换中,保持变量的总方差不变,同时,使得Y1具有最大方差,成为第一主成分;Y2具有最大次方差,成为第二主成分。依次类推,原来有k个变量,就可以转换出k个主成分。在实际问题中,为了简化问题,往往只是提取出部分主要的能代表该问题

2

的部分主成分。

多目标决策中常常遇到的问题指标数量大,并且指标之间存在某种程度的相关关系,这不仅增加了决策的工作量,也直接影响到决策的有效性和可靠性。主成分分析法是一种实用的多元统计方法,这种方法的独到之处在于,能够消除指标样本之间的相关关系,在保持样本主要信息量的前提下,提取少量有代表性的主要指标。同时,在分析过程中得到主要指标的合理权重,用主成分作为决策分析的综合指标值。 2.2主成分分析法的步骤

设原始变量为X1,X2,…,Xn,主成分分析后得到的新变量为Y1,Y2,…,Ym,(m≦n),它们是X1,X2,…,Xn线性组合。新变量Y1,Y2,…,Ym构成的坐标系是原坐标系经平移和正交旋转后得到的,称Y1,Y2,…,Ym构成的空间为m维主超平面。在主超平面上,第一主成分Y1对应于数据变异 (贡献率e1)最大的方向,对于Y1,Y2,…,Ym,依次有e2?...?em。因此,Y1是携带原始数据信息最多的一维变量,而m维主超平面是保留原始数据信息量最大的m维子空间。主成分分析法的步骤如下:

(1)为排除数量级和量纲不同带来的影响,需对原始数据进行标准化处理:

*xij?(xij?xi)/?i (i=1,2,…,n;j=1,2,…,p)

式中:xij为第i个指标第j个分区的原始数据,xi和?i分别为第i个指标的

样本均值和标准差;

*(2)根据标准化数据表(xij)n?p,计算相关系数矩阵R?(rij)n?n,其中:

??1nrij??(xki?xi)(xkj?xj)/?i?j

nk?1(3)计算R的特征值和特征向量。根据特征方程R??I?0计算特征根?i并使其从大到小排列:?1??2?...??n,同时可得对应的特征向量:u1,u2...un,它们标准正交,u1,u2...un称为主轴;

(4)计算贡献率和累计贡献率,取?1,?2,...,?q,使:

(?1,?2,...,?q)/(?1,?2,...,?n)?85%

TTT(5)计算主成分,Y1?b1X,Y2?b2X,...,Yq?bqX,即为所求; (6)综合分析,得出结论。

3全国各省市区规模以上工业发展评价的主成分分析

3.1主要统计指标的确定

对全国各省市区规模以上的工业指标加以统计,可以反映出全国的工业发展水平以及一个地区的工业发展情况。因此,应该结合我国工业发展的现状来选择

3

主要统计指标。在《河南统计年鉴2011年》中,对于全国各省市区规模以上工业主要统计指标(2010年),选择了8个指标:X1为原油(万吨);X2为发电量(亿千瓦小时);X3为成品钢材(万吨);X4为水泥(万吨);X5为农用化肥(万吨);X6为增加指数(上年=100);X7为利润总额(亿元);X8为利税总额(亿元)。

前面已述及,多指标的综合评价一方面增加了评价工作量,另一方面势必淡化主要指标的作用。为此,需要从现有指标中精选出若干个有代表性的指标。但人为地精选指标难免带有主观随意性,可能丢失部分有价值的原始信息。因此必须对所考虑的众多指标,利用数理统计法,经过正交化处理,使其成为少数几个相互独立的综合指标,再根据这些指标来评价一个地区的工业发展情况,而主成分分析法为实现这一思路提供了有效的数学方法。本文以全国各省市区(31个省、直辖市、自治区,不包括港澳台等地区)规模以上工业总体情况的8个指标为例,来说明主成分分析法在全国各省市区规模以上工业发展状况评价中的应用。

3.2具体实施步骤

本文主要是根据原始数据,利用SPSS软件辅助分析提取主成分,部分复杂的计算利用EXCLE来实现,避免了手算的繁琐,简化了实施步骤。因此,针对全国各省市区规模以上工业主要统计指标的主成分分析这个问题,具体的实施步骤有部分与上述2.2节中所叙述的步骤不尽相同,但是大体的关键步骤流程基本不变,只是简化了个别步骤。

本问题的具体实施步骤如下所述:

(1)查找《河南统计年鉴2011》的相关数据,如表1所示,全国各省市区(31个省、直辖市、自治区,不包括港澳台等地区)规模以上工业主要统计指标表(2010年):

表1 全国各省市区规模以上工业主要统计指标表(2010年)

地区 X1 X2 北京 269 天津 3332.7 589 河北 599 1993 山西 2121 内蒙古 2484 辽宁 950 1292 吉林 702.3 594 黑龙江 4004.9 775 上海 8.3 876 江苏 186 3359 浙江 2496 安徽 1444

X3 X4 794 1049 4484 810 16757 12594 2862 3298 1341 5370 5662 4777 876 3975 566 3507 2476 671 9123 15648 2833 11275 2446 7874 4

X5 2 178 332 181 74 28 65 3 242 33 255 X6 115 123.7 116.5 123.2 119 117.8 119.9 115.2 118.4 116 116.2 123.6 X7 1028 1552 2141 958 1688 2371 843 1249 2300 5971 3175 1446 X8 1631 2421 3374 1818 2485 4042 1566 2237 3695 9316 5100 2401 福建 1356 江西 617 山东 2786 3043 河南 497.9 2181 湖北 86.5 2029 湖南 1186 广东 1287.1 3101 广西 2.7 1002 海南 20 149 重庆 457 四川 15.1 1684 贵州 1386 云南 1330 西藏 21 陕西 3017.3 1102 甘肃 58.2 782 青海 186.1 457 宁夏 3.1 586 新疆 2558.2 652 1341 1952 6672 3196 2895 1812 2919 1554 15 718 1977 391 1213 995 699 138 33 889 5793 6221 14749 11480 8983 8701 11537 7456 1264 4598 13228 3695 5605 219 5464 2414 811 1358 2374 58 113 977 439 899 358 62 86 67 182 510 385 362 83 81 313 95 158 120.5 121.7 115 119 123.6 123.4 116.8 123.7 118.5 123.7 123.5 115.8 115 114 119.7 116.6 120.6 116.8 113.6 1754 910 6108 3302 1669 1451 6240 772 140 519 1662 318 599 11 1470 232 182 138 852 2578 1521 9738 4929 2950 2836 9418 1324 279 1012 2993 671 1444 17 2402 590 303 243 1371 注:1、资料来源:《河南统计年鉴2011年》EXCLE3006;

2、X1表示原油(万吨);X2表示发电量(亿千瓦小时);X3表示成品

钢材(万吨);X4表示水泥(万吨);X5表示农用化肥(万吨);X6表示增加指数(上年=100);X7表示利润总额(亿元);X8表示利税总额(亿元)。 (2)根据原始数据,利用SPSS软件,计算出8个工业主要统计指标的相关系数矩阵如表2所示:

表2 相关系数矩阵表

原油(万吨) 原油(万吨) 发电量(亿千瓦小时)) 成品钢材(万吨) 水泥(万吨) 农用化肥(万吨) 增加值指数(上年=100) 利润总额(亿元) 利税总额(亿元) 1.000 -.026 -.017 -.090 -.047 -.270 .147 .150 发电量(亿千瓦小时)) -.026 1.000 .570 .914 .530 -.198 .923 .926 增加值指成品钢材水泥(万农用化肥数(上年利润总额利税总额(万吨) -.017 .570 1.000 .600 .173 -.203 .487 .490 5

吨) -.090 .914 .600 1.000 .575 -.055 .755 .765 (万吨) =100) (亿元) (亿元) -.047 .530 .173 .575 1.000 .122 .360 .383 -.270 -.198 -.203 -.055 .122 1.000 -.311 -.304 .147 .923 .487 .755 .360 -.311 1.000 .998 .150 .926 .490 .765 .383 -.304 .998 1.000

联系合同范文客服:xxxxx#qq.com(#替换为@)