高维面板数据降维与变量选择方法研究

发布时间 : 星期六 文章高维面板数据降维与变量选择方法研究更新完毕开始阅读

出在因子模型中加入观测变量的滞后项进行前向预测,从而充分考虑时间序列的相关性(动态性)[1]。他们在时齐因子模型的基础上采用时变因子载荷刻画序列和截面相依。在对美国联邦储备委员会工业产品指数的预测中,该模型与自回归模型(AR)和向量自回归模型(VAR)相比预测误差(MSE)相对较小。Stock和Watson进一步将VAR和动态因子模型相结合,运用这种近似因子模型研究货币政策冲击对宏观经济的影响,讨论动态因子个数估计和VAR基础上的因子约束检验问题[2];Pesaran和Chudik在无限维向量自回归模型中采用动态因子,以体现具有显著效果的某个变量或截面单元对当期和滞后期其他变量的影响[3];Song、H

rdle、Ritov考虑到时间序列中往往存在非平稳性和可能的周期性,

提出了一种两步估计方法[4]:第一步,采用分组LASSO(最小绝对收缩和选择算子)类型的技术选择时间基函数,运用平滑函数主成分分析选择空间基函数;第二步,运用动态因子模型获得一个去除趋势(又称退势)的低维随机过程,并将这种广义动态半参数因子模型应用于气温、核磁共振和隐含波动面数据的分析中。

动态因子载荷的估计也得到了进一步的研究。Forni等人提出了一种两阶段“广义主成分”估计方法,第一步估计公共成分的协方差,第二步确定主成分分析的权重,这种分析放宽了对特性因子的结构约束[5];Deistler和Zinner讨论了广义线性动态因子模型的结构特征,包括可识别性,模型估计等一系列问题[6];因子载荷阵用随机游走表示显然缺乏实际证据,Banerjee和Marcellino研究表明运用因子载荷中的时间变动进行预测效果较差,尤其是小样本情形[7];传统的假设要求特性因子的结构为对角矩阵,然而由于因子载荷中可能存在结构突变,这一条件很难得到满足,Breitung和Eickmeier提出构造LR、LM和Wald统计量对静态和动态因子模型结构突变进行检验,并将其运用于美国和欧元区国

家经济增长模式转变的研究[8]。

因子个数的选择是因子分析必须考虑的问题之一。在高维动态因子模型中,因子个数的选择可以不依赖于复杂的协方差矩阵;Bai和Ng提出了高维面板数据选择因子个数的一种准则,这种准则考虑由因子模型的类型来决定因子个数,而不是采用数据驱动的方法[9];Hallin和Liska运用谱密度矩阵的特征值识别广义动态因子模型的因子个数[10];动态因子模型不仅要确定因子个数,还要确定解释变量的滞后阶数,Harding和Nair对传统的碎石图(scree plot)方法予以了推广,并运用随机矩阵理论和Stieltjes变换对特征值的分布进行分析,得出了基于矩的因子个数和滞后阶数的一致估计方法[11]。

高维面板数据分析中,因子个数的多少决定了最终维数的大小,同时也决定了因子模型解释能力的大小。在尽量减少原有信息损失的同时,选择合理的公因子个数将是一个长期讨论的问题。

(二)因子载荷阵协方差结构和潜在因子估计

在金融学的套利定价理论中,多因子模型可以用于减少维度和估计协方差矩阵。好的协方差矩阵估计量可以避免过度放大估计误差,协方差矩阵的最小和最大特征值对应于证券投资组合的极小和极大的方差,协方差矩阵的特征向量可用于优化投资组合。应用因子模型的协方差矩阵在进行证券投资组合选择时,所包含的统计含义和实际意义比较明显,而估计高维协方差矩阵则相对比较困难,Fan、Fan、Lv研究了高维因子模型的维数对协方差矩阵估计的影响,并通过对样本协方差矩阵估计和基于因子模型估计进行比较,得出了协方差矩阵的逆矩阵更有利于揭示因子结构的结论[12];由于投资组合的优化配置和投资组合方差的

减少都与协方差矩阵的逆矩阵有关,因此在优化投资组合配置中研究因子结构具有重要意义,但其风险评价效果欠佳,Hautsch和Kyj基于已实现协方差多重标度谱分解(Multi-scale spetral decomposition)分析高维动态协方差,将该原理运用于标准普尔500股票全局最小方差(GMV)投资组合的构建,检验基于协方差矩阵的投资组合样本外预测的效果[13]。

协方差矩阵结构的研究目前主要运用于投资组合的构建,已有研究主要从协方差矩阵的特征根和特征向量以及协方差矩阵的逆矩阵出发,而对于高维情形,协方差矩阵的估计受维度影响。

潜在因子(latent factor),又称隐性因子或公因子,潜在因子的估计主要是指因子载荷矩阵的估计。一般通过对解释变量(协变量)的N×N阶非负定矩阵的特征分析进行因子载荷矩阵和因子过程的估计。解释变量的个数(N)和时期长度(T)之间长度往往不一致,对于高维数据而言,如果N>T,可以采用Bai提出的最小二乘法进行潜在因子的估计[14];对于合适的变量个数N和非平稳因子估计,Pan和Yao通过求解几个非线性规划问题来解决[15];Lam,Yao、Bathia研究表明:当所有因子都比较强大并且因子载荷矩阵每一列的范数都是N的1/2次方阶数时,因子载荷矩阵估计的弱一致

范数与N的收敛比率独立,

并运用这种估计方法进行了三支股票的隐含波动面建模分析[16]。

潜在因子的估计主要基于因子载荷矩阵的分析。由于潜在因子既代表解释变量的共同行为,又是因子模型分析基础,高维数据分析中潜在因子的估计方法将决定协方差矩阵结构特征的刻画。

三、高维面板数据内部相依性的刻画

面板数据内部相依包括序列相依和截面相依。高维面板数据分析中,横截面相依对模型的估计和检验影响较大。近年来,截面相依的处理逐渐得到重视,包括相依类型刻画和度量等。由于序列相依和横截面相依经常同时出现,所以在讨论横截面相关时通常也会考虑序列相依。

在空间相依存在的情况下,也就是存在个体的异质性,处理这种相依性的一般方法就是进行空间加权和引入空间滞后算子建立空间滞后模型。假设对如下简单的混合回归模型进行估计:

y=Xβ+ε(3)

其中y是NT×1向量,X是NT×K矩阵,β是K×1向量,ε是NT×1向量。在考虑横截面相依的条件下,各个个体的相依关系通过空间加权矩阵来表示。按照相依结构的不同,空间相依又可以分成两类:第一类是解释变量的个体相依,称之为空间滞后模型;第二类是误差项的空间相依,称之为空间误差模型。

(一)空间权重的设定

空间权重的设定是空间经济学中的一个重要问题,一般空间权重都是预先设定的。计量经济分析中,空间权重可采用经济距离表示,也可采用分块权重(block weights),例如将中国一个省内的多个地区各看做一个分块。Anselin提出一种空间滞后模型,或称混合空间自回归模型[17],其特点是在模型的右端项设置一个空间滞后解释变量,虽然这种方法针对的是截面情形,但是通过堆栈

联系合同范文客服:xxxxx#qq.com(#替换为@)