一、模型构建
由于正式公开出版物公布的地级市研发数据没有省级的数据全面,所以在研究中选择的知识生产函数和省域的知识生产函数有所不同。地级市的研究期间是1997~2002年,取如下形式的知识生产函数:
其中IR,LR,KR分别是地区R的创新产出、R&D人员、知识存量,产出和知识存量之间的正相关关系通常被解释为知识溢出,α1,α2是产出弹性。很少有学者对常数项α0指定具体的实际意义,注意力都集中在物质的投入和知识的存量上了。博德(BODE,2004)把常数项α0定义为要素生产率,也许可以认为该要素生产率是全国科研体制环境对研究总效率的影响和已经扩散全国的、普遍存在的知识生产效率两者的综合反映。笔者选取2002年人均专利PAT代表创新产出,R&D物质输入L R用科技活动人员来代表。为了捕获R&D努力和专利的因果关系,2年的时滞是允许的,故2000年科技活动人员RD00代表R&D物质输入。格里利谢斯(GRILICHES,1979)建议用过去R&D输入(如,R&D支出、R&D人员)的滞后多项式来表示知识存量K R,笔者选取1997年人均专利PAT97来代表KR,是因为用过去几年滞后多项式来表示KR,模型的效果不好,参数估计值也不显著。
在实证分析中,为了控制系统在理论和现实世界中的差距,还需要考虑一些控制变量。如专利倾向,不同地区专利倾向是不一样的。如通常认为第二产业比第三产业生产更多的专利,第三产业也有许多人参与研发活动,如高校、科研院所以及各类中等学校的老师,所以取1997年第二产业从业人员与第三产业从业人员之比SECTER、1997年第三产业从业人员与总社会从业人员之比TERSH作为控制变量。综上所述,得到如下形式的知识生产函数:
二、GWR的实证分析
在进行地理加权回归分析之前,首先通过最小二乘法进行全局的估计:
可以看出,首先,F检验显示模型是高度统计显著的,而且根据调整后的决定系数,模型解释 LNPAT总变异的74.6%。这个结果表明,2002年的LNPAT是可以通过R&D的存量(LNRD和LNPAT97)、控制变量(LNSECTER和 LNTERSH)来建模的。其次,所有参数(包括常数项)都是高度显著的。模型揭示物质投入(2000年的科技活动人员RD00)和知识存量(1997年的人均专利PAT97)对地区知识生产有重要的贡献,相应的产出弹性估计值是0.14363和0.66842,两个弹性估计值之和小于1,蕴涵着知识生产是服从规模报酬递减的。这说明在其他条件不变的前提下,2000年的科技活动人员每增加1%,则2002年的人均专利就增加0.144%;而1997年的人均专利每增加1%,则2002年的人均专利相应地增加0.668%;反之亦然。
为了得到方程(5.2)的解,即地理加权回归模型的参数估计值(5.3),最关键的是确定权重函数。经计算,如果选高斯函数(5.6)为权重函数,则有:
而,如果选双重平方函数(5.7)为权重函数,有:
故,根据AIC最小的原则,我们选高斯函数(5.6)。为了得到带宽B,需使式(5.9)最小。经计算得到CV SCORE易知,最佳的带宽是520.9692公里。根据最佳的带宽计算得到GWR模型。
GWR模型的AIC(361.2874)比OLS模型的AIC(401.6046)小得多,说明GWR模型比OLS模型有显著的提高。根据FOTHER-INGHAM ET AL。(2002)的评价标准,只要两者之差大于3,即使把GWR模型的复杂性考虑在内,GWR模型比OLS模型执行得更好。
需要注意的是:可以看到LNRD00的参数估计值有负数,即RD00的产出弹性是负数,这似乎和传统的知识生产函数相矛盾。笔者在查阅大量文献后,找到相类似的结论,如:布兰施泰特(BRANSTETTER,2001),舍雷尔(SCHERER,1984),豪斯曼等(HAUSMAN ET AL。,1986)及布伦德尔等(BLUNDELL ET AL。,2002)通过不同的计量方法发现“过去的R&D投入对当前的专利本质上没有作用,很显然专利和R&D主要是同时期的”。
地理加权回归(GWR)是对每一个空间单元都进行局部的回归分析,5个参数估计值都有最大最小值,不像OLS那样只有“全局”或者“平均”意义上的一个估计值。因此它所得到的参数估计值可以在地图上展示,进而便于观察分析局部关系。似乎可以发现,知识生产函数诸要素有显著的空间变异,各参数详细的估计值。
常数项的估计值有明显的空间变异,东北三省的估计值较低,而东部省份的估计值较高,特别是广东和福建的估计值处于最高的组。按照博德的定义,这就意味着广东和福建两省的地级市有良好的科研环境,有利于R&D活动的开展和实施,而且扩散到这些地方的普遍存在的知识的生产效率也较高,这也有利于知识的溢出。相反,东北三省大部分地级市的科研体制环境阻碍了R&D活动的开展和实施,而且扩散到这些地方的普遍存在的知识的生产效率较低,这也会阻碍知识的溢出,因此,要振兴东北三省经济,需要营造有利于R&D活动开展和实施的科研体制环境,提高知识的生产效率。还可以发现位于西北的甘肃省有几个地级市的参数估计值也处于较高组。总体来看,距离
参数估计值高的地级市越近,其参数估计值就高;而离参数估计值低的地级市越近,其参数估计值也越低,由此产生集聚现象,这进一步证实参数估计值是有空间变异的。
可以看出,RD00的产出弹性有明显的空间变异,不过分布规律恰好和常数项参数估计值的分布规律相反,即常数项估计值大的地级市,RD00的产出弹性反而小,而常数项估计值小的地级市,RD00的产出弹性反而大。绝大部分地级市的产出弹性估计值都是正的,只有一些地级市的RD00的产出弹性估计值是负的。造成这种状况的可能因素有:首先,由于各地的经济发展水平、科研储备及创新体制不一样,会导致各地的产出弹性各不相同。其次,由于各地所处经济发展阶段不同,有些城市知识产出已经处于规模报酬递减的阶段(如广东、福建两省最早对外开放,吸引了全国各地的高层次人才,经过20多年的快速发展,已经处于规模报酬递减和调整产业结构的阶段,现在可以向内地溢出了),而有些则处于规模报酬递增的阶段,这也会导致各地的产出弹性各不相同。第三,专利是受利益驱使的。由于专利所带来的利益不同,有些专利可以使企业、个人及当地政府取得较大效益,而有些专利暂时无法带来效益,同样可以导致各地的产出弹性各不相同。第四,在其他条件都相同的情况下,各地RD00的组成结构不同,有些地区直接参与专利研发活动的人员多,而有些地区直接参与专利研发活动的人员少,这种情况也会导致各地产出弹性不一致。第五,正如布兰施泰特(BRANSTETTER,2001),舍雷尔(SCHER-ER,1984),HAUSMAN ET AL。(1986)及BLUNDELL ET AL。(2002)等学者的综合结论:过去的R&D投入对当前的专利本质上没有作用,很显然专利和R&D主要是同时期的,即有些地级市的RD00的产出弹性估计值是负的。最后,各地R&D的溢出范围是不一致的,也会导致这种情况产生。
LNPAT97参数估计值,尽管所有的产出弹性估计值都是正数,说明知识溢出是存在的。但是溢出还存在空间变异,表现在各地知识存量对知识生产的贡献是不一样的。东北三省的大部分地级市知识存量的产出弹性较小,这对振兴东北老工业基地提出了挑战。从RD00的产出弹性的估计结果中可以知道,空间集聚现象是明显的,离产出弹性高的地区越近,其相应的产出弹性也越高。在全局模型估计中,PAT97的产出弹性估计值是0.66842,它位于第二大组,估计值在0.646~0.759之间,因此全局模型仅仅是代表了中西部的大部分地级市和东部的小部分地级市。大体上,LNPAT97参数估计值的空间分布呈阶梯状。
第5列是控制变量LNSECTER的估计值,从中可以看出空间变异是存在的。绝大多数的地区的估计值是正的,意味着这些地区第二产业从业人员比第三产业从业人员发明的专利多;只有少数地区的估计值是负的,表示这些地区第三产业从业人员比第二产业从业人员发明的专利多。福建、广东、广西和四川的部分地级市估计值位于最大的组,东北三省的部分地级市和江浙一带的地级市则位于估计值较高的倒数第二组。还可以发现,即使一个省不同的地区的参数估计值也是不同的,全局模型无法反映这种现象,因此地理加权回归(GWR)较好地反映了当地的知识生产情况。
LNTERSH参数估计值,从中也能看出存在空间变异。广东、福建、四川的大部分地级市的估计值最高,说明这些地区的第三产业从业人员占总社会从业人员的比例越大,对知识生产的贡献就越大。河北省的部分地级市和四川省的部分地级市的估计值位于第一组,即估计值最低的一组。靠近参数估计值高的地级市,其参数估计值就高,而离参数估计值低的地级市越近,其参数估计值也越低。因此,知识的生产和当地的就业结构是密切相关的。
从地理加权回归(GWR)分析中得到的另一个重要的信息就是模型拟合优度(R2)也存在空间变异。R2的值在0.585~0.901之间变化,全局模型解释了LNPAT总变异的74.6%,GWR模型最高解释了 LNPAT总变异的90.1%,最低解释了 LNPAT总变异的58.5%,因此,有些局部模型比全局模型更好地模拟了数据,而全局模型比其他的局部模型更好地模拟了数据。可以观察到,东部地区通常有较高的拟合优度,因此这些地方的知识生产更好地被模型所模拟;相反东北地区有较小的拟合优度,这些地方的知识生产也许还受到其他因素影响,模型没有考虑到这些因素。通常,国际贸易和外商直接投资,甚至跨地区之间的贸易往来都有利于R&D的溢出。但是,地理加权回归(GWR)分析不能考虑研究区域以外的外部因素影响。
三、空间变异的显著性检验
下面计算相关的统计量,根据BRUNSDON ET AL。(1999),FOTHER-INGHAM ET AL。(2002)提出的ANOVA检验,在R-SPGWR下得到如下结果:
可以知道:GWR模型比OLS模型有显著的改善,此外,GWR模型的AIC(312.9928)比OLS模型的AIC(401.6046)小得多,根据FOTHERINGHAM ET AL。(2002)的评价标准,只要两者之差大于3,即使把GWR模型的复杂性考虑在内,GWR模型还是比OLS模型模拟数据更好。另外,可以知道GWR模型比OLS模型模拟数据更好,因此三种不同的检验方法都可以推断GWR模型确实比OLS模型更好地模拟地级市的知识生产。
进一步证实了参数估计值空间变异是存在的,常数项,LNRD00,LNPAT97,LNSECTER,LNTERSH在统计上都是高度显著的。因此,地级市的知识生产与物质投入LNRD00、知识存量LNPAT97和两个控制变量LNSECTER、LNTERSH之间的关系在空间上都是有变异的。
四、GWR残差的空间自相关检验
因为GWR分析是假设模型的扰动项独立、相互不相关,而且有相同的方差。经过地理加权回归分析以后,残差还存在空间自相关吗?如果残差空间自相关存在,就会像全局OLS模型那样对分析的结果产生严重的影响,因此有必要进一步弄清残差之间的自相关是否存在。LEUNG ET AL。(2000B)提出并给出了分析GWR残差的全局的MORAN I和GEARY C指数,MORAN I可以用一个三阶矩近似值来代替。至于类似于 ANSELIN(1995)的 LISA方法,在实施GWR残差检验时困难较大,目前没有人给出很好的办法。在上述六种空间邻接矩阵下,所有的P值在统计意义上都是不显著的,表明地理加权回归(GWR)模型的残差不存在空间自相关;而OLS模型在上述6种空间邻接矩阵下所有的P值在统计意义上都是高度显著的,表明残差之间存在空间自相关。因此,在这里GWR模型比OLS模型更