聚类分析(Cluster Analysis)是一种定量分类的多元统计方法。为了更加深刻地认识我国纺织产业的区域分布模式,本书以纺织产业区域竞争力的综合得分为样本进行系统聚类分析,通过聚类分析得到的框架结构将纺织产业区域竞争力水平分成几个不同的类,进而深入研究每一类的特点,根据每一类的竞争力水平制定相应的产业政策,为各区域的纺织产业及区域协调发展提供更加富有针对性的决策建议。
聚类分析测试个体之间相似性的方法有相关测度、距离测度和关联测度,本书采用距离测度法,即把样本看作是空间中的一个一个的点,因此,样本之间的相似度可以用空间中的这些点与点之间的距离来表示,距离越近的点,相似度越高,在聚类时被优先聚为一类,距离公式采用平方欧氏距离。
系统聚类是聚类分析中一种应用十分广泛的方法之一,系统聚类分析中计算类与类之间距离的方法有很多种,如最短距离法、最长距离法、中间距离法、重心法、类平均法、可变类平均法和可变法等,本书采用的是离差平方和法(Ward’s Method)。这是因为离差平方和法的思想与方差分析类似,从数值分类的角度看,如果分类恰当,那么,类内样品的距离离差的平方和尽量小,类间距离的离差平方和较大,比较符合本书竞争力聚类分析的目的。为此,将整体类内样品离差的平方和极小原则作为系统聚类的准则。
全国31个省份纺织产业竞争力综合得分可以看作是31个类,记为G1,G2……,Gn(n=31),此时,类间距离与样本间距离是相等的,采用平方欧氏距离计算样本之间的相似性,并构造相似性矩阵D(0):
计算两两类内样品的离差平方和,将类内样品的离差平方和最小的两个类合并为一个新类,新类记为Gn 1,去掉原来的那两个类,此时有n-1个类,计算新的n-1个类的样本相似性,并构造新的相似性矩阵D(1),然后再比较两两类内样品的离差平方和,将类内样品的离差平方和最小的两个类合并为一个新类,新类记为Gn 2,去掉刚才被合并的那两个类,再计算新的所有类的样本相似性,并构造新的相似性矩阵D(2)。重复此过程,直至所有的类被合并为一个类。特别值得注意的是,在类的合并过程中,应该把同时满足条件的所有类一起合并。聚类分析的详细过程还可以用聚类树状图清晰地勾画出来。
聚类分析的关键是确定阈值,对聚类结果划分类的个数和给出类的构成,并使聚类结果具有符合现实意义的解释。综合考虑我国纺织产业的区域发展特征,本书将全国31个省份纺织产业竞争力综合得分的聚类结果划分为四个类,分别代表纺织产业竞争力的强、较强、弱和很弱这四个等级。下面具体来说明每个类的构成及代表的含义,第Ⅰ类的类成员包括:浙江、江苏、广东和山东,第Ⅰ类规模最小,仅四个省份,它们的纺织产业竞争力非常强,分别位居全国前4名;第Ⅱ类的类成员包括:上海、河北、福建、河南、辽宁、湖北,这六个省份表现出较强的纺织产业竞争力,其主成分综合得分值分别位居全国的第五名至第十名;第Ⅲ类的类成员包括:四川、湖南、安徽、天津、北京、江西和黑龙江七个省份,它们的纺织产业竞争力弱势已经凸现,主成分综合得分均低于全国平均水平;第Ⅳ类的类成员包括:内蒙古、广西、吉林、重庆、甘肃、山西、陕西、宁夏、新疆、海南、贵州、云南、青海、西藏,第Ⅳ类规模最大,共十四个省份,它们的纺织产业竞争力非常弱,主成分综合得分值远远落后于全国平均水平。
从以上分析看出,我国纺织产业区域竞争力呈现出东强西弱、区域差距悬殊和竞争弱势比较明显的三大特征。首先,从聚类分析提供的框架反映出当前我国纺织产业呈现出东强西弱的区域分布格局。第Ⅰ类代表了我国纺织产业竞争力最强的省,第Ⅱ类代表了我国纺织产业竞争力较强的省,这些省份当中除河南、湖北两省之外的其他8个省份都位于我国的东部沿海地区,而中西部地区的省份全部集中在代表我国纺织产业竞争力较弱的和最弱的第Ⅲ类和第Ⅳ类中;其次,从各区域的综合得分来看,我国纺织产业区域竞争力强弱悬殊十分明显。我国纺织产业竞争力最强的浙江省,综合得分为6.1825,而我国纺织产业竞争力最弱的西藏自治区,综合得分为-2.7121,两者之差高达8.8946;从聚类等级间的综合得分平均值来看,第一大类纺织强省的竞争力综合得分平均值为5.5789,比第四大类纺织弱省的竞争力综合得分平均值高出7.6493.最后,从各类规模来看,我国纺织产业竞争力强省的数量有限、弱省规模相对庞大,第Ⅰ类纺织产业竞争力强省全国只有4个,即便是包括第Ⅱ类纺织产业竞争力较强的省份全国也不过10个,相比之下,纺织产业竞争力较弱和弱的省份却有21个,占全国省份总数的三分之二以上。
总之,聚类分析结果从理论上定量地分析了我国纺织产业的区域发展特征,深刻地揭示了我国纺织产业的区域不平衡发展现状,证实了我国积极发挥东部地区纺织产业竞争优势的理论基础,反映了努力提高我国纺织产业区域竞争力的任务还非常艰巨,尤其是开发中西部地区是我国纺织产业发展的重点和难点。