市场调研中所面临的实际问题往往受到多于一个自变量的影响,要用一个或两个变量来描述所调研的对象经常难以达到理想的效果。所以采用多变量分析方法来研究实际问题是非常必要的。另一方面,计算机硬件和软件技术的发展也为多变量分析方法的应用提供了基础和工具。现在,市场调研人员要想方便地分析大量且复杂的数据已经成为可能,多变量分析方法已经成为资料分析中一种重要的工具和手段。这里我们简单介绍最常用的三种多变量分析法:因子分析法、聚类分析法和判别分析法。
8.5.1 因子分析法
因子分析(factoranalysis)是一种研究一组变量之间相互关系的多变量统计分析技术。因子分析法可以从一组变量的观察值中分析出决定和影响这组变量变化的、共同的本质因素,我们把它们称为因子。这样把数量上较多的原始变量简化、压缩或概括为数量上较少的综合变量,加深对所研究问题本质的认识。
1.因子分析的作用与用途
(1)因子分析法可以揭示变量之间的相互关系。市场调研中所遇到的问题通常是多变量的。例如,在研究顾客对不同品牌商品的购买决策时,必须考虑到顾客的选择是对商品的价格、式样、包装、商标和质量等一系列因素进行综合评价的结果。企业在决定某一种商品的销售渠道时,也必须考虑到不同中间商的经营能力、经济实力、地理位置、知名度以及公司之间合作时间长短等多种因素。对于某一个特定问题而言,影响问题的各个变量相互之间往往存在一定的相关性,可能都受某种共同因素的强烈影响。因子分析法可以帮助我们发现原始变量中所隐含的相互关系,认清问题的本质,使研究的结果更加明确、更加深刻。
(2)因子分析法可以使问题更简单、更直观。因子分析法通过确定初始因子,继而进行因子旋转,压缩和简化变量,大大减少变量的个数,达到简化问题的目的。曾经有人对于消费者购买鱼肉类产品的态度和行为进行了研究,发现不同的消费者对购买牛肉、鱼、羊肉、猪肉和鸡肉的态度和行为往往是不同的。然后,他对部分消费者购买上述5种食品的态度和行为进行了调查,并用因子分析法进行分析。结果发现,当地消费者购买这类产品时,主要考虑的只是两个因素:含脂肪多少以及价格高低。这两个因素正是影响人们对于5种食品有不同购买态度和行为的共同因子,从而使所研究的变量减少到了两个,大大简化了问题的性质。
2.因子分析法中的主要概念和步骤
(1)因子的含义和因子得分
因子分析法中所谓的因子,实际上就是一系列所研究的初始变量的线性组合。
(2)因子载荷
所谓因子载荷(factorloadings)就是要分析每一个原始变量xi对于因子Fj影响的大小。
(3)旋转、决定因子数目和因子命名
初始得到的一组因子与原始变量之间的关系往往是没有规律的,因此,因子本身的实际含义也常常是不明确的。为此,需要对坐标轴进行旋转,使原始变量与因子间的载荷尽可能地接近于绝对值1或者是0.对于经过旋转后的一组因子,还需要决定所保留因子的数目。这需要在精确性和简洁性两方面作权衡。要使新的一组因子更精确地反映原始变量的变动状况,需要保留较多的因子,但这样做会使问题仍然显得过于复杂。而仅保留较少的因子,尽管在反映原始变量的变动方面会产生误差,却能使问题变得简单而明确。最后保留下来的因子在经济、物理或统计上的含义也会比较清晰。分析人员可以根据经过旋转后得到的最终一组因子与原始变量之间的关系,对最终一组因子命名。
(4)利用新因子对原问题进行研究
在得出一组新因子并对新因子命名以后,就可以根据新因子对原问题开展研究了。由于新因子的个数要远少于原问题的变量,所以利用新因子对原问题进行研究会简单得多,就有可能得出更合理、更正确的结果。
8.5.2 聚类分析法
1.聚类分析的作用与用途
聚类分析法(clusteranalysismethod)是一种研究分类问题的多元统计分析方法。聚类分析的主要作用是将对象或事物进行分类,使归入同一类中的对象或事物尽量具有类似的特性,而不同类别之间的对象或事物具有显著的差异。
市场调研中存在着大量的分类问题。在实施市场细分策略时就需要对消费者进行分类,把动机、行为、态度和习惯等特征比较一致的消费者归入一类,组成一个细分市场,从而把整个市场划分为若干个细分市场。由于影响市场需求的因素很多,各种因素相互影响,会产生交互作用,因此,不能只依据某一个因素进行划分,而要用一系列因素的组合来确定分类的结果。这就需要采用一定的数学方法,将有关因素综合起来分析。聚类分析法正是提供了解决这类问题的一种方法。
除了实施市场细分策略需要对消费者进行分类外,市场调研中还需要对产品进行分类,对各类商店进行分类,对营销业务人员进行分类,对广告进行分类等。对于这些分类问题都可以用聚类分析法来解决。
2.聚类分析的原理
聚类分析中用来作为分类依据的因素称为指标。如果我们按顾客的年龄、收入和文化程度来进行分类,那么,年龄、收入和文化程度就是三个指标。我们把每一个分类对象称为一个样本。对于每个样本都可以得到相应的一组指标的值,称为样本观察值。假如在一次调研中获得了一批样本的观察值,聚类分析就是要根据关于这些指标的样本观察值,找出一些表示样本之间相似程度的度量值,然后,以这些度量值作为划分类型的依据。把一些互相比较相似的样本归入一类,另一些互相比较相似的样本归入另一类,如此继续,直到把所有的样本都聚合到不同的类别中去为止。
(1)分类指标的类型和确定方法
聚类分析的关键是测量被研究对象之间的相似性,根据相似性对研究对象进行分类。衡量研究对象之间相似性的数量指标通常有两种:一种是距离;另一种是关联系数。
①距离。如果我们是以N个指标对样本进行分类,则我们就可以把每个样本观察值都看做是N维空间中的一个点。这样,两个样本之间的相似程度就可以用N维空间中两个点之间的距离来度量。我们总是把距离相对较接近的那些样本归入同一类。通常会采用明考斯基(Minkowski)距离作为度量函数。
设样本i的观察值为(xi,1,xi,2……,xi,N),样本j的观察值为(xj,1,xj,2……,xj,N),如果用Di,j表示两个样本观察值之间的距离,则:
NDq1/qi,j=[∑(xi,k-xj,k)]
k=1其中:xi,k,xj,k(k=1,2……,N)分别为样本i和样本j的观察值。
明考斯基距离最常用的形式是当q=1或2的情形。当q=1时:
NDi,j=∑|xi,k-xj,k|k=1这就是通常的绝对值距离。当q=2时:
NDi,j=∑(xi,k-xj,k)k=1槡2这就是通常二维空间中两点之间的距离。
②关联系数。以距离作为分类依据的出发点是,认为样本指标的绝对值包含了有用的信息,但有时样本指标的相对值才包含对问题有用的信息。例如,有时我们认为指标值成比例的两个样本才是完全相似的。此时,用距离作为度量指标就不合适了,我们通常会采用关联系数作为度量相似性的指标。我们每次总是把关联系数最大的那些样本归入同一类。最常用的关联系数有两种:夹角余弦和相关系数。
第一,夹角余弦。把样本i的观察值与样本j的观察值分别看做是N维空间中的两个向量,它们之间的夹角余弦记做cosθi,j,则由解析几何的知识可知:
N∑xi,kxj,kcosθk=1i,j=NN∑(xi,k)2∑(xj,k)2k=1k=1如果cosθi,j越接近于1或者-1,则样本i与样本j就越相似。
第二,相关系数。我们也可以把根据两个样本的观察值计算得到的皮尔逊相关系数r定义作为实施聚类分析的指标,于是两个变量观察值之间的关联系数可以按下列公式来定义:
∑(xri,k-xi)(xj,k-xj)i,j=∑(xi,k-xi)槡2∑(xj,k-xj)槡2其中:xi和xj分别为(xi,1,xi,2……,xi,N)和(xj,1,xj,2……,xj,N)的平均值。
(2)实施聚类分析的方法
用聚类分析法对样本进行分类时的计算方法通常有两种:系统聚类法和逐步聚类法。
系统聚类法又称做由下向上法。首先,把每个样本看做一类,计算样本间的距离或者关联系数,然后,根据样本间的最小距离或最大关联系数,把最接近的样本合并成为一类,再重新计算各类别之间的距离或相关系数,再归类,直至把所有的样本都合并成所要求的聚类数目为止。用这种方法进行计算时,样本间的距离很容易求得,但类别与类别之间的距离有各种不同的定义法。通常使用的是最短距离法,即把两类中样本之间最短的距离定义作为类别与类别之间的距离。
逐步聚类法又称做由上向下法。这种方法首先把所有的研究样本都看做一类,或粗略地分成指定的若干类,然后,按照某种最优的选择原则,将每一类样本重新进行调整,分解成为几个新的类别,如此继续,直到分类的结果满足要求为止。采用逐步聚类法进行分类时,通常分为三个步骤:首先是选择凝聚点。所谓凝聚点是指一些有代表性的可作为初步分类的核心。凝聚点选择的好坏会直接影响随后的初步分类、最终分类的结果和计算时间,因此尽量要选择得合理一些。其次是初步分类,将全部样本按照凝聚点初步划分成若干个相互独立的类别。最后是调整分类,将每个类别中的样本按初步分类时所规定的原则进行调整,把不合适的样本归入其他类别当中,直到调整结果满足要求为止。
无论是系统聚类法,还是逐步聚类法,要分解到何种程度或多少类别都是需要调研人员主观判断来决定的。判断的原则是尽量使得对每一类的解释比较容易,而且,分类结果要具有一定的稳定性。
8.5.3 判别分析法
1.判别分析的作用与用途
判别分析法(discriminantanalysismethod)是一种判断样本所属类型的多变量统计分析方法。判别分析所研究的是,在已知被研究对象分成为若干个类别的情况下,判断新的样本应当属于哪一类的问题。判别分析与前面所讨论的因子分析和聚类分析不同,后两者都是研究分类问题的,而判别分析则是研究判断新样本应当属于哪一种已知类型的问题。
判别分析在市场调研中也有广泛的应用。例如,在决定引进何种新产品的市场调研中,如果公司拥有以前引进的许多产品的资料,某些是成功的,某些是失败的,那么,判别分析就可以根据各种有关变量的历史资料来建立起判断哪些新产品可能成功,哪些新产品可能失败的判别模型。如果判别模型对于过去所引进产品成败的评价是成功的、有效的,那么就可以用来对新产品的成功率进行预测。判别分析也能通过比较两组或更多组的消费者特征,识别他们之间的区别,从而决定某一个新的消费者究竟属于哪一类。我们也可以利用判别分析法,通过研究一种产品或服务的用户与非用户之间的差别,研究一个商店的顾客与另一个商店的顾客之间的差别,来决定一个新对象所属的类别。
2.判别分析的原理和步骤
为了判别一个新对象所属的类型,要解决两个相互关联的问题。首先,需要把有关的变量以某种方式组合起来,使得它们的判别能力达到最大。其次,要建立一个规则,使得据此能把一个新对象归入某一类之中。下面顺序讨论这两个问题。
(1)确定判别函数
假如为了掌握某类产品用户的特点,调研公司抽样调查了50名消费者,其中,25人是这类产品的用户,另外25人是非用户。经过调查,初步确定消费者究竟是用户还是非用户是由消费者的年龄和收入两个因素所决定的。为此,我们调查每个样本消费者的年龄和收入情况。
(2)对新对象进行分类
在确定判别函数以后,就可以对新对象进行分类了,即根据新对象的判别函数的值,决定其所属的类别。为此,我们首先根据新对象对于两个原始变量的观察值,应用判别函数计算出新对象的Y值,然后,决定这个Y值是接近于用户组的Y均值,还是非用户组的Y均值。所示,Y轴上两个均值之间的中点就是分类中的临界点。当然,分类也不是非常完美的。对于某些对象也许会产生错误的分类。可是,如果判别函数是有效的话,错误的数目就可以做到很小。
有两种情况可能会改变调研人员把新对象归入Y轴上离均值最接近的一类的规则。第一种情形是错误分类所产生的成本对于每一类型是不一样的情形。例如,调研人员宁可把一个非用户看做是用户,而不愿把一个可能的用户看做是非用户。
这时,分类的临界点就可能会向非用户的均值方向移动。第二种情形是其中一类中的个数可能大大超过其他类别中的个数。例如,如果总体中的90%是用户,则对于随机地选择的对象,不管所得到的判别函数的值是多少,更可能是用户。因此,临界点的位置也应当根据总体中各个类别的大小来进行调整。
应用判别分析法不仅可以把总体分为两类或两群,还可以把总体分为更多的组或群。当要求把总体分为多于两组时,通常需要确定几个判别函数。显然,一个判别函数能够进行分为两组的判别分析,可见,三组之间的差异要描在一条直线上就有困难了。此时,可以再确定一条与第一条直线垂直的判别函数(直线)。于是,三个组的均值能够表示在一个二维空间中了。一般地,分析人员需要确定的判别函数数目等于分群数目减去1.不过,实际上即使要分的组数大于三组,通常两至三个判别函数也够了。
当组数大于两组时,把某一个对象归入某一组的处理办法也与分为两组的情形相同。首先,根据每个判别函数决定每组的均值。对于要分组的新对象,也根据判别函数计算出相应的值,据此一般情况下即可决定所属的组或类别。对于特定情况,要分组的新对象在满足根据分类错误的成本以及各组的规模大小不同进行调整的条件下,也可以归入另外适当的组或类别。