7.2.1 影响抽样规模的因素
确定抽样规模,或者是样本大小,是市场调研中的一个重要决策。如果样本数目太少,就很难保证现场调查所收集到的数据足够有效,而样本数过多又会导致费用过高,超过预算。适当抽样规模的决定是一个涉及财务、管理和统计三个方面的问题。实际上,市场调研人员在决定样本大小时会受到下列因素的影响。
1.财务上的考虑
由于现场调查费用在整个调研预算中占了很大的比重,所以,在整个调研预算确定的情况下,样本大小就会受到预算的严格限制。尽管由预算来决定抽样规模看来缺乏科学性,但实际上,任何一项调查的样本通常确实总是直接、间接地由可支配的预算所决定的。在决定抽样规模时还必须考虑到抽取每一个样本所需要花费的成本。如果每一个样本的取样成本越低,就越应该抽取较多的样本数,反之,就只能抽取较少的样本了。
2.管理上的考虑
决定抽样规模的问题从管理角度看最为复杂。从管理上考虑,决定样本大小时必须考虑到:需要分析的组或子群数、所要调查的信息价值大小、预期的回收率、允许误差和要求达到的置信度大小。
(1)需要分析的组或子群数。在几乎所有的调研问题中,组或者子群之间的比较都是提供有用信息的重要手段,也往往是开展调研的目的之一。因此,在任何一个确定样本规模的问题中,首先都必须考虑到所要分析的总体子群数,而且必须考虑到代表总体的最小组或群体的样本数。确保最小组的样本数也达到足够大是保证调查结果可靠的重要手段。经验表明,抽样规模要大到足以保证每一个要分析的子群中的样本数至少为100或更多,因此,所要分析的子群数目越大,所需要的总体样本数也就越大。有时,为了调研的需要,在组或子群下面可能还需要分更次级的组或群体,这样一来所需要的样本规模就更大了。
例如,某市旅游部门想要通过对三类公众的调查,获得他们对改进某湿地公园建设的建议:①湿地公园的常客;②偶尔到湿地公园游玩的人;③从未游过湿地公园的人。如果三类公众中经常到湿地公园游玩的人最少,仅占总体人数的10%,如果调研设计规定,实施分层的按比例抽样调查,为了保证人数最少的湿地公园常客的样本也达到100人,则样本的总数就需要达到1000人。当然,如果总体中的某些组只在总体中占有相对较小的百分数,那也可以采用不按比例的分层抽样法。
(2)所要调查的信息价值大小。从管理的角度看,决定样本大小时还需要考虑到所要调研信息的总体价值大小,特别对调查结果精确度的要求。如果信息价值大,对调查结果精确度的要求高,就应当考虑增加样本数,否则就可以减少样本数。
(3)预期的回收率。决定样本大小时还需要考虑到数据资料的回收率。如果要求最终获得500份有效问卷的调查数据,而估计的回收率是40%,则初步决定的抽样规模至少就应该达到1250个。
(4)允许误差和要求达到的置信度大小。抽样调查的目的多半是估计总体参数。如果管理上对估计结果精确度的要求很高,也就是允许的误差范围很小,那么样本数目就必须多一点;但如果管理上对估计结果精确度的要求不高,则允许的误差范围就可以比较大,样本数少一点也就能满足要求了。如果要求估计的置信度很高,也就是要求估计的可靠性很高,就必须有较多的样本数才能得到保证;否则,只要较少的样本数就足够了。而允许误差和置信度大小都是出于管理上的考虑而决定的。
3.统计上的考虑
从统计的角度看,抽样规模大小应当满足调研目标对调查结果有效性和精确度的要求。如果总体中个体之间的差异很小,则我们只需要抽取较少的样本就可以了;如果总体中个体之间的差异很大,则不仅需要抽取较多的样本,而且如果差异大到一定程度就更需要实施分层抽样了。如果总体中个体间的差异情况(总体方差或标准差)已知,调查结果的允许误差事先设定,调查结果的可信度(置信度)也事先确定,我们就可以根据传统的统计学方法计算出为了满足问题的要求所需要的最小样本数了。
7.2.2 确定样本大小的统计学方法
尽管样本大小的决定受多种因素的影响,但是,根据统计学方法来计算得到的样本大小是最科学、最合理的。采用统计学的方法来确定样本大小时,根据要估计的参数不同需要采用不同的公式。
1.均值估计问题中样本大小的确定
统计学中区间估计的理论为我们提供了确定样本大小的基础。为了估计某一总体的均值μ,我们可以从总体中随机地抽取一定数量的样本,计算出样本平均数珚X。统计理论证明,假如原总体是正态分布的,标准差为σ,抽取的样本数为n,则这个样本平均数X也是服从正态分布的,其正态分布的均值就是原总体的均值μ,而其标准差就为σ。在确定区间估计的置信度为(1-α)以后,查表得到Zα/2槡n的值,我们可以得到,总体均值μ落在如下范围内的概率就是(1-α):
珚X-Zα/2·σ≤μ≤珚X+Zα/2·σ槡n槡n假设管理上允许的估计误差为E,根据上式我们就得到估计的实际误差Z应当不大于E,即满足:
α/2·σ槡nZα/2·σ≤E槡n第7章抽样调查和现场调查/571由此,我们就得到:
Z2n≥α/2·σ2E2由于统计学中进一步证明了,即使对于总体并不服从正态分布的情形,只要样本数量足够大,上述结论也仍然是成立的,因此,一般地我们总能得出上面这样的结论。
由此可见,为了计算出估计总体均值所需要的样本数,需要掌握3个数据:
(1)管理上允许的估计误差E;(2)管理上要求的估计结果的置信度(1-α),由此查表得到Zα/2;(3)有关人员对总体标准差σ的估计值。
将这3个数据代入上述公式,取满足条件的最小整数,就可以得到所要求的最小样本数了。
[例7-1]为了调查最近3个月内网上购物者的平均年龄,我们需要决定对网上购物者进行抽样调查时的样本大小。假定管理上要求估计值与实际值之间的差距不超过1,而且要求实际值落在估计区间以内的置信度达到95%。而类似的调研表明,网上购物者年龄的标准差为8.
于是,我们直接根据上述公式就可以得到:
n≥1.962·82=245.912可见,要达到调查的目的要求,至少要选取246个近3个月内网上购物者的样本。
2.比例估计问题中样本大小的确定在需要估计总体中具有某种属性或特征的个体比例P时,我们同样可以利用区间估计的结果来确定所需要的样本数。统计理论证明,当样本数量足够大时,从总体中抽取的样本中具有某种属性或特征的个体比例p也是满足正态分布的。如果抽取的样本数为n,其正态分布的均值就是总体中具有某种属性或特征的个体比例P,则正态分布的方差就是P(1-P)n。如果要求估计结果的置信度为(1-α),查表得到Zα/2的值,统计学中关于比例的区间估计的结果告诉我们,总体比例P落在如下范围内的概率就是(1-α):
p-Zα/2·P(1-P)槡n≤P≤p+Zα/2·P(1-P)槡n尽管上式在估计总体比例P时又用到了P,似乎陷入了循环推理之中。不过,统计理论告诉我们,只要样本容量n足够大,并且满足np和n(1-p)都大于5的条件,在上式的左右两项中,直接用样本比例p代替总体比例P,所得到的估计结果仍然是可靠的。因此,可以得到:
p-Zα/2·p(1-p)槡n≤P≤p+Zα/2·p(1-p)槡n671/市场营销调研假设管理上允许的对比例的估计误差为E,则上式中的实际估计误差Zα/2·p(1-p)槡n应当不大于E,即满足:
Zα/2·p(1-p)槡n≤E由此,我们就得到:
Z2n≥α/2·p(1-p)E2由此可见,为计算估计总体比例所需要的样本数,也需要掌握3个数据:
(1)管理上对比例估计的允许误差E;(2)管理上要求的估计结果的置信度(1-α),由此查表得到Za/2;(3)通过预调查获得的对总体比例的事先估计值p。
将这3个数据代入上述公式,取满足条件的最小整数,就可以得到所要求的样本数。
[例7-2]为了调查最近3个月内网上购物者中年龄在60岁以上的人的比例,我们需要决定对这类网上购物者进行抽样调查的样本大小。假定管理上要求估计值与实际值之间的差距不超过1%,而且要求实际值落在估计区间以内的置信度达到95%。而小范围的调研表明,60岁以上的网上购物者的比例约为6%。
于是,根据上述公式,我们就可以得到:
n≥1.962×0.06×0.94=2166.660.012可见,要达到调查的目的要求,至少要选取2167个近3个月内网上购物者的样本进行调查。