3)数据的表示
生态学研究往往是用样本的信息来推断总体的特征,由于抽样误差,样本的平均数并不恰好等于总体平均数,这样由于抽样导致的样本平均数与总体平均数之差称为均数的抽样误差。同时,由于取样的数量不同,所得样本的均数也不一定相等。样本平均数是否能够反映总体平均数,取决于研究工作对正确性的要求。这个正确性的水平就是检验水平。
3.平均数比较
生态学研究中,在正态或近似正态分布的数据资料中,经常在描述统计过程分析后,还要进行组与组之间平均水平的比较。常需要通过比较不同实验组数据之间的相似性或差异来得出结论,即常用的t检验和单因素方差分析。如通过比较生长在不同土壤中的同一种庄稼的产量,得出某一种土壤比另一种更适合庄稼生长的结论。两个实验组之间平均数的比较常用t检验(t-testing);多个实验组之间平均数的比较则常先用单因素方差分析(one way ANOVA)进行F检验,如果整体有差异,再通过Duncan法等进行实验组两两之间的多重比较。
1)t检验
t检验法是指在小样本(n<;30)的情况下,检验随机变量的数学期望是否等于某一已知值的假设的一种检验方法。设X1,X2,X3,…,Xn是正态随机变量X的一个样本,期望Mx等于已知值mo,服从自由度n—1的t分布。预先给定信度a,查t分布表,得ta,与计算的t值比较,若|t|fc,则拒绝原假设,两个正态随机变量均为小样本时,t检验法可用来检验它们的数学期望是否有显著差异。
当样本含量n<30且总体方差σ2未知时,要检验样本平均数x与指定的总体平均数μ0之间的差异显著性,或检验两个样本平均数x1和x2所属总体平均数μ1和μ2是否相等,就必须使用t检验。生态学上常用的是样本平均数与总体平均数比较的t检验和成组设计两样本平均数比较的t检验。由于实验条件和研究对象限制,许多生物学研究很难达到样本含量n>30,特别是研究总体的方差s2在绝大多数情况下是未知的,因此,t检验在生物学研究中具有重要的应用意义。
(1)样本平均数与总体平均数比较的t检验
这是检验某一样本平均数是否和某一指定的总体平均数相同。这种检验主要是推断样本平均数f所代表的未知总体平均数μ与已知的总体未知均数μo是否相等。
例如,某春小麦良种的千粒重μ=34g,现自外地引入一高产品种,在8个小区种植,得其千粒重的平均值为35.2g,标准误差为0.58g,问新引入品种的千粒重与当地良种有无显著差异?新引入品种抽样平均数与总体平均数不等既可能是由抽样误差引起,也有可能是由其他因素所致。为此,用t检验进行判断。首先,假设样本平均数等于总体平均数为H。(μ=μo=34g),不等为讯(μ≠34g),检验水准为单侧a=0.05。然后通过计算t值来检验两个平均数差异是否显著。t值为样本平均数与总体平均数差值的绝对值除以标准误差。最后以自由度f=n-1查t值表(该例中为单尾t检验)。如果结果为P>;0.05,则接受H。反之则接受讯。通常在研究中认为P>;0.05为没有差,0.01<P<0.05为差异显著,P<;0.01为差异极显著。
(2)两样本平均数的比较
原理同上,主要是计算出t值,确定好自由度v,然后查阅t表,查阅可信度区间。通过比较实际的置信度区间和要求的置信度区间的差异,判定样本平均数有无差异性。两样本平均数比较的t检验,是根据两个样本平均数的相差以测验这两个样本所属总体平均数有无显著差异。
其假设一般为:Ho(μ=μo)即表示两样本所属总体平均数相等;;H0(μ1>μ2或μ1<μ2)即表示两样本所属总体平均数不相等,检验水准为a=0.05(双尾t检验)。t统计量在两组样本总体方差相等的情况下,计算时用两样本平均数差值的绝对值除以两样本平均数差值的标准误差。
注意,两组小样本平均数比较的t检验的应用条件为:两样本所属的总体均符合正态分布;两样本所属的总体方差齐。故在进行两小样本平均数比较的t检验之前,要用方差齐性检验来推断两样本代表的总体方差是否相等,方差齐性检验使用F检验,其原理是看较大样本方差与较小样本方差的商是否接近1,若接近1,则可认为两样本代表的总体方差齐。判断两样本所属的总体是否符合正态分布,可用正态性检验的方法。
2)方差分析
(1)方差分析的概念
方差分析(analysis of variance,ANOVA)又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本平均数差别的显著性检验。
(2)方差分析的基本思想
方差分析就是通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。由受各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分成两类:一是不可控的随机因素;二是研究中施加的对结果形成影响的可控因素。一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析首先是在可比较的数组中,将全部观测值之间的总变异分解为由于随机误差等原因造成的组内变异和由于受外部因素的影响而造成的组间变异。然后通过计算F值来进行检验。其检验假设为:HO表示多个样本总体平均数相等表示多个样本总体平均数不相等或不全等。检验水准为0.05。方差分析处理的目的就是检验处理效应的大小或有无。通过方差分析,确定各种原因在总变异中所占的重要程度,即用处理效应和实验误差在一定意义下进行比较。若两者相关不大,则可认为实验处理对指标影响不大;若两者相差较大,则可说明实验处理的影响是很大的,不可忽视。
方差分析的应用条件类似于t检验,主要体现在以下三个方面。①可比性:各实验组平均数本身具有可比性。②正态性:各实验组数据符合正态分布。对非正态分布的数据,应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量转换方法使其分布呈正态或接近正态,再进行方差分析。③方差齐性:组间方差要整齐,先要进行多个方差的齐性检验(如Bartlett法)。
经过方差分析,若拒绝了检验假设,只能说明多个样本总体平均数不相等或不全相等。若要得到各组平均数间更详细的信息,应在方差分析的基础上进行多个样本平均数的两两比较。两两比较的方法很多,最常用的有新复极差法(如Duncan法)和最小显著差法(如LSD法)等。
下面我们用一个简单的例子来说明方差分析的基本思想。
某克山病病区测得11例克山病患者和13名健康人的血磷值(mmol·L-1)如下所示。问该地克山病患者与健康人的血磷值是否不同?
患者:0.84、1.05、1.20、1.20、1.39、1.53、1.67、1.80、1.87、2.07、2.11
健康人:0.54、0.64、0.64、0.75、0.76、0.81、1.16、1.20、1.34、1.35、1.48、1.56、1.87
从以上资料可以看出,24个人的血磷值各不相同,如果用离均差平方和(ss)描述其围绕总体平均数的变异情况,则总变异有以下两个来源:
②组内变异,即由于随机误差的原因,使得各组内部的血磷值各不相等。
②组间变异,即由于克山病的影响,使得患者组与健康人组的血磷值平均数大小不等。
由于ss总=ss组间+ss组内,v总=v组间+v组内,如果用均方代替离均差平方和以消除各组样本数不同的影响,则方差分析就是用组内均方去除组间均方的商(即F值)与1相比较。若F值接近1,则说明各组平均数间的差异没有统计学意义;若F值远大于1,则说明各组平均数间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。
(3)方差分析的分类
根据对观测变量产生影响的控制变量的多少,可以将方差分析分为单因素方差分析和多因素方差分析。详细方法及原理可参照《生物统计分析》(Zar,1984)或《生态学实践方法》(Henderson,2003)。
3)非参数检验
许多统计分析方法对总体有特殊的要求,如t检验要求总体符合正态分布,F检验要求误差呈正态分布且各组方差整齐。这些方法常用来估计或检验总体参数,统称为参数检验。但许多调查或实验所得的科研数据的总体分布未知或无法确定,这时做统计分析常常不是针对总体参数,而是针对总体的某些一般性假设(如总体分布),这类方法称非参数检验(nonparametric test)。由于非参数检验在推断过程中不涉及有关总体分布的参数,因而得名为“非参数”检验。最常见的用于两组实验数据比较的非参数检验法是Mann-Whitney检验(或称为Wilcoxon-Mann-Whitney检验)。如果要比较的是非正态分布的多个实验组,用Mann-Whitney检验就不准确了,应该做非参数相似性比较(Kruskal-Wallis test),再进行非参数多重比较。
4.回归和相关
回归和相关(regression and correlation)是用来分析两组或两组以上实验数据之间相关关系的两种常用的统计学方法。
1)相关分析
(1)相关分析的概念
相关分析(correlation analysis)是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间相关关系的一种统计方法。相关分析仅限于测定两个或两个以上变量具有相关关系者,其主要目的是计算出两个或两个以上变量间的相关程度和性质。
生态学研究中经常会遇到两个不同变量密切关联的情况,一个变量发生变化,另一个也会相应地发生变化,如树木的年龄与树干的直径、鱼的体长与体重、摄食量与增重等。变量间的关系有两类。一类是变量间存在着完全确定的关系,可以用精确的数学表达式来表示。如正方形的面积S与边长a的关系可以表达为:S=a2。它们之间关系明确,只要知道了其中一个变量的值,就可以精确地计算出另一个变量的值。这类关系称为函数关系。另一类是变量间不存在完全确定的关系,不能由一个或几个变量的值精确地求出另一个变量的值,但变量之间又密切关联,这类关系称为相关关系,存在相关关系的变量称为相关变量。
(2)相关程度的度量方法
下面将介绍判断两个变量间的线性相关关系的方法。判断变量间的线性相关关系是通过相关程度和相关方向来表达的。
①相关程度是研究变量间相互关系的密切程度。
②相关方向又分为正相关和负相关两种。正相关表示两个变量间呈现同方向变化的相关,y随x的增大而增大,减少而减少。负相关表示两个变量间呈现反方向变化的相关,y随x的增大而减少,减少而增大。
(3)相关分析的分类
①线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。
a.正相关:如果x、y变化的方向一致,如身高与体重的关系,r>0。
b.负相关:如果x、y变化的方向相反,如吸烟与肺功能的关系,r<0。
c.无线性相关:r=0。
如果变量y与x是函数关系,则r=1或r=-1;如果变量y与x是统计关系,则-1<r<1。
r的计算方法有三种:
Pearson相关系数:对定距连续变量的数据进行计算。
Spearman和Kendall相关系数:分类变量的数据或变量值的分布明显呈非正态或分布不明时,计算时先对离散数据进行排序或对定距变量值排(求)秩。
②偏相关分析:研究两个变量之间的线性相关关系时,控制可能对其产生影响的变量。
如控制年龄和工作经验的影响,估计工资收入与受教育水平之间的相关关系。
③距离分析:是对观测量之间或变量之间相似或不相似程度的一种测度,是一种广义的距离。它分为观测量之间距离分析和变量之间距离分析。