第二节 变量间关系分析的统计推断
变量间关系分析的统计推断是应用统计学的抽样理论和假设演绎的推理方法,对总体参数进行区间估计和假设检验的过程。
区间估计是通过计算某变量的统计量(反映该变量的样本数值特征或分布特征的指标),在一定的概率下估计该样本所代表的总体参数可能存在的某个范围(区间),如某总体均数的95%可信区间、某总体率的95%可信区间。
假设检验是比较某变量的样本统计量(实际上是该样本所代表的总体的总体参数)与另一总体参数的不同,或比较两个样本统计量(实际上是该两个样本指标分别所代表的两个相应总体参数)的不同,作出差异是否具有统计学意义推断结论的检验方法,如t检验、方差分析等。
一、统计推断的判断准则
统计推断是在一定统计条件和准则下,对样本统计量与总体参数差异的统计学意义的判断。其遵循的基本准则是小概率事件实际不可能发生原理。
通常习惯上把P≤0.05或P≤0.01的事件称为小概率事件。除特别注明以外,小概率事件一般是指P≤0.05的事件。
由于小概率事件的概率较小,发生的可能性不是太大,甚至接近于0,所以在日常生活中普遍认为“在1次试验中小概率事件实际上是不可能发生的”,被称为小概率事件实际不可能发生原理。
严格意义上讲,它是人们在长期实践中总结出的一条统计学公理,是把P = 0.05或P =0.01作为差异是否具有统计学意义的界值依据,是统计学假设检验拒绝或不拒绝无效假设H0的判断准则。
二、统计推断的思维方法
统计推断的推理方法是一种反证法。确切地说,是基于小概率事件实际不可能发生原理的反证法。
反证法(proofs by contradiction)又称归谬法或背理法,是一种间接的论证方法,首先作出反设:与求证命题相反的假设;然后归谬:以反设作为条件,推理导出矛盾;最后下结论:说明反设不成立,原命题成立。
推断样本统计量(如样本均数)与相应总体参数(如总体均数)之间有无统计学差异,严格地说,是指该样本所来自总体的参数与相应另一总体参数之间有无差异;推断两样本统计量(如两样本均数)之间有无统计学差异是指两样本所来自的两个总体的参数之间有无差异;同样,多样本统计量(如多样本均数)之间有无统计学差异也是指多样本所来自的多个总体的参数之间有无差异。
简单地,统计学上将差异分为抽样误差和本质差异。差异具有统计学意义是指在假设检验时拒绝了抽样误差,接受了本质差异;差异没有统计学意义是指不拒绝抽样误差,而拒绝了本质差异。所以,统计推断就是按照小概率事件实际不可能发生原理判断各比较组(总体)之间存在差异的原因——本质差异或抽样误差。
由于抽样研究中抽样误差是绝对存在的,其大小可以估算,所以统计学上首先提出无效假设H0,即不同样本之间存在的差异由抽样误差所致,与本质差异无关或无太大关系(与H0对立的假设是备择假设H1,即其差异由本质差异造成),然后根据分析目的和给出的统计条件(如变量的性质、数据的类型等),选定具体的统计计算方法,计算H0不被拒绝的概率P值。
若P≤α(α为显著性水准,是判断小概率事件的概率界值,习惯上α定为0.05或0.01),根据小概率事件实际不可能发生原理,本次抽样中的差异不是抽样误差所致,即拒绝H0,而接受H1;若P>α,根据该原理,没有理由认为差异不是抽样误差引起的,故不拒绝H0,而拒绝H1。
三、统计推断中的两类错误
需要指出的是,统计推断中无论是拒绝H0、接受H1或是不拒绝H0、拒绝H1,都会出现两类错误,即第一类错误和第二类错误,表3-1。
若抽样误差引起的概率P≤α,拒绝H0时,可能犯第一类错误,又称α错误或假阳性,即H0实际是正确的,但被拒绝了,没有被接受,临床上称为误诊。
若抽样误差引起的概率P>α,不拒绝H0时,可能犯第二类错误,又称β错误或假阴性,即H0实际是不正确的,但没有被拒绝,反而接受了,临床上称为漏诊。
由于两类错误的存在,所以统计分析的结论并非绝对正确。