残差是谁减去谁,方差分析(Analysis of Variance,简称ANOVA),用于比较多个总体的均值是否想等,由英国统计学家费希尔(Fisher)首先引入。目前已经广泛应用于分析心理学、生物学、工程和医药的试验数据。
一个例子
消费者与产品生产者、销售者或服务提供者之间经常发生纠纷。当发生纠纷后,消费者常常会向消费者协会投诉。为了对几个行业的服务质量进行评价,消费者协会在零售、旅游业、航空公司、家电制造业抽取了不同的企业作为样本。其中所抽取零售业7家、旅游业6家、航空公司5家、家电制造业5家。每个行业中抽取的这些企业,服务对象、服务内容、企业规模等方面基本上相同的。然后统计出最近一年中消费者对总共23家企业投诉的次数,结果如下表:
问题:我们想知道这几个行业之间的服务质量是否有显著差异?
一般来说,被投诉次数越多,说明服务质量越差。
要分析这四个行业之间的服务质量是否有显著差异,其实就是要判断行业(自变量)对被投诉次数(因变量)是否有显著影响。
相关术语
因素:检验的对象,在上面的例子中指行业。
水平:因素的不同表现,在上方的例子中指零售业、旅游业、航空公司、家电制造业。
观测值:每个因子水平下得到的样本数据,在上方的例子中指每个行业下得到的被投诉次数(样本数据)。
方差分析的基本原理
1、图形描述
绘制出被投诉次数和行业的散点图,如下图所示。
从散点图可以看出,不同行业被投诉的次数是有明显差异的,而且,在同一个行业,不同企业被投诉的次数也明显不同。例如,家电制造业被投诉次数最多,航空公司被投诉次数较少,表明行业与被投诉次数之间有一定的关系。
说明:上方的图形通过Excel绘制,绘制折线图,然后调整样式。
2、误差分解
在方差分析中,误差通过平方和来表述。
反应全部数据误差大小的平方和为总平方和,记为SST
反应组内误差大小的平方和称为组内平方和,也称为误差平方和或者残差平方和,记为SSE
反应组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA
总误差(SST)=组内误差(SSE)+组间误差(SSA)
单因素方差分析
根据所分析的分类型自变量的多少,方差分析可分为单因素方差分析和双因素方差分析。当方差分析中只涉及一个分类型自变量时称为单因素方差分析。
方差分析分为三步:
1、提出假设
2、构造检验的统计量
3、统计决策
具体操作如下:
第1步:提出假设
第2、3步:构造检验的统计量及统计决策,具体计算公式及相关理论如下:
说明:Excel、SPSS等分析工具可以直接给出分析结果,所以具体计算及理论可不必深究!
求出回归方程y=bx+a(b,a直接套公式即可),然后把表格中每一个x值通过方程算出对应的每一个y值,最后与表格中的y值对应相减即可。残差的说明:如果样本点和样本点之间的的残差比较大,需要确认在采集过程中是否有人为的。
用Excel做单因素方差分析
下面通过单因素方差来解决前面提出的问题:
问题:我们想知道这几个行业之间的服务质量是否有显著差异?
第1步:提出假设
第2、3步:构造检验的统计量及统计决策,这里通过Excel数据分析库直接给出,具体操作如下。
这里需要用到Excel中的“数据分析”库,需要设置才能显示出来,设置方法如下。
1、文件-选项,打开如下对话框,选择加载项
2、选择“Excel加载项”,单击按钮“转到”,勾选分析工具库、分析工具库-VBA
经过以上操作,Excel中的“数据”标签最右侧会出现“数据分析”按钮。
下面通过Excel里面的“数据分析”库进行单因素方差分析:
残差计算思路如下:先求出回归方程y=bx+a(b,a直接套公式即可),然后把表格中每一个x值通过方程算出对应的每一个y值,最后与表格中的y值对应相减即可。数据点和它在回归直线上相应位置的差异(Yi-yi)是随机误差的效应。
1、单击“数据”-“数据分析”
2、选择“单因素方差分析”
4、单击确定后,Excel会直接给出单因素方差分析的结果
分析结果说明:
Excel给出的分析结果分两块:
1、SUMMARY(概述)
数据的描述性统计量:观测数、求和、均值和方差。
2、方差分析表
关于方差分析的相关结论:
组间误差、组内误差和总误差。
自由度。
标准残差,就是各残差的标准方差,即是残差的平方和除以(残差个数-1)的平方根 。以δ表示。残差δ遵从正态分布N(0,σ2)。(δ-残差的均值)/残差的标准差,称为标准化残差,以δ*表示。δ*遵从标准正态分布N(0,。
组间方差、组内方差。
P值和F值。
统计决策:
这里主要关注最后的P值,如果P较小(指小于0.05),则拒绝原假设,反之,则接受原假设。
这里看到P值约为0.04,比较小,所以拒绝原假设,即不同行业的被投诉次数的均值不完全相同。
结论:不同行业的被投诉次数的均值不完全相同,即行业对被投诉次数的影响是显著的。
你是否用过方差分析呢?通过什么工具来做方差分析呢?欢迎留言评论!
标准残差,就是各残差的标准方差,即是残差的平方和除以(残差个数-1)的平方根 。以δ表示。残差δ遵从正态分布N(0,σ2)。(δ-残差的均值)/残差的标准差,称为标准化残差,以δ*表示。δ*遵从标准正态分布N(0,。