一、平均数的计算 不分组计算平均数
例:12名健康人血液一小时末,红细胞沉降分别为3,9,8,6,5,5,7,3,10,8,10,及4mm,计算其平均数。
xx2xnx1n分组计算平均数
xi1nin=(3+9+8+6+5+5+7+3+10+8+10+4)/12=78/12=6.50
以100名女大学生的血清总蛋白含量做成的频数表为例 每组的组限 组中值 频数 xi fi 64.0—66.0 65 3 66.0—68.0 67 5 68.0—70.0 69 8 70.0—72.0 71 11 72.0—74.0 73 25 74.0—76.0 75 24 76.0—78.0 77 10 78.0—80.0 79 7 80.0—82.0 81 6 82.0—84.0 83 0 84.0—86.0 85 1 xfxi1kiN
=(x1f1+x2f2+x3f3+……+xkfk)/(f1+f2+f3+……+fk)=(65*3+67*5+69*8……+81*6+83*0+85*1)/(3+5+8+……+6+0+1)=7382.0/100=73.8 二、标准差和方差的计算 不分组计算
以9名男子前臂长数据为例:45、42、44、41、47、50、47、46、49。
snxini12xini1 n1 X2 2前臂长X 45 42 44 41 47 50 2025 1764 1936 1681 2209 2500 47 46 49 ∑x=411 2209 2116 2401 ∑x=18841 2S=
x2xnn121884141129391
方差为标准差的平方,即 s=3*3=9
分组计算
以100名女大学生的血清总蛋白含量做频数表为例: 每组的组限 组中值 频数 xf x2f 64.0—66.0 65 3 195.0 12675 66.0—68.0 67 5 335.0 22445 68.0—70.0 69 8 552.0 38088 70.0—72.0 71 11 781.0 55451 72.0—74.0 73 25 1825.0 133225 74.0—76.0 75 24 1800.0 135000 76.0—78.0 77 10 770.0 59290 78.0—80.0 79 7 553.0 43687 80.0—82.0 81 6 486.0 39366 82.0—84.0 83 0 0 0 84.0—86.0 85 1 85.0 7225 合计 100 7382 546452 2
si1kkfxii12fxiN
N12本例∑(fx)i=546452,∑(fx)i=7382,n=100代入上式,得到
273825464522
s10010013.9
方差为标准差的平方,即 s=3.9=15.21
计算变异系数
某县调查10岁男孩身高:
2
2
CVs。身高的CV = s1/xxxs1=5.01cm:体重 1=125.62cm,
x2=23.92kg , s2=2.82kg。计算变异系数。
1=5.01/125.62=0.0399
体重的CV= s2/
x2=2.82/23.92=0.1179
以100名女大学生的血清总蛋白含量做频数表
74.3 79.5 75.0 73.5 75.8 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 74.0 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7 75.8 73.5 75.0 72.7 73.5 73.5 72.7 81.6 70.3 74.3 73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4 1、求出极差R,R = max x – min x,84.3-64.3=20.
2、根据极差和组数求出组距,按照组距划分组限。若组距为2,以64.0为起点,则全部观测值可分为11组.
3、确定组界,组界是每一组实际值的上下界。最小组的下限为64.0,它加组距,上限为66;66也为下一个组的下组限,再家2为第二组的上组限;以次类推;求出11个组的上下组限. 4、计算中值,中值是每一组组限的平均值。最小组的组中值=(64+66)/2=63; 以次类推.
5、以唱票的方式把原始数据添入相应的组限内,统计出每组的频数并计算出相应的频率。这里注意:当一个数据为72.0时,它划为72.0—74.0组,而不是70.0—72.0组,即当一个数72.0它既等于小一点组70.0—72.0的上限,又等于大一点组72.0—74.0的下限,这个数算做大一点组的,就是它划为72.0—74.0组.其它有这种情况,以此原则处理.
结果如下:
每组的组限 组中值 频数 64.0—66.0 65 3 66.0—68.0 67 5 68.0—70.0 69 8 70.0—72.0 71 11 72.0—74.0 73 25 74.0—76.0 75 24 76.0—78.0 77 10 78.0—80.0 79 7 80.0—82.0 81 6 82.0—84.0 83 0 84.0—86.0 85 1
单样本t检验
5.5、利用已知数据分析试验后的效果。已知10株杂交水稻的单株重量(g)为272、200、268、247、267、246、363、216、206、256,用显著性水平α=0.05,检验、H0:μ=250 , HA:μ>250。
我们可以把上述数据看作是:以前水稻的单株重量小于250克,为了提高产量,我们施用改良措施,当然需要花费一定费用,当水稻的单株重量大于250克时,在农业上将获得可靠的收益。我们就是要分析
施用的改良措施,能否给我们带来收益。用单样本t检验就可以达到我们的要求。
解:1、HO:μ=250
HA:μ>250
2、计算 x254.1 s46.4 s/nsx14.7 tx254.1250sx14.70.28
3、α=0.05,t0.05,(1),9=1.833。t< t0.05,(1),9
4、结论:未否定HO,虽然施用改良措施可以提高产量,但由于不能使水稻的单株重量大于250克,所以在农业上将不可能获得可靠的收益。
配对样本t检验
5.7、为了判断一种新的治疗高血压药物的疗效是否显著,选取20名患者作药效实验。首先测量每人的血压,然后服药,经过一段时间的治疗后,再测其血压值,结果如下(舒张压/mmHg):
患者序号1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 治疗前 114 117 155 114 119 102 140 91 135 114 103 140 136 126 108 142 114 113 116 121 治疗后 94 114 125 98 121 95 104 95 106 92 87 138 112 114 91 140 91 88 106 112 如果这种新的治疗高血压药物的疗效不显著的话,治疗前和治疗后患者的血压在统计上差异将不显著;反之,差异将显著。根据这种实验设计得到的数据,应用配对样本t检验,将可以在统计上确定治疗前后患者血压是否差异显著,从而确定这种新的治疗高血压药物是否有疗效。
解:1、HO:μd=0 HA:μd>0 2、计算 di=(前)-(后)
d14.85s ddi/2014.85 sd11.4 sdd11.42.54 t5.85 sd2.54n20i1 3、设α=0.05,t0.05,(1),19=1.729.t> t0.05,(1),19
4、结论:否定H0。在统计上确定,高血压患者服用这种新的治疗高血压药物后,血压确实下降了;从而确定这种新的治疗高血压药物在疗效高血压上确实有疗效。
成组法二样本t检验
5.8、用两种类型的玻璃电极测量土壤中的pH值,每种测4次;用改良的醌氢醌电极测得的结果为:5.78、5.74、5.84、5.80,用Ag/AgCl电极测得的结果为:5.82、5.87、5.96、5.89,以H0:μ1=μ2 , HA:μ1≠μ2做检验(α=0.05)。
我们是想通过比较两种类型玻璃电极测量土壤中pH值的结果,来判断两种类型玻璃电极测量土壤中pH值的一致性,即结果的一致性。如果在统计上差异不显著,说明两种类型玻璃电极测量土壤中pH值的结果是一致的,反之,结果是不一致的。根据这种实验设计得到的数据,应用成组法二样本t检验。
解:1、HO:μ1=μ2 HA:μ1≠μ2 2、计算
x1205.790 x25.885 s1=0.0416 s2=0.0580
sx1x2n11s12n21s221n1n221(41)0.0416(41)0.0580110.0357
nn442442122tx1x25.7905.8852.661
sx1x20.03573、α=0.05,t0.05(2)6=2.447. |t|> t0.05,(2),6ι
4、结论:否定HO。在统计上确定,两种类型玻璃电极测量土壤中pH值的结果是不一致的,因此,用这两种类型玻璃电极测量同一土壤中pH值的时候,对结果的解释,必须考虑两者的差异。最好确定哪
一种测量结果更接近实际,即更准确;应该从两点考虑:一结果与实际接近的程度,二每种仪器的稳定程度。
二项分布检验(百分数检验)
通过比较百分数之间的差异,确定试验处理之间是否存在差异,从而确定试验处理的有效性。 例、有一批蔬菜的种子,平均发芽率为p0=0.85,现随机抽取500粒,用种衣剂进行浸种处理,结果有445粒发芽,试检验种衣剂浸种对促进种子的发芽有无效果。
如果这个种衣剂浸种确实对种子的发芽有影响,试验前和试验后种子的平均发芽率将不一样;通过从统计上比较两种情况下的发芽率,可以得出是否有影响的结论。
解:1、H0:p=po=0.85 HA:p≠po 2、计算
n=500 p=445/500=0.89 qo=1-po=1-0.85=0.15 p u=(p-po)/σp =(0.89-0.85)/0.016=2.5 3、α=0.05,u0.05=1.96, u> u0.05=1.96
4、结论:否定H0。由于统计上确定处理可以改变发芽率,即由0.85变成0.89,故可以认为种衣剂浸种能够显著提高种子的发芽率。
注意:当已给的条件np或nq都大于5时使用上式,但当np或nq有一个小于5时,要用连续性矫正公式: u=(|p-po|-0.5/n)/σp 一个总体的置信区间
xPtt12s2npoqo0.850.150.016 n500小样本资料,σ未知时,μ的1-α置信区间 可推出置信区间的计算公式为:
例、已知6名工人血红蛋白的有关数据如下:
x114.33(g/L)S10.61(g/L)SX10.6164.33(g/L)
计算μ的1-α置信区间。t0.05,(2),5=2.571, t0.01,(2),5=4.032.
解:α=0.05时,将有关数据代入公式即可。114.33±2.571*4.33=103.20—125.46(g/L) α=0.01时,114.33±4.032*4.33=96.87—131.79(g/L)
比较两种结果,置信系数越大,置信区间越宽。根据区间估计与假设检验的关系,检验
H0: μ=100 对 HA: μ≠100
xt2s,dfn1n用置信区间进行假设检验:如果任一指定的值μ0不落在μ的双侧100%*(1-α)置信区间内,则我们说这个参数μ与μ0有显著的差异,显著水平为α。 1、H0: μ=100 对 HA: μ≠100 2、计算
α=0.05时: 114.33±2.571*4.33=103.20—125.46(g/L)
3、比较结论:μ0不落在μ的双侧100%*(1-α)置信区间内,则我们说这个参数μ与μ0有显著的差异,显著水平为α。
当α=0.01时,114.33±4.032*4.33=96.87—131.79(g/L)
μ0落在μ的双侧100%*(1-α)置信区间内,则我们说这个参数μ与μ0没有极显著的差异,显著水平为
α。
σ的置信区间
2n1s22P12122n1s2n1s22P221221n1n11Pss22122由此得出σ的1-α置信区间
例、已知80名患某种疾病的工人血红蛋白的有关数据如下:
sn122,sn1212x95(g/L)S15(g/L)计算σ的1-α置信区间。
解:α=0.05,自由度df=80-1=79时,查表得
220.025,801106.630.975,80157.15
代入上式:
L1Sn11520.0257912.9L2S106.63n11520.9757917.6 57.15用置信区间进行假设检验:如果任一指定的值σ0不落在σ的双侧100%*(1-α)置信区间内,则我们说这个参数σ与σ0有显著的差异,显著水平为α。
如已知正常人的血红蛋白σ=12,问患某种疾病工人血红蛋白的σ与正常人的血红蛋白σ是否存在差异? 解:1、H0: σ=12 对 HA: σ≠12 2、计算
α=0.05时: σ的1-α置信区间为12.9—17.6(g/L)
3、比较结论:σ0不落在σ的双侧100%*(1-α)置信区间内,则我们说这个参数σ与σ0有显著的差异,显著水平为α。
二项分布的置信区间 单样本二项分布的置信区间
p的1-α置信区间为:pp
其中:p为样本频率;μα为标准正态分布的临界值;标准误为pp0q0 n例、已知用种衣剂进行浸种处理,发芽率p为=0.89,po=0.85, qo=1-po=1-0.85=0.15;ppoqon0.850.150.016。 μα=1.96;α=0.05。
500计算p的1-α置信区间。将有关数据代入公式即可。 0.89 ± 1.96*0.016 = 0.857 — 0.921
根据区间估计与假设检验的关系,检验 H0:p=po=0.85 HA:p≠po
用置信区间进行假设检验:如果任一指定的值po不落在p的双侧100%*(1-α)置信区间内,则我们说这
个参数p与po有显著的差异,显著水平为α。 1、H0:p=po=0.85 HA:p≠po 2、计算
α=0.05时 0.89 ± 1.96*0.016 = 0.857 — 0.921
3、比较结论:否定H0,由于po不落在p的双侧100%*(1-α)置信区间内,所以我们说这个参数p与po有显著的差异,显著水平为α。
二样本二项分布的置信区间 p1 - p2 的1-α置信区间为:
p1p2s(p1p2)
其中:p1为样本1的频率,p2为样本2的频率;μα为标准正态分布的临界值;标准误为
sp1p211 pqnn21p表示为样本1和样本2的合并频率,q = 1- p. 例、已知治疗前后平均嗜酸性粒细胞比例是: p1=30/100=0.3,p2=20/100=0.2;合并频率为: p=(30+20)/(100+100)=0.25 q=1-p=0.75;标准误为
sp1p21111α=0.05,u0.05=1.96 pqnn0.250.751001000.0612421计算p1 - p2的1-α置信区间。将有关数据代入公式即可。 0.3-0.2±1.96*0.06124 = -0.02 — 0.22 根据区间估计与假设检验的关系,检验 H0:p1=p2 HA:p1≠p2
用置信区间进行假设检验:对于任一指定的总体频率P1和P2,求得的P1 - P2双侧100%*(1-α)置信区间内,如果不包含 0 ,即L1和L2同为正数或同为负数,则我们说这两个参数P1和P2有显著的差异,显著水平为α。
1、H0:p1=p2 HA:p1≠p2 2、计算 α=0.05时:
0.3-0.2±1.96*0.06124 = -0.02 — 0.22
3、比较结论:未否定H0,由于求得的P1 - P2双侧100%*(1-α)置信区间内,包含了 0 ,即L1和L2一个为正数或另一个为负数,所以我们说这两个参数P1和P2没有显著的差异,显著水平为α。
μα=1.96;α=0.05。
计算p的1-α置信区间。将有关数据代入公式即可。 0.89 ± 1.96*0.016 = 0.857 — 0.921
根据区间估计与假设检验的关系,检验 H0: p1=p2 HA:p1≠p2
用置信区间进行假设检验:如果任一指定的值po不落在p的双侧100%*(1-α)置信区间内,则我们说这个参数p与po有显著的差异,显著水平为α。 1、H0:p=po=0.85 HA:p≠po 2、计算 α=0.05时:
0.89 ± 1.96*0.016 = 0.857 — 0.921
3、比较结论:否定H0,由于po不落在p的双侧100%*(1-α)置信区间内,所以我们说这个参数p与po
有显著的差异,显著水平为α。
二样本F检验
5.12、一个小麦品种经过6代选育,从第5代抽出10株,株高为:66、65、66、68、62、65、63、66、68、62(cm),又从第6代抽出10株,株高为:64、61、57、65、65、63、62、63、64、60。问株高性状是否已达到稳定。
小麦是自花受粉作物,多代自交选育,基因型一般趋向纯合,株高受基因型影响,由于趋向纯合,性状发生分离的程度越来越小,一般6代后基本稳定(但受环境影响,表现也有差异)。我们只要在统计上确定性状分离的程度,就可以确定株高性状是否已达到稳定。
解:1、HO:σ5=σ6
HA:σ5>σ6
2、计算
22 s124.767 s26.267 Fs21.315
2s1 3、α=0.05,F0.05,9,9=3.179。F< F0.05,9,9
4、结论:未否定HO。从统计上看,6代株高的变异情况与5代一样,也就是说,5代自交的结果并没有增加稳定的程度,基因型纯合的增加,已不能增加株高的稳定程度,即株高性状已达到稳定。
二样本二项分布检验(百分数检验)
通过比较两个样本百分数之间的差异,确定两种试验处理之间是否存在差异,从而确定试验处理的有效性。
例、治疗前血液检查时计数100个白细胞,其中嗜酸性粒细胞为30个,治疗后血液检查计数100个白细胞,其中嗜酸性粒细胞为20个,试检验治疗前后平均嗜酸性粒细胞比例是否不同。
如果治疗确实对嗜酸性粒细胞比例有影响,治疗前和治疗后平均嗜酸性粒细胞比例是不一样的;反之,相同。这样通过从统计上比较两种情况下的平均嗜酸性粒细胞比例是否相同,可以得出治疗是否有影响的结论。
解:1、H0:p1=p2 HA:p1≠p2 2、计算
p1=30/100=0.3 p2=20/100=0.2 p=(30+20)/(100+100)=0.25 q=1-p=0.75
sp1p21111pp20.30.2 pq0.250.750.06124 u11.63nnspp0.061241001002112 3、α=0.05,u0.05=1.96, u< u0.05
4、结论:未否定H0。由于统计上不能确定处理可以改变嗜酸性粒细胞比例,故可以认为治疗前和治疗后平均嗜酸性粒细胞比例的差别无统计意义。
注意:当已给的条件np或nq都大于5时使用上式,但当np或nq有一个小于5时,要用连续性矫正公式:
p1p20.50.5 uc两个总体的置信区间
n1sp1p2n2这是通式120.5pn1n2这里x1x2
n1n2sp1p2小样本资料,成组法,σi未知但相等;μ1-μ2的1-α置信区间为
x1x2t2n11s12n21s22n1n2211nn21例、已知用两种类型的玻璃电极测量土壤中的pH值,计算的有关结果为:
x15.790 x25.885 s1=0.0416 s2=0.0580
sx1x2n11s12n21s221n1n22221(41)0.0416(41)0.0580110.0357
nn4424421α=0.05,t0.05(2)6=2.447.
计算μ1-μ2的1-α置信区间。将有关数据代入公式即可。 5.79-5.885±2.447*0.0357=-0.1824 — -0.0076 根据区间估计与假设检验的关系,检验
H0: μ1=μ2 HA:μ1≠μ2
用置信区间进行假设检验:对于任一指定的总体平均数μ1 和 μ2 ,求得的μ1 - μ2双侧100%*(1-α)置信区间内,如果不包含 0 ,即L1和L2同为正数或同为负数,则我们说这两个参数μ1 和 μ2有显著的差异,显著水平为α。 1、H0: μ1=μ2 HA:μ1≠μ2 2、计算 α=0.05时:
5.79-5.885±2.447*0.0357=-0.1824 — -0.0076
3、比较结论:否定H0,由于求得的μ1 - μ2双侧100%*(1-α)置信区间内不包含 0 ,即同为负数,
我们说这两个参数μ1 和 μ2有显著的差异,显著水平为α。
配对法区间估计:μd 的1-α置信区间为
x1x2t2n11s12n21s22n1n2211nn21例、已知一种新的治疗高血压药物的疗效的数据,计算的有关结果为:
dt2sdnddi/2014.85 sd11.4 sdsd11.42.54
i120n20 t0.05,(1),19=1.729.
计算μd的1-α置信区间。将有关数据代入公式即可。 14.85±1.729*2.54 = 10.46 — 19.24 根据区间估计与假设检验的关系,检验
H0:μd=0 HA:μd≠0
用置信区间进行假设检验:对于任一指定的总体平均数μd ,求得的μd双侧100%*(1-α)置信区间内,如果不包含 0 ,即L1和L2同为正数或同为负数,则我们说这两个参数μ1 和 μ2有显著的差异,显著水平为α。
1、H0:μd=0 HA:μd≠0 2、计算 α=0.05时:
14.85±1.729*2.54 = 10.46 — 19.24
3、比较结论:否定H0,由于求得的μd双侧100%*(1-α)置信区间内不包含 0 ,即同为正数,我们说
这两个参数μ1 和 μ2有显著的差异,显著水平为α。
两个样本的方差比的置信区间,即σ1/σ2的1-α置信区间为: 已知小麦第5代和第6代方差为:
s2s1Fs1F,2df2,df1,2df1,df2,s2
2s124.767 s26.267F0.025,9,9=4.025
计算σ1/σ2的1-α置信区间。将有关数据代入公式即可。
L14.7676.2674.0250.379L24.7674.0251.526
6.267根据区间估计与假设检验的关系,检验
H0:σ1=σ2 HA:σ1≠σ2
用置信区间进行假设检验:对于任一指定的总体标准差σ1和σ2,求得的σ1/σ2双侧100%*(1-α)置信区间内,如果不包含 1 ,即L1和L2同为比1大的数或同为比1小的数,则我们说这两个参数σ1和σ2有显著的差异,显著水平为α。 1、H0:σ1=σ2 HA:σ1≠σ2 2、计算 α=0.05时: L14.7676.2674.0250.379L24.7674.0251.526
6.2673、比较结论:未否定H0,由于σ1/σ2双侧100%*(1-α)置信区间内,如果包含 1 ,即L1和L2一个比1和另一个比1小,所以我们说这两个参数σ1和σ2没有显著的差异,显著水平为α。
8.1(1)、分析小麦津丰一号穗粒数在品系间的差异
这里品系为因子,三个品种为水平,分析的变量是小麦穗粒数。因子效应为固定效应。 数据结果如下: 品系 0-1-1 0-2-4 0-3-10 1 39 44 30 2 50 36 55 3 36 45 29 4 46 42 36 5 41 52 35 为了确定品系对穗粒数是否有影响。可进行单因子方差分析。 解:1、H0:α1=α2=α3 HA:αi≠0 (至少一个αi不等于零) 2、1)计算各种总数
x..=∑∑xij=39+50+36………+36+35=616 ∑∑xij2=392+502+362………+362+352=26126 x1.=39+50+36+46+41=212 x2.=44+36+45+42+52=219
x3.=30+55+29+36+35=185 2)计算平方和
C= (x..)2/(a*n)=6162/(3*5)=25297.1 SST=∑∑xij2-C=26126-25297.1=828.9
SSA=1/n∑x.2-C=1/5(2122+2192+1852)- 25297.1=128.9 SSe= SST- SSA=828.9-128.9=700 F0.05,2,12=3.885 F0.01,2,12=6.927 3)列方差分析表 变异来源 处理间 误差 总和 SS 128.9 700 828.9 df a-1=3-1=2 a*(n-1)=12 a*n-1=14 MS 64.5 58.3 F 1.106 1.106表示品系对穗粒数无影响,即三个品系之间在穗粒数上无统计差异。
探讨低分子量麦谷蛋白对小麦品质的影响。
低分子量麦谷蛋白受几个基因座的影响,我们只讨论一个基因座。这个基因座有三个等位基因(A1、A2、A3)。如果这个基因座确实对低分子量麦谷蛋白含量有影响,那在三个等位基因间将表现出低分子量麦谷蛋白含量上的差异;反之,如果这个基因座对低分子量麦谷蛋白含量没有影响,那在三个等位基因间将不会出现低分子量麦谷蛋白含量上的差异。我们要对此进行分析。这里这个基因座为因子,三个等位基因为水平,分析的变量是小麦的低分子量麦谷蛋白含量。因子效应为固定效应。
每种等位基因确定的含量取5个数据,结果如下: 基因座 A1 A2 A3 8 12 6 9 14 5 8 14 5 9 15 4 9 15 4 为了确定这个基因座对低分子量麦谷蛋白含量是否有影响。可进行单因子方差分析。 解:1、H0:α1=α2=α3
HA:αi≠0 (至少一个αi不等于零) 2、1)计算各种总数
∑∑xij=8+9+8………+4+4=137=x.. ∑∑xij2=82+92+82………+42+42=1475 x1.=8+9+8+9+9=43 x2.=12+14+14+15+15=70 x3.=6+5+5+4+4=24 2)计算平方和
C= (x..)2/(a*n)=1372/(3*5)=1251.3 SST=∑∑xij2-C=1475-1251.3=223.7
SSA=1/n∑x.2-C=1/5(432+702+242)-1251.3=1465-1251.3=213.7 SSe= SST- SSA=223.7-213.7=10
F0.05,2,12=3.885 F0.01,2,12=6.927 3)列方差分析表 变异来源 处理间 误差 总和 SS 213.7 10 223.7 df a-1=3-1=2 a*(n-1)=12 a*n-1=14 MS 106.9 0.833 F 128.2** 128.2**表示这个基因座确实对低分子量麦谷蛋白含量有影响,所以在三个等位基因间表现出低分子量麦谷蛋白含量上的差异。如需要多重比较,可进行多重比较。这里省略。
多重比较
举例说明新复极差检验,又称Duncan法,也称为SSR法。应用条件是方差分析否定了无效假说。 已知因子四个水平的平均数分别为:A1的xⅠ
=311.8,A2的xⅡ=262.8,A3的xⅢ=247.4,A4的
xⅣ
=279.8。每个水平重复n=5。误差自由度dfe=16;误差均方MSe=534.475。否定了无效假说。以上条件1、首先将需要比较的a个平均数从大到小依次排列好:
是进行多重比较的必要条件。请进行多重比较。
x1=311.8>x2=279.8>x3=262.8>x4=247.4
水平号 Ⅰ Ⅳ Ⅱ Ⅲ 平均数 311.8 279.8 262.8 247.4 顺序号 1 2 3 4 2、临界值也列成表。已知误差均方MSe=534.475。n=5。
sxMSen534.47510.34 5误差自由度dfe=16;k=2,3,4。k是指相比较的两个平均数,在平均数顺序里所涉及的平均数的个数;如相邻两个平均数比较时,涉及两个平均数,所以k=2;两个要比较的平均数中间隔一个平均数时,涉及三个平均数,k=3;依次类推。
分别求出r0.05 , r0.01和Rk值并列成表,:Rkdf 16 k 2 3 4 r0.05 Rk 3.00 31.2 3.65 32.5 4.00 33.5 rksx
r0.01 Rk 4.13 42.7 4.78 44.8 5.19 45.7 注意:r0.05 , r0.01值由附表9中,根据误差自由度dfe和k值查出。
3、将每一对平均数之间的差列成下表,并进行显著性检验。即分别在α=0.05,α=0.01水平做检验;即根据比较结果不画或画上一个或两个星号。
比较时,注意k值的选择。一般规律是从主对角线开始,位于负对角线上的平均数差值选用k=2,平行向上,依次加1。
顺序号 4 3 2 1 311.8-247.4=64.4** 311.8-262.8=49** 311.8-279.8=32* 2 279.8-247.4=32.4 279.8-262.8=17 3 262.8-247.4=15.4 如3与4,2与3,1与2比较时,k=2,在临界值表选用第一行Rk值比较;2与4,1与3比较时,
k=3,在临界值表选用第二行Rk值比较;1与4比较时,k=4,在临界值表选用第三行Rk值比较。
比较结果:A1与A2和A3之间的差异极限著,与A4之间的差异显著;其它比较差异不限著。注意我现在的结论,已将顺序号还原成水平号。
无重复二因子的方差分析
每次取一个单克隆,共取五个;将它们分成三份,分别用三种不同的单克隆抗体处理后,与肿瘤细胞一起温育,然后,测定其杀瘤活性。结果如下。分析不同单克隆之间和三种不同的单克隆抗体处理之间的杀瘤活性是否存在差异。单克隆抗体种类为甲因子,有三个水平;单克隆为乙因子,有五个水平,分析的变量是杀瘤活性即细胞毒活性(%)。 单克隆抗体种类 T3 BB4.3 B1AB 1 25.5 15.0 83.9 克 2 20.6 14.4 78.4 隆 3 20.5 15.7 73.0 号 4 46.3 57.7 95.6 5 46.7 30.3 89.9 解:1、H0:α甲=α乙=α丙 H0:βA=βB=βC=βD=βE HA:至少一个αi≠0 HA:至少一个βj≠0
2、1)计算各种总数
∑∑xij=x..=713.5 ∑∑xij2=46481.81 x1. =159.6 x2. =133.1 x3. =420.8 x.1=124.4 x.2=113.4 x.3=109.2 x.4=199.6 x.5=166.9 2)计算平方和
C= (x..)2/(a*b)=713.52/(3*5)=33938.8 SST=∑∑xij2-C=46481.8-33938.8=12543
SSA=1/(b)∑xi.2-C=1/5(159.62+133.12+420.82)- 33938.8=10113.3
SSB=1/(a)∑x.j2-C=1/3(124.42+113.42+109.22+199.62+166.92)- 33938.8=2046.3 SSe= SST- SSA-SSB =383.4 F0.01,2,8=8.65 F0.01,4,8=7.01 3)列方差分析表 变异来源 抗体类型 克隆种类 误差 总和 SS 10113.3 2046.3 383.4 12543 df a-1=3-1=2 b-1=5-1=4 (a-1)(b-1)=8 a*b -1=14 MS 5056.6 511.6 47.9 F 105.5** 10.7** 结论:拒绝H0,不同单克隆之间和三种不同的单克隆抗体处理之间的杀瘤活性都存在极显著的差异。
有重复二因子的方差分析
现有三种降低转氨酶的药物:A、B、C。为了考察它们对甲型肝炎和乙型肝炎患者转氨酶降低的程度之间的差异是否有显著性的意义,收集如下实验数据,用有重复二因子的方差分析方法处理资料;并说明哪一种肝炎用哪一种药物治疗效果最好,即转氨酶降低最多。这里肝炎类型为甲因子,有两个水平;药物种类为乙因子,有三个水平,分析的变量是患者转氨酶降低量。两个因子效应都为固定效应。 转氨酶降低值(kpa) 药物 甲型肝炎 乙型肝炎 A 100 85 90 65 75 100 B 120 90 110 45 30 50 C 50 60 40 50 60 45 解:1、H0:α甲=α乙 H0:βA=βB=βC H0:(αβ)=0 HA:α甲≠α乙 HA:至少一个βj≠0
HA:(αβ)≠0 2、1)计算各种总数
∑∑∑xijl=x…=1265 ∑∑∑xijl2=101025 x1..=745 x2..=520
x.1.=515 x.2.=445 x.3.=305
x11.=275 x12.=320 x13.=150 x21.=240 x22.=125 x23.=155 2)计算平方和
C= (x...)2/(a*b*n)=12652/(2*3*3)=88901.4 SST=∑∑∑xijl2-C=101025-88901.4=12123.6 SSA=1/(b*n)∑xi..2-C=1/9(7452+5202)-88901.4=2812.5 SSB=1/(a*n)∑x.j.2-C=1/6(5152+4452+3052)-88901.4=3811.1 SSA*B=1/n∑∑xij.2-C-SSA- SSB
=1/3(2752+3202+………+1552)-88901.4-2812.5-3811.1=3733.3 SSe= SST- SSA-SSB-SSA*B=1766.7 F0.01,1,12=9.33 F0.01,2,12=6.93 3)列方差分析表 变异来源 肝炎类型 药物种类 两者互作 误差 总和 SS 2812.5 3811.1 3733.3 1766.7 12123.6 df a-1=2-1=1 b-1=3-1=2 (a-1)(b-1)=2 a*b(n-1)=12 a*b*n-1=17 MS 2812.5 1905.6 1866.7 147.2 F 19.14** 12.94** 12.68** 结论:拒绝H0,两种肝炎患者对药物的反映有差异;药物的药效也存在差异;特别由于药物种类和肝炎类型交互作用极显著,所以三种药物疗效之间的差异应在特定的肝炎类型之下进行讨论。对甲型肝炎来说,B药最好(降低转氨酶的平均数=106.7),C药最差(降低转氨酶的平均数=50.0);对乙型肝炎来说,A药最好(降低转氨酶的平均数=80.0),B药最差(降低转氨酶的平均数=41.7)。
9.8、用4种不同来源的农家肥(A),施给3个待测的高粱品种(B),希望获得较高的植株。试验重复3次,测得结果(cm)如下: 品种 B1 B2 B3 243 253 256 A1 240 252 254 252 263 258 236 223 240 肥 A2 235 229 240 222 238 259 料 237 233 259 A3 231 230 245 227 242 246 244 253 244 A4 245 251 257 252 237 255 对以上结果做方差分析,说明因素的类型,能否通过多重比较,从不同肥源和不同品种中,选出最优者?如何选择?
这里肥源为甲因子,有四个水平;品种为乙因子,有三个水平,分析的变量是高粱的株高。两个因子效应都为固定效应。
解:1、H0:α1=α2=α3=α4 H0:β1=β2=β3 H0:(αβ)=0 HA:至少一个α1≠0
HA:至少一个βj≠0 HA:(αβ)≠0 2、1)计算各种总数 ∑∑∑xijl=x…=8781 ∑∑∑xijl2=2146039
x1..=2271 x2..=2122 x1..=2150 x2..=2238 x.1.=2864 x.2.=2904 x.3.=3013
x11.=735 x12.=768 x13.=768 x21.=693 x22.=690 x23.=739 x31.=695 x32.=705 x33.=750 x41.=741 x42.=741 x43.=756 2)计算平方和
C= (x...)2/(a*b*n)=87812/(4*3*3)=2141832.3 SST=∑∑∑xijl2-C=2146039-2141832.3=4206.7
SSA=1/(b*n)∑xi..2-C=1/9(22712+21222+21502+22382)- 2141832.3=1664.3 SSB=1/(a*n)∑x.j.2-C=1/12(28642+29042+30132)- 2141832.3=991.2 SSA*B=1/n∑∑xij.2-C -SSA- SSB
=1/3(7352+7682+………+7562)- 2141832.3 -1664.3- 991.2 =375.9 SSe= SST- SSA-SSB-SSA*B=1175.3
F0.01,2,24=5.85 F0.01,3,24=4.94 F0.05,6,24=2.60 F0.01,6,24=3.87
3)列方差分析表 变异来源 肥源 品种 两者互作 误差 总和 SS 1664.3 991.2 375.9 1175.3 4206.7 df a-1=4-1=3 b-1=3-1=2 (a-1)(b-1)=6 a*b(n-1)=24 a*b*n-1=35 MS 554.8 495.6 62.7 48.97 F 11.3** 10.1** 1.28 结论:肥源间和品种间都存在极限著的差异;但互作差异不显著,这样情况就简单了,只考虑主效应就可以选出最优者。通过多重比较:在肥源间A2=A3≠A4=A1,即A2和A3间差异不显著,但都与A4和A1差异显著,而A4和A1间差异也不显著,所以选A4和A1两种肥源都可以;在品种间由于B1=B2≠B3,所以选B3即可;同时考虑两个因素,B3与 A4或A1搭配都能获得较高的高粱植株。
10.2、回归分析及检
10.2、动物饲养试验中,原始体重X与所增体重Y如下,求回归方程并检验回归系数的显著性。 X 52 49 57 57 55 60 54 62 Y 59 58 59 60 50 60 53 70 本题实际是通过计算回归方程并检验回归系数的显著性,来确定原始体重X与所增体重Y两个变量之间是否存在相互关系,并能否由原始体重X的表现来预测所增体重Y的表现。
解:1、计算回归方程 1)计算五种总数
X 52 49 57 57 55 60 54 62 ∑=446 Y 59 58 59 60 50 60 53 70 ∑=469 X2 Y2 XY 3068 2842 3363 3420 2750 3600 2862 4340 ∑=26245 2704 2401 3249 3249 3025 3600 2916 3844 ∑=24988 3481 3364 3481 3600 2500 3600 2809 4900 ∑=27735 2)计算平方和及乘积和 s sxxxyx446x24988123.5 syn8xy446469xy2624598.25
2222yyyn2469227735239.9
8n8 3)计算回归方程
bsxy98.250.796 asxx123.5ybx4694460.79614.27 88ˆ Yabx14.270.796x
2、检验回归系数的显著性 1)HO:β=0 HA:β≠0 2)计算 MSesyybsxyn2239.90.79698.2526.95 sb6MSe26.950.467 sxx123.5
tb0.7961.703 sb0.467 3)α=0.05,t0.05(2),6=2.447。t< t0.05(2),6
4)结论:未否定HO,回归系数可能为0。从而确定原始体重X与所增体重Y两个变量之间不存在相互关系,不能由原始体重X的表现来预测所增体重Y的表现。
注意:当要进行回归方程的检验时,应该用方差分析方法。具体如下:
1)HO:回归方程有效 HA:回归方程无效 2)计算
SSRbSxy0.79698.2578.21 SSeSyySSR239.978.2161.7
F0.05,1,6=5.99,F< F0.05,1,6 变异来源 平方和 自由度 均方 F 回归 78.2 1 78.2 2.900 剩余 161.7 6 26.95 总和 239.9 7 结论:同上。
10.8、相关分析及检验
10.8、不同水稻品种子粒蛋白质和赖氨酸含量数据如下:
蛋白质 8.77 8.69 8.36 10.05 9.80 8.40 8.09 8.70 10.25 9.00 赖氨酸 0.298 0.280 0.327 0.261 0.275 0.327 0.300 0.295 0.255 0.265 计算相关系数r,并进行显著性检验。
本题是通过计算相关系数并检验其的显著性,来确定蛋白质X1与赖氨酸X2两个变量之间是否存在相互关系。
解:1、计算回归方程 1)计算五种总数 X1 8.77 8.69 8.36 10.05 9.80 8.40 8.09 8.70 10.25 9.00 ∑=90.11 X2 0.298 0.280 0.327 0.261 0.275 0.327 0.300 0.295 0.255 0.265 ∑=2.883 X12 X22 X1X2 2.613 2.433 2.734 2.623 2.695 2.747 2.427 2.567 2.614 2.385 ∑=25.838 76.91 75.52 69.89 101.0 96.04 70.56 65.45 75.69 105.1 81.00 ∑=817.1 0.0888 0.0784 0.1069 0.0681 0.0756 0.1069 0.0900 0.0870 0.0650 0.0702 ∑=0.8371 2)计算平方和及乘积和
sx1x1xxn211290.112x22.88322817.15.119sxxx20.83710.00593 10n10222 sxx12x1x2xx25.83890.112.8830.1407
12n103)计算相关系数 rSSX1X2X1X1SX2X20.14070.81
5.1190.005932、检验相关系数的显著性 1)HO:ρ=0 HA:ρ≠0 2)计算
trn20.811023.907
1r210.812 3)α=0.05,t0.05(2),6=2.306。t> t0.05(2),6
4)结论:否定HO,相关系数不为0。说明蛋白质含量与赖氨酸含量之间有反向的关系,即高蛋白质含量的品种,赖氨酸含量却较低,反之,赖氨酸含量较高。
注意:当用相关系数与一个不为0的数比较时,不能用上述公式;应用的公式为:
muzn3 m2n1如我们要检验相关系数是否等于-7。检验方法: 1)HO:ρ= - 0.7 HA:ρ≠ - 0.7 2)计算
m uzn3 m2n1 由于u检验是左右对称,本书表中也没有负值,并且用正负数代入公式计算结果完全一致,故查表时,都用正数查。
ρ=0.7时,ξm=0.87;r=0.81时,z=1.13;ρm=0.7.将上述结果代入公式得到:
m0.7uzn31.130.8770.585 m2n129 3)α=0.05,u0.05=1.96。t< u0.05
4)结论:未否定HO,总体相关系数可能为-0.7。说明蛋白质含量与赖氨酸含量之间有反向的关系且相关程度很高,即高蛋白质含量的品种,赖氨酸含量却较低,反之,赖氨酸含量较高。
独立性Х2检验
某医院在中小学观察三种矫正近视眼措施的效果,数据如下: 矫正方法 有效人数 有效人数 合计 夏天无眼药水 51 84 135 新医疗法 6 26 32 眼保健操 5 13 18 合计 62 123 185 评价三种矫正近视眼措施的疗效有无差异。
解:现在要考虑的是三种矫正近视眼措施与疗效有无关联,如果有关联,即三种不同的措施产生不同的疗效效果;反之,如果无关联,即三种不同的措施产生的疗效效果没有不同。从另一个角度讲,我们要考虑的是矫正近视眼措施与疗效之间是否相互独立。因此,用独立性χ2检验即可解决此问题。 1、设立假说
H0:O-T=0 HA:O-T≠0
或 H0:矫正近视眼措施与疗效之间是相互独立的 HA:矫正近视眼措施与疗效之间不是相互独立的 2、计算
每个理论值用Tij表示,Tij=(行总数)(列总数)/总总数,即:
TijRiCj/N
其中,Ri表示每行的总数,Cj表示每列的总数,N表示数据表中的所有数据总数。如:
T11R1C1/N13562/18545.24 T12R1C2/N135123/18589.76
T21=10.72 ,T22=21.28 ,T31=6.03 ,T32=11.97 代入公式
2OijTijTij2得到:
2222O32T32O11T11O12T12T11T12T3225145.2428489.76245.2489.761311.97211.974.498
3、α=0.05,0.05,2c表示列数。
25.991;其中自由度为(行数减1)*(列数减1),即 df=(r-1)(c-1),r表示行数,
4、结论:未否定H0,故不能认为三种不同的措施产生的疗效效果有差别。 如果不计算理论值,直接计算χ2值,可用公式如下:
2Oijn1RiCj22注意:当df=1时,一定要用矫正公式,即: 51两种计算结果一样。84132185162135123135123184.4982例:研究吸烟与慢性气管炎发病的关系,结果如下:
2
OijTij0.5Tij2组别 患慢性气管炎 未患慢性气管炎 合计 吸烟 43(33.86) 162(171.14) 205 不吸烟 13(22.14) 121(111.86) 134 合计 56 283 339 括号内为理论数。分析吸烟组和不吸烟组慢性气管炎发病率有无统计的差别。 解:1、H0:O-T=0 HA:O-T≠0 或
H0:吸烟组和不吸烟组慢性气管炎发病率无统计的差别 HA:吸烟组和不吸烟组慢性气管炎发病率有统计的差别 2、计算
24333.860.5162171.140.52233.862171.14121111.860.5111.8626.673、
α=0.05,0.05,13.841
4、结论:为否定H0,吸烟组和不吸烟组慢性气管炎发病率有统计的差别。 独立性Х2检验
某医院在中小学观察三种矫正近视眼措施的效果,数据如下: 矫正方法 有效人数 有效人数 合计 夏天无眼药水 51 84 135 新医疗法 6 26 32 眼保健操 5 13 18 合计 62 123 185 评价三种矫正近视眼措施的疗效有无差异。
解:现在要考虑的是三种矫正近视眼措施与疗效有无关联,如果有关联,即三种不同的措施产生不同的疗效效果;反之,如果无关联,即三种不同的措施产生的疗效效果没有不同。从另一个角度讲,我们要考虑
的是矫正近视眼措施与疗效之间是否相互独立。因此,用独立性χ2检验即可解决此问题。 1、设立假说
H0:O-T=0 HA:O-T≠0
或 H0:矫正近视眼措施与疗效之间是相互独立的 HA:矫正近视眼措施与疗效之间不是相互独立的 2、计算
每个理论值用Tij表示,Tij=(行总数)(列总数)/总总数,即: TijRiCj/N
其中,Ri表示每行的总数,Cj表示每列的总数,N表示数据表中的所有数据总数。如:
T11R1C1/N13562/18545.24 T12R1C2/N135123/18589.76
T21=10.72 ,T22=21.28 ,T31=6.03 ,T32=11.97 代入公式
2OijTijTij2得到:
OT22OT2OT21111121232322T11T12T32225145.248489.7645.2489.7621311.9711.974.498
23、α=0.05,0;其中自由度为(行数减1)*(列数减1),即 df=(r-1)(c-1),r表示行数,c.05,25.991表示列数。
4、结论:未否定H0,故不能认为三种不同的措施产生的疗效效果有差别。 如果不计算理论值,直接计算χ2值,可用公式如下:
2Oij1RiCj两种计算结果一样。注意:当222518413185621351231351231814.4982ndf=1时,一定要用矫正公式,即:
例:研究吸烟与慢性气管炎发病的关系,结果如下:
2OijTij0.5Tij2组别 患慢性气管炎 未患慢性气管炎 合计 吸烟 43(33.86) 162(171.14) 205 不吸烟 13(22.14) 121(111.86) 134 合计 56 283 339 括号内为理论数。分析吸烟组和不吸烟组慢性气管炎发病率有无统计的差别。 解:1、H0:O-T=0 HA:O-T≠0 或
H0:吸烟组和不吸烟组慢性气管炎发病率无统计的差别 HA:吸烟组和不吸烟组慢性气管炎发病率有统计的差别 2、计算
24333.860.5162171.140.52233.862171.14121111.860.5111.8626.67
3、α=0.05,0.05,13.841
4、结论:为否定H0,吸烟组和不吸烟组慢性气管炎发病率有统计的差别。
例10.11曲线化直线的过程
数据如下:
X Y
X= lgX Y= lgY 则曲线回归方程为 lgY = a + blgX
而变换后的数据,计算得到的直线方程为 Y= a + Bx
原始及变换后的数据列于表中: X X X Y Y Y XY‘’2‘’2‘’ ’
’
’
’
28 8
32 12
40 18
50 28
60 30
72 55
80 61
80 85
85 80
经过变换比较,发现用lgX和lgy进行变换,直线化程度最高;所以可进行此种变换。设
28 1.448 2.094 8 0.903 0.816 1.307 32 1.505 2.265 12 1.079 1.165 1.624 40 1.602 2.567 18 1.255 1.576 2.011 50 1.699 2.887 28 1.447 2.094 2.459 60 1.778 3.162 30 1.477 2.182 2.627 72 1.857 3.449 55 1.740 3.029 3.232 80 1.903 3.621 61 1.785 3.187 3.398 80 1.903 3.621 85 1.929 3.723 3.672 85 1.929 3.723 80 1.903 3.622 3.672 和 15.625 27.391 13.520 21.393 24.002 平均 1.736 1.502 根据表中的五种总数分别计算: Sx'2iX'X'.xn'''2i215.62527.39190.266 SY'Y'y'2iyn'2i213.52021.39391.083
SX'Y'xyxy''n24.00215.62513.5200.530
9b'SX'Y'SX'X'‘
0.530''''1.994 aybx1.5021.9941.7361.959
0.266‘ˆY对X的直线回归方程为 Y’
1.9591.933X’
将lgY和lgX代入Y对X的直线回归方程中,得到
’
’
其中 Y‘lgY,X'lgXˆlg0.011lgX1.994lg0.011X1.994 lgYˆ于是,Y对X的曲线回归方程为:Y0.011X1.994
注意:曲线回归也必须进行显著性检验。计算曲线回归方程的一般程序是:先按某种函数进行转换;对转换后的数据,按照直线回归方程的方法,计算并得到直线回归方程;再按照转换函数进行反转换,即得到曲线回归方程
两个回归方程的比较
一种染料与氨基酸结合后,使原来染料浓度降低。测定染料减少的量即DBC法,可用来估计碱性氨基酸的含量。以证明碱性氨基酸的含量与DBC法测得结果间有显著回归。试验测定了大麦和黑麦每kg试样的DBC含量与碱性氨基酸的含量。结果如下: 大麦(1) 黑麦(2) n 8 7 x 98.4 87.0 y 74.0 62.3 Sxx 257.9 162.0 Syy 336.0 187.4 Sxy 294.0 174.0 MSe 0.140 0.244 ˆ Yˆ=-38.16+1.14x Yˆ=-31.16+1.07x Y检验两回归线有无显著差异。
解:1、检验MSe1和MSe2有无显著差异:
1)、HO:1 2)、计算
FMSe20.2441.74
22222 HA:12
MSe10.140 3)、α=0.05,F0.05,5,6=4.387 。F< F0.05,5,6。
4)、结论:未否定HO;两者方差相等;可以合并;估计值为:
MSEn12MSe1n22MSe2n1n2460.14050.2440.187
65 2、检验两个回归系数有无显著差异。 1)、HO:β1=β2 HA:β1≠β2 2)、计算
tb1b211MSeSSx2x2x1x11.141.07110.187257.91621.61
3)、α=0.05,t0.05,(2),11=2.201;t< t0.05,(2),11
4)、结论:未否定,两个回归系数之间无显著差异。
注意:当两个回归系数之间无显著差异时,可以求一个共同的回归系数,它的估计值为:
bSx1x1b1Sx2x2b2257.91.141621.071.11
Sx1x1Sx2x2257.9162有重复数据的回归分析
如果对同一个自变量值,有两个或两个以上因变量值与之对应,叫有重复的数据,应用有重复数据的回归分析方法,进行分析。
总平方和可以分解为:SYY = SSR + SSLOF + SSpe
其中SSpe是纯实验误差平方和;SSLOF为失拟平方和,是模型选择不当造成的。
总自由度=mn-1;回归自由度=1;失拟和自由度=n-2;纯误差自由度=mn-n。其中n为数据对数;m为重复次数。
检验
1、纯实验误差均方对失拟均方做检验: FMSLOF
MSpe若差异不显著,说明失拟平方和基本上是由实验造成的。这时可以将失拟平方和与纯实验误差平方和合并,用合并后的均方,对回归均方做检验:
FMSR
SSLOFSSpedfLOFdfpe若第二次检验,差异仍不显著,原因有两条: (1)、X与Y不存在线性关系。 (2)、实验误差太大。
若第一次检验,差异是显著的,原因有几条: (1)、除X外还有其它影响的因素。 (2)、模型选择不当。 (3)、X和Y无关。
这时没有必要用MSLOF对MSR做检验,即使检验的结果是显著的,也不能说明该回归方程是最好的回归方程,这时应找出造成SSLOF过大的原因,做进一步分析。
用例10.7说明。数据如下: NaCl 含 量 0 0.8 1.6 2.4 3.2 4.0 4.8 总和 干 Ⅰ 80 90 95 115 130 115 135 物 重 Ⅱ 100 85 89 94 106 125 137 ∑∑yij ∑(∑yij) 总和 ∑yij 16400 15325 16946 22061 28136 28850 36994 164712 (∑yij) 32400 30625 33856 43681 55696 57600 73948 327842 根据无重复数据的回归分析方法进行分析得到以下数据:
2222ˆ82.3210.22X SSR=3744.61 SXX=35.84 SYY=4853.71 SXY=366.28 Y 在由表中的数据分别计算:
纯误差平方和: SSpeyij2yi.yij212327842y164712791.00 ijm2失拟平方和:
SSLOFSYYSSRSSpe4853.713744.61791318.1
列方差分析表
变异来源 平方和 自由度 均方 F 回归 3744.61 1 3744.61 40.52** 失拟 318.10 5 63.62 0.56 纯误差 791.00 7 113.00 总和 4853.71 13 纯实验误差均方对失拟均方做检验: F=0.56。差异不显著。
将失拟平方和与纯实验误差平方和合并,用合并后的均方,对回归均方做检验:
FMSR3744.6140.52
SSLOFSSpe318.179157dfLOFdfpeF0.01,1,12=9.33,F> F0.01,1,12。结论:Y与X之间存在极显著的直线回归关系。
因篇幅问题不能全部显示,请点此查看更多更全内容