在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?
处理 |
发癌数 |
未发癌数 |
合计 |
发癌率% |
甲组 |
52 |
19 |
71 |
73.24 |
乙组 |
39 |
3 |
42 |
92.86 |
合计 |
91 |
22 |
113 |
80.33 |
52 19
39 3
是表中最基本的数据,因此上表资料又被称之为四格表资料。卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*91/113=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。
利用统计学软件分析结果如下:
data kafang;
input row column number @@;
cards;
1 1 52
1 2 19
2 1 39
2 2 3
;
run;
proc freq;
tables row*column/chisq;
weight number;
run;
统计量 |
自由度 |
值 |
概率 |
卡方 |
1 |
6.4777 |
0.0109(有统计学意义) |
似然比卡方 |
1 |
7.3101 |
0.0069 |
连续校正卡方 |
1 |
5.2868 |
0.0215 |
Mantel-Haenszel 卡方 |
1 |
6.4203 |
0.0113 |
Phi 系数 |
|
-0.2394 |
|
列联系数 |
|
0.2328 |
|
Cramer 的 V |
|
-0.2394 |
二联表的卡方检验方法
假设有两个分类变量X和Y,它们的值域分另为{x1, x2}和{y1, y2},其样本频数列联表为:
|
y1 |
y2 |
总计 |
x1 |
a |
b |
a+b |
x2 |
c |
d |
c+d |
总计 |
a+c |
b+d |
a+b+c+d |
若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变量K^2的值(即K的平方)
K^2 = n (ad - bc) ^ 2 / [(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d为样本容量
K^2的值越大,说明“X与Y有关系”成立的可能性越大。
当表中数据a,b,c,d都不小于5时,可以查阅下表来确定结论“X与Y有关系”的可信程度:
P(K^2≥k) |
0.50 |
0.40 |
0.25 |
0.15 |
0.10 |
k |
0.455 |
0.708 |
1.323 |
2.072 |
2.706 |
P(K^2≥k) |
0.05 |
0.025 |
0.010 |
0.005 |
0.001 |
k |
3.841 |
5.024 |
6.635 |
7.879 |
10.828 |
例如,当“X与Y有关系”的K^2变量的值为6.109,根据表格,因为5.024≤6.109<6.635,所以“X与Y有关系”成立的概率为1-0.025=0.975,即97.5%。