《诊断肾炎问题》word版.doc
《《诊断肾炎问题》word版.doc》由会员分享,可在线阅读,更多相关《《诊断肾炎问题》word版.doc(16页珍藏版)》请在装配图网上搜索。
诊断肾炎问题 罗隆琪(数理学院) 钟 文(数理学院) 黄礼斌(信息科学与传媒学院) 诊断问题 摘要 本文首先提出距离判别法和判别法判别属于肾炎病人或非肾炎病人,根据已确诊的病例的化验结果分别列出距离判别法和判别法的判别函数。然后将已确诊的病例化验结果数据回代入判别函数中,得到距离判别法判别法的回代准确率为回代效果高,判别法的回代准确率为准确率也较高。且通过观察回代函数值知在距离判别法中可根据判别函数值的正负判别是肾炎病人还是非肾炎病人,判别函数值为正表示为肾炎病人,为负则为非肾炎病人。在判别法中首先我们计算出它的阀值,代入判别函数其值小于阀值的为肾炎病人,大于阀值的为非肾炎病人。对于判定表二中的30名就诊人员的是肾炎病人还是非肾炎病人的问题,我们将表二中的就诊人员的化验结果数据分别代入距离判别法和判别法的判别函数中,通过计算得出: 运用距离判别法得出的结果为: 肾炎病人:; 非肾炎病人:; 运用判别法得出的结果为: 肾炎病人:; 非肾炎病人:; 就问题三确定哪些指标是影响人们患肾炎的主要因素,我们采用主成分分析法进行分析,再利用进行求解。可取到前两主成分,即: 故可判定是影响人们患肾炎的关键或主要因素,求得: 而问题四跟据问题三的结果和患病与非患病的特点判定号病例是否患病: 肾炎病人:; 非肾炎病人:; 最后,通过对的分析,分别对距离判别法、判别法和主成分分析法进行数据处理、比较,得出主成分分析法得出的结果是最准确的,距离判别法其次。 关键字 距离判别法、判别法、主成分分析法 一、问题的重述 人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表1是确诊病例的化验结果,其中1-30号病例是已经确诊为肾炎病人的化验结果;31-60号病例是已经确定为非肾炎病人的结果。表2是就诊人员的化验结果。我们的问题是: 1.根据表1中的数据,提出一种或多种简便的判别方法,判别属于肾炎病人或非肾炎病人的方法,并检验你提出方法的正确性; 2.按照1提出的方法,判断表2中的30名就诊人员的化验结果进行判别,判定他(她)们是肾炎病人还是非肾炎病人; 3.能否根据表表1的数据特征,确定哪些指标是影响人们患肾炎的关键或主要因素,以便减少化验的指标; 4.根据3的结果,重复2的工作; 5.对2和4的结果作进一步的分析。 病例表详见附录。 二、模型的假设和符号说明 2.1模型的假设 (1)两总体肾炎病人和非肾炎病人化验结果中各元素的期望值,标准差和由数据给出的样本的统计量是一致的; (2)两总体的各元素服从正态分布; (3)两总体肾炎病人和非肾炎病人的数量之比为一个确定的值; (4)化验结果中每个元素的值之间没有影响。 2.2符号的说明 表示表中各元素的编号; 表示各个总体的样本均值向量; 表示各总体的离差矩阵; 表示阀值; 表示总体的协方差矩阵。 其它变量符号在文中使用时给出说明。 三、问题的分析 3.1问题一、二的问题分析: 对于判别属于肾炎病人或非肾炎病人的方法的问题,我们选用距离判别法和判别法进行判别,首先我们考虑运用距离判别法并根据已给的确诊病例的化验结果的特征对表二中的就诊人员进行判别。根据确诊病例的化验结果列出观测矩阵及样本容量,计算出样本的均值向量和各总体的样本离差矩阵,对化验结果中的各种元素建立判别函数,依据的正负做出归类结论,为正表示该就诊人员为肾炎患者,若为负表示该就诊人员为非肾炎患者。对于原确诊的病例回代到中,检验回代效果。对于表二中的30名就诊人员的化验结果中的各检测元素代入中并计算出它的值,根据的正负判定就诊人员是肾炎患者或非肾炎患者。对于判别法,列出样本观测矩阵,同一类别的样本在特征空间中聚集在一起,计算出样本的均值向量,写出判别法的判别函数,根据已确定的就诊人员检测的各元素的含量求出阀值,将确诊病例的各元素的值回代到判别函数中并算出函数值与阀值进行比较,比阀值小的为肾炎患者,否则为非肾炎患者。对于待判定的就诊人员,将其检测的各元素的值代入判定函数中计算出函数值与阀值比较确定肾炎患者和非肾炎患者的分类问题。 3.2问题三和问题四的问题分析 原数据中有个指标影响着患者,其中有些指标影响少,可对其进行删减,选出比原始变量个数少,能主要影响肾炎的几个指标,即主成分,故这利用主成分分析法来进行计算。 用分别表示的系数,现只考虑的影响,我们对其附表一中位肾炎患者和位非肾炎患者进行比较,其图如下: 图一 由图可看出对是否是肾炎患者几乎无区别,对是否是肾炎患者有很大区别,所以我们有必要对其进行删减,选出其主成分。 选出其主成分后,分别对肾炎患者和非肾炎患者进行数据处理,对其进行分析找出其区别,再对需要判定的人进行数据处理,判定其是否是肾炎患者。 3.3问题五的问题分析: 由问题三的问题分析和图一可知,对是否是肾炎患者的区别很大,大致可认为肾炎患者的的含量大约在以下,而非肾炎患者的的含量大约在以上,所以我们对于问题二和问题四的结果作进一步分析可以认为是对的含量分析,来判定是否患病,进而与问题二和问题四的结果进行比较来判定它们的大致准确性。 四、建模前的准备 4.1距离判别法:按样品到总体的最近“距离”来进行分类。 设是从均值向量,协方差矩阵为的总体中取出的两个样品(若对每个样品,有种观测资料,则每个样品可用中的一个点来表示); 1、与两点间的 (马氏)距离: 2、点与总体的距离为: 3、设两总体的均值向量分别为,协方差矩阵分别为都为已知,建立判别函数: 若则判别,若则判别 4、实际中统计量的估计: 实际中是常常不知道的,则可根据样本观测矩阵分别算出它们的无偏估计再进行判别。 例如:设从两总体中各抽取样本容量的样本 即 则 ①若两总体的协方差阵是相同的,则 其中 ②若当未知时,可用代替上式中的再依的正负进行判别。 4.2 Fisher(费歇尔)判别法 设有个总体相应的均值向量和协方差矩阵分别为,且为正定矩阵 从中抽取容量为的样本 则 为在轴上的投影,记 这里分别为组内平均向量及点平均向量: 组内差为: 其中:,即为样本离差矩阵。 组间差为: ; 其中:。 令,现在要求使达到最大关键是选择,但至于的长度无关紧要,为保证解的唯一性,附加一条件,利用Lagrange乘数法,令 ; 由于均为对称矩阵 于是 ; 令 为解方程组,将第一式两边左乘,并用第二式使得,要使得最大,等价于最大,而当可逆时,用右乘两边,得: 而,这表明的最大特征值,为最大特征向量,这样判别函数就可求出Fisher判别法具体步骤: (1)列出样本观测阵; (2)求出各个总体的样本均值向量及总平均向量; (3)计算; (4)计算; (5)计; (6)求的最大特征值及对应的特征向量,当时,可算出; (7)写出判别函数,并求出阀值 阀值的求法:将代入得再将按从小到大排列,例如设,则相邻两类,的阀值为 或; (8)回代样本,进行判别,对给定的样品,若相应的介于与之间,则判属于。 4.3问题三的准备: 主成分分析法的计算步骤: 1) 计算相关系数矩阵 在公式(3)中,为原来变量与的相关系数,其计算公式为 因为是实对称矩阵(即),所以只需计算其上三角元素或下三角元素即可。 2) 计算特征值与特征向量 首先解特征方程求出特征值,并使其按大小顺序排列,即;然后分别求出特征值的特征向量。 3) 计算主成分贡献率及累计贡献率 主成分贡献率:, 累计贡献率: 一般取累计贡献率达85%-95%的特征值所对应的第一,第二,……,第个主成分。 4)计算主成分载荷 由此可以进一步计算主成分得分: 以上步骤我们可以用求解: 其中表示为协方差矩阵。 五、模型的建立与求解 5.1问题一与问题二模型的建立与求解 5.1.1距离判别法 提取特征,就诊人员的化验结果的每种元素为一特征 特征 编号 计算各个总体的样本均值向量,确诊为肾炎患者样本的均值向量: 确诊为非肾炎患者的样本均值向量: 计算肾炎患者和非肾炎患者样本的离差矩阵 类似的计算出非肾炎患者样本的离差矩阵,则 判别函数为: 根据已知确诊病例样品的样本值代入中值的符号,可知回代效果准确率达到以上,因此回代效果明显,对于待判对象表二中的30位就诊人员,将其化验元素结果代入中,得到的值依次为 61-70 3.934 1.271 -0.581 4.655 1.820 0.593 -3.367 0.620 1.978 -4.413 71-80 2.056 3.747 3.221 -2.252 0.500 2.597 -0.617 -1.351 2.287 -3.932 81-90 -5.964 -3.650 4.481 -1.499 2.947 -3.667 -0.175 -6.881 -13.616 -1.353 为正表示该就诊人员是肾炎患者,为负表示该就诊人员是非肾炎患者。因此根据上表可得病例号为肾炎患者,病例号,为非肾炎患者。 5.1.2判别法 样本空间为2,故可取判别函数为 记 取判别阀值为 对确诊病例进行回代回代效果准确率达到,回代效果显著,且根据其数据特征知判别函数值大于阀值的为非肾炎患者,小于阀值为肾炎患者。将待确诊的就诊人员的化验结果代入判别函数中得到为非肾炎病人,其余的为肾炎病人。 5.2问题三的模型建立与求解 以附表前行列为总体主成分矩阵,根据模型建立和问题分析,利用求解可得: 各样本主成分的贡献率分别为 前两个主成分的累计贡献率达到,故在实际中只取前两主成分。 即: 由此可知,第一主成分与有较大的负相关,第二主成分与有较大的负相关,与有较大的正相关,故可认为是影响人们患肾炎的关键或主要因素,进而可以只考虑的影响关系。 根据此前的步骤,以前60行特定5列为总体主成分,同理可得: 第一主成分的贡献率达到,符合其标准,所以在实际中只取第一主成分为: 5.3问题四的求解 设 则附表前30行特定5列(即肾炎患者的的系数)与B相乘,所得结果大都是3位数,见附表,附表第31行到60行特定5列(即非肾炎患者的的系数)与B相乘,所得结果大都是4位数,所以用附表后30行特定5列(需要判别的的系数)相乘得到一系列数据,因此可判定为肾炎患者。 5.4问题五的求解 我们对号病例中进行分析,为了观测方便,我们把所有的数据作图,如下图: 图二 由图二与问题五的分析可判定是肾炎患者,这完全与问题四的结果一样,用距离判别法所求结果肾炎患者是,它与的相似率为,再考虑用判别法所求的结果,它所求出的肾炎患者是,它与第五问所求的相似率为。 又因为在问题三中我们可知是最主要的影响因素,所以我们可以认定用主成分分析法的结果更准确,距离判别法其次,判别法更差一点。 六、结果分析 根据问题一提出的两种判别方法对待判定的就诊人员的化验结果进行判定,根据距离判别法知为肾炎患者,其余的均为非肾炎患者,而根据判别法知为非肾炎患者,其余的为肾炎患者。由于两种判别方法的回代效果都未达到100%因此判定结果存在偏差。 由问题三的结果可知,如果选取其中相关系数绝对值最大者作为作表,则是,它在决定是否患有肾炎有绝对的代表权。我们从医学上了解,影响患肾炎的因素有,而在我们所求得的结果中,这三种因素都有,所有我们可以认定,问题三的结果符合实际情况。 由第三问中选出的主成分来判定出来的结果,与第二问的结果相比更具有代表性。但由于是根据其患病和非患病的特点来判定号病例是否患病,而其特定是由人工算得,其中会产生误差。 在问题五中我们只考虑了的影响,太过于单调,会造成一定的偏差。但在问题三中我们求出对肾炎的影响最相关,因此考虑是最简单也是误差最小的判定方法。 七、模型的优缺点分析 (1)在运用判别分析中将确定样本回代,回代效果都较高,在对表二中的病历号进行判别时具有科学性; (2)在Fisher判别方法中,将七维空间映射到一维,会因信息量的损失而产生一定的误差; (3)主成分分析法选取了其中一些主成分进行分析,更简便也更具有代表性; (4)在问题五中只考虑了的分布,造成了一些误差。 八、参考文献 【1】姜启源、谢金星、叶俊;数学模型(第三版),高等教育出版社,2003年8月 【2】韩中庚;数学建模竞赛(获奖论文精选与点评),科学出版社,2007年5月 九、附录 病例号 Zn Cu Fe Ca Mg K Na 1 166 15.8 24.5 700 112 179 513 2 185 15.7 31.5 701 125 184 427 3 193 9.8 25.9 541 163 128 642 4 159 14.2 39.7 896 99.2 239 726 5 226 16.2 23.8 606 152 70.3 218 6 171 9.29 9.29 307 187 45.5 257 7 201 13.3 26.6 551 101 49.4 141 8 147 14.5 30 659 102 154 680 9 172 8.85 7.86 551 75.7 98.4 318 10 156 11.5 32.5 639 107 103 552 11 132 15.9 17.7 578 92.4 1314 1372 12 182 11.3 11.3 767 111 264 672 13 186 9.26 37.1 958 233 73 347 14 162 8.23 27.1 625 108 62.4 465 15 150 6.63 21 627 140 179 639 16 159 10.7 11.7 612 190 98.5 390 17 117 16.1 7.04 988 95.5 136 572 18 181 10.1 4.04 1437 184 101 542 19 146 20.7 23.8 1232 128 150 1092 20 42.3 10.3 9.7 629 93.7 439 888 21 28.2 12.4 53.1 370 44.1 454 852 22 154 13.8 53.3 621 105 160 723 23 179 12.2 17.9 1139 150 45.2 218 24 13.5 3.36 16.8 135 32.6 51.6 182 25 175 5.84 24.9 807 123 55.6 126 26 113 15.8 47.3 626 53.6 168 627 27 50.5 11.6 6.3 608 58.9 58.9 139 28 78.6 14.6 9.7 421 70.8 133 464 29 90 3.27 8.17 622 52.3 770 852 30 178 28.8 32.4 992 112 70.2 169 31 213 19.1 36.2 2220 249 40 168 32 170 13.9 29.8 1285 226 47.9 330 33 162 13.2 19.8 1521 166 36.2 133 34 203 13 90.8 1544 162 98.9 394 35 167 13.1 14.1 2278 212 46.3 134 36 164 12.9 18.6 2993 197 36.3 94.5 37 167 15 27 2056 260 64.6 237 38 158 14.4 37 1025 101 44.6 72.5 39 133 22.8 31 1633 401 180 899 40 156 135 322 6747 1090 228 810 41 169 8 308 1068 99.1 53 289 42 247 17.3 8.65 2554 241 77.9 373 43 166 8.1 62.8 1233 252 134 649 44 209 6.43 86.9 2157 288 74 219 45 182 6.49 61.7 3870 432 143 367 46 235 15.6 23.4 1806 166 68.8 188 47 173 19.1 17 2497 295 65.8 287 48 151 19.7 64.2 2031 403 182 874 49 191 65.4 35 5361 392 137 688 50 223 24.4 86 3603 353 97.7 479 51 221 20.1 155 3172 368 150 739 52 217 25 28.2 2343 373 110 494 53 164 22.2 35.5 2212 281 153 549 54 173 8.99 36 1624 216 103 257 55 202 18.6 17.7 3785 225 31 67.3 56 182 17.3 24.8 3073 246 50.7 109 57 211 24 17 3836 428 73.5 351 58 246 21.5 93.2 2112 354 71.7 195 59 164 16.1 38 2135 152 64.3 240 60 179 21 35 1560 226 47.9 330 61 58.2 5.42 29.7 323 138 179 513 62 106 1.87 40.5 542 177 184 427 63 152 0.8 12.5 1332 176 128 646 64 85.5 1.7 3.99 503 62.3 238 762.6 65 144 0.7 15.1 547 79.7 71 218.5 66 85.7 1.09 4.2 790 170 45.8 257.9 67 144 0.3 9.11 417 552 49.5 141.5 68 170 4.16 9.32 943 260 155 680.8 69 176 0.57 27.3 318 133 99.4 318.8 70 192 7.06 32.9 1969 343 103 553 71 188 8.28 22.6 1208 231 1314 1372 72 153 5.87 34.8 328 163 264 672.5 73 143 2.84 15.7 265 123 73 347.5 74 213 19.1 36.2 2220 249 62 465.8 75 192 20.1 23.8 1606 156 40 168 76 171 10.5 30.5 672 145 47 330.5 77 162 13.2 19.8 1521 166 36.2 133 78 203 13 90.8 1544 162 98.9 394.5 79 164 20.1 28.9 1062 161 47.3 134.5 80 167 13.1 14.1 2278 212 36.5 96.5 81 164 12.9 18.6 2993 197 65.5 237.8 82 167 15 27 2056 260 44.8 72 83 158 14.4 37 1025 101 180 899.5 84 133 22.8 31.3 1633 401 228 289 85 169 8 30.8 1068 99.1 53 817 86 247 17.3 8.65 2554 241 77.5 373.5 87 185 3.9 31.3 1211 190 134 649.8 88 209 6.43 86.9 2157 288 74 219.8 89 182 6.49 61.7 3870 432 143 367.5 90 235 15.6 23.4 1806 166 68.9 188 附表1 第四问附表: 病例号 参数 病例号 参数 病例号 参数 是否肾炎 1 -697.62 31 -2232.3 61 -323.89 是 2 -701.41 32 -1297.1 62 -547.52 是 3 -544.62 33 -1528.7 63 -1331.6 否 4 -886.29 34 -1546.2 64 -490.16 是 5 -616.46 35 -2285.8 65 -549.07 是 6 -322.06 36 -2995.8 66 -799.13 是 7 -557.84 37 -2068 67 -470.31 是 8 -653.68 38 -1029.5 68 -952.63 是 9 -550.86 39 -1648.6 69 -325.18 是 10 -637.7 40 -6804 70 -1984.7 否 11 -531.55 41 -1068.8 71 -1173 否 12 -759.78 42 -2559.9 72 -328.3 是 13 -972.13 43 -1241 73 -271.21 是 14 -626.33 44 -2172 74 -2227.2 否 15 -625.81 45 -3885.3 75 -1612 否 16 -622.02 46 -1811.4 76 -679.43 是 17 -981.7 47 -2509.3 77 -1528.7 否 18 -1439.5 48 -2045.1 78 -1546.2 否 19 -1219.9 49 -5358.8 79 -1071.6 否 20 -610.92 50 -3611.8 80 -2286.6 否 21 -348.26 51 -3179.6 81 -2992.9 否 22 -615.52 52 -2360.7 82 -2071 否 23 -1146 53 -2218.2 83 -1013.6 否 24 -133.71 54 -1632.8 84 -1656.5 否 25 -814.26 55 -3787.1 85 -1060.9 否 26 -615.8 56 -3080.1 86 -2559.9 否 27 -607.65 57 -3853.6 87 -1213.1 否 28 -416.61 58 -2135 88 -2172 否 29 -592.39 59 -2135.3 89 -3885.3 否 30 -996.06 60 -1570.6 90 -1811.4 否 问题四程序数据: b=cov(x) b = 2330.5 99.033 376.39 25355 2690.6 -3342.2 -4408.5 99.033 313.29 565.53 16211 2232.8 52.499 1035 376.39 565.53 3301.1 31804 5057.9 -412.58 1816.6 25355 16211 31804 1.6663e+006 1.7243e+005 -41873 -23590 2690.6 2232.8 5057.9 1.7243e+005 24974 -3638.1 4176.1 -3342.2 52.499 -412.58 -41873 -3638.1 37585 39260 -4408.5 1035 1816.6 -23590 4176.1 39260 80209 [pc,la,ex]=pcacov(b) pc = -0.01522 0.047532 0.029361 -0.046693 -0.28255 0.95409 -0.065879 -0.0096871 -0.01347 0.026498 -0.063816 0.043602 -0.059197 -0.99476 -0.019083 -0.022964 0.10422 -0.31812 0.90575 0.25363 0.048289 -0.99386 -0.019357 -0.051166 0.0943 0.018246 -0.0030542 0.0035096 -0.10324 -0.065548 0.32667 -0.87074 -0.31156 -0.1391 0.061076 0.025853 -0.50148 -0.82052 -0.2705 -0.021405 0.031018 -0.00074892 0.01497 -0.86074 0.45275 0.22869 -0.0046637 0.039437 0.0063475 la = 1.6868e+006 1.0318e+005 14930 6229.5 2112.2 1660.1 91.551 ex = 92.937 5.6847 0.82257 0.34322 0.11637 0.091462 0.0050441- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 诊断肾炎问题 诊断 肾炎 问题 word

链接地址:https://www.zhuangpeitu.com/p-8844466.html