第一题
data set1;
input obs DO COD BOD TN TP; cards;
1 4.3 4.74 4.23 3.66 0.105 2 5.9 4.61 2.59 2.92 0.081 3 7.0 3.94 2.92 1.71 0.072 4 6.9 3.92 3.11 1.32 0.075 5 7.4 4.02 3.10 1.26 0.076 6 6.9 3.75 3.15 1.05 0.096 7 6.7 4.44 3.14 1.02 0.072 8 6.8 4.35 4.08 1.27 0.110 9 6.2 4.24 2.38 0.71 0.068 10 7.4 3.99 2.84 0.74 0.063 11 8.1 4.43 3.44 0.86 0.070 12 7.7 4.31 3.50 0.93 0.074 13 5.7 4.88 5.02 1.84 0.134 14 6.8 4.73 4.34 1.39 0.109 15 5.5 5.93 5.06 2.81 0.240 ;
proc princomp data=set1 out=pprin; var DO COD BOD TN TP ; proc plot data=pprin; plot prin1*prin2 $ obs='*'; run;
输出结果
Correlation Matrix
DO COD BOD TN TP DO 1.0000 -.5671 -.4274 -.8334 -.5129 COD -.5671 1.0000 0.7457 0.5960 0.8599 BOD -.4274 0.7457 1.0000 0.4242 0.7968 TN -.8334 0.5960 0.4242 1.0000 0.5164 TP -.5129 0.8599 0.7968 0.5164 1.0000 Eigenvectors
PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 DO -.418118 0.563154 0.215951 0.660693 0.157748 COD 0.483599 0.226069 0.553994 0.083496 -.633359 BOD 0.434389 0.449454 -.748770 0.170068 -.140421 TN 0.422370 -.554902 0.022100 0.677406 0.233067 TP 0.473518 0.349035 0.292080 -.262127 0.707060 Eigenvalues of the Correlation Matrix
Eigenvalue Difference Proportion Cumulative PRIN1 3.52262 2.58807 0.704523 0.70452 PRIN2 0.93454 0.68632 0.186909 0.89143
PRIN3 0.24823 0.08090 0.049645 0.94108 PRIN4 0.16732 0.04003 0.033464 0.97454 PRIN5 0.12729 . 0.025458 1.00000 前两个主成分累积贡献已经超过85%,只选取前两个主成分 Plot of PRIN1*PRIN2$OBS. Symbol used is '*'. (NOTE: 1 obs hidden.) PRIN1 |
5 + * 15 |
| * 1
| * 13 | * 14 0 + * 2 6 7 * 8
| 9 ** 3 * 4 ** 5 12 * * 11 | * 10 | | -5 +
---+-------+-------+-------+-------+-------+-------+-------+-------+--
-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5
PRIN2
由样本点在第一主成分和第二主成分图上分布可以看出, 样本点 3、 4、 5、 6、9 距离很近,可以简化采样点。最终可以选择采样点 15、1、13、14、2、 8、7、12、9、10十个采样点 第二题 命令代码
data set2;
input place$ x1-x10; cards;
beijing 927 568 13107 0 13015 10424.7 1057.1 80646 123649 14899 tianjin 1503 833 21605 1899 21571 40994.5 4557.3 24724 89443 11175 hebei 2674 3687 108324 3415 102609 353467.9 29592.3 72906 282606 35089 shanxi 3263 2456 30929 0 26939 156832.6 12418.8 61577 201502 28391 neimeng 959 585 23577 0 15076 134754.3 9076.2 27213 139610 19600 liao 2574 2131 89186 30348 81704 185483.7 11431 102655 360964 55012 jilin 888 643 31365 0 24071 136999.3 3987.7 51126 234727 28708 hei 1517 1234 50286 0 47353 134003.6 4256.1 68461 376465 44169 hu 1655 1730 61112 14830 58020 43849 3385.5 129885 294592 24951 su 5604 3989 247524 803 241765 281141.1 17646.3 172546 486118 51871 zhe 5629 5491 168088 5131 163387 256441.7 37996.4 102174 305582 30431 wan 1669 1450 63525 0 60908 123237.9 19490.7 77735 289184 30933
min 3140 4856 98388 42328 95633 78587.7 8567.3 66234 272822 35295 gan 1062 1130 50135 0 41642 86621.1 4587.5 61823 335467 26183 lu 5040 4014 115933 11247 112590 406347.7 25911.8 129849 423156 51544 yu 4083 3387 114224 475 104480 341561.3 32747.9 125542 365857 46939 e 2342 1984 96498 1845 80848 188307.3 8655.12 134080 446116 48187 xiang 3102 2942 124132 0 99127 251580.8 35784.6 111645 562512 49960 yue 6873 8234 148867 0 123453 211105.7 8230.6 397563 770797 85033 gui 1731 2188 119291 0 103212 625361.2 31313.5 95523 301558 23595 qiong 285 270 7181 0 6741 12189.8 421.1 18870 55335 4619 yuc 1406 1167 81973 0 73663 110027.7 11004.9 51988 150590 15293 chuan 3849 3557 120160 0 98313 461548.2 28826.1 108254 474758 40900 qian 2574 1519 16815 0 9411 25422.9 2547 38727 194866 16042 dian 1500 1707 34655 0 24172 92805.2 2610.3 33526 192372 15094 zang 24 10 612 0 0 1158.7 2.5 467 6745 726 shaan 1856 1775 33526 0 29138 121518.6 2653.7 37239 199600 21538 gansu 1091 762 20899 0 15901 40636.8 13253.4 26994 117816 12190 qing 206 82 3453 0 2067 2927.4 37.9 7857 28960 3571 ning 272 334 10740 0 6288 76419 9327.7 12798 25143 3353 xin 606 413 16417 0 9794 126305.4 2222.5 39488 102492 16908 ;
proc princomp data=set2 out=result; var x1-x10;
proc print data=result;
proc cluster data=set2 method=ave pseudo out=tree; var x1-x10; id place;
proc tree graphics; run;
输出结果 Correlation Matrix
X1 X2 X3 X4 X5 X1 1.0000 0.9354 0.8418 0.1820 0.8308 X2 0.9354 1.0000 0.7923 0.2960 0.7724 X3 0.8418 0.7923 1.0000 0.1868 0.9941 X4 0.1820 0.2960 0.1868 1.0000 0.2169 X5 0.8308 0.7724 0.9941 0.2169 1.0000 X6 0.5471 0.5185 0.6843 -.0245 0.6533 X7 0.5810 0.5368 0.6918 0.0035 0.6746 X8 0.7899 0.8180 0.6886 0.0778 0.6502 X9 0.7965 0.7903 0.7800 0.1206 0.7313 X10 0.8082 0.7948 0.7446 0.2463 0.7099 X6 X7 X8 X9 X10 X1 0.5471 0.5810 0.7899 0.7965 0.8082 X2 0.5185 0.5368 0.8180 0.7903 0.7948
X3 0.6843 0.6918 0.6886 0.7800 0.7446 X4 -.0245 0.0035 0.0778 0.1206 0.2463 X5 0.6533 0.6746 0.6502 0.7313 0.7099 X6 1.0000 0.8072 0.4086 0.5686 0.5261 X7 0.8072 1.0000 0.2949 0.4881 0.4373 X8 0.4086 0.2949 1.0000 0.8699 0.8633 X9 0.5686 0.4881 0.8699 1.0000 0.9510 X10 0.5261 0.4373 0.8633 0.9510 1.0000
Principal Component Analysis
Eigenvalues of the Correlation Matrix
Eigenvalue Difference Proportion Cumulative PRIN1 6.73420 5.47107 0.673420 0.67342 PRIN2 1.26313 0.31478 0.126313 0.79973 PRIN3 0.94834 0.53728 0.094834 0.89457 PRIN4 0.41106 0.11766 0.041106 0.93567 前三个主成分累计贡献已经达到89%,所以只选入三个主成分。 Eigenvectors
PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 X1 0.357880 0.085176 -.040102 -.334419 0.379033 X2 0.350899 0.177227 0.020610 -.210543 0.545688 X3 0.360042 -.106845 0.120067 -.318919 -.432652 X4 0.079964 0.504277 0.802674 0.234276 0.000820 X5 0.350700 -.099117 0.170980 -.403723 -.463068 X6 0.274915 -.494319 0.120910 0.488059 0.008194 X7 0.265089 -.537704 0.257085 0.078285 0.322138 X8 0.321500 0.280888 -.381605 0.060021 0.039471 X9 0.349181 0.137009 -.242803 0.343866 -.188736 X10 0.344436 0.233780 -.157299 0.397584 -.126173 第一主成分中各指标系数均为正,可理解为污水排放的规模指标。
第二主成分中正系数的指标为废水X4(直接排海量)、X8(生活污水排放量)、X9(生活污水中 COD 排放量)、X10(生活污水中氨氮排放量);负系数指标为 X3(工业废水排放量) 、X5(工业废水排放达标量) 、X6(工业废水中COD排放量) 、X7(工业废水中氨氮排放量) ,可表示生活污水排放量指标。 第三主成分中正系数的指标为X4(直接排海量) 、X5(工业废水排放达标量) 、X7(工业废水中氨氮排放量) ;负系数指标为X8(生活污水排放量)、X9(生活污水中COD 排放量)、X10(生活污水中氨氮排放量),可表示工业污水排放量指标。 聚类分析结果:
Norm T Pseudo Pseudo RMS i NCL -Clusters Joined- FREQ F t**2 Dist e 30 zang qing 2 234.0 . 0.066481 29 jin gansu 2 185.3 . 0.084489 28 dian shaan 2 175.7 . 0.086061 27 shan jilin 2 143.8 . 0.114470 26 meng xin 2 131.8 . 0.115757
25 qiong CL30 3 117.1 4.2 0.122229 24 CL27 CL28 4 86.7 4.0 0.160180 23 hei gan 2 78.4 . 0.182882 22 jing CL29 3 69.2 6.5 0.191200 21 CL25 ning 4 60.6 5.3 0.210257 20 CL23 wan 2 56.0 . 0.226697 18 CL22 qian 4 51.6 3.2 0.255539 17 liao e 2 50.7 . 0.266212 16 CL24 yuc 5 48.1 5.0 0.268247 15 CL16 CL26 7 43.8 4.3 0.270072 14 hu min 2 45.6 . 0.270118 13 ji yu 2 47.7 . 0.278628 12 CL20 CL14 5 46.7 2.9 0.312999 11 CL18 CL21 8 39.7 10.1 0.347114 0 CL13 zhe 3 41.4 2.1 0.374558 9 CL17 CL12 7 37.7 5.6 0.450642 8 CL11 CL15 15 27.5 16.4 0.465161 7 CL10 CL19 5 27.6 6.1 0.545874 6 su xiang 2 31.1 . 0.598466 5 CL7 CL6 7 32.0 3.7 0.703704 4 3 CL5 gui 8 25.5 3.7 0.957291 2 CL4 CL3 30 7.2 35.4 1.234362 1 CL2 yue 31 . 7.2 1.864781
根据伪 t2 最大时的值为倒数第三步,聚为四类是合适的,A={(广东) };B={ (贵州)}; D={ (湖南) (江苏) (四川) (山东) (浙江) (河北) (河南)};C={ 其余各省市} 第三题 data task3;
input name$ NH3N NO3N Mn BOD5 DO TAs Cr6 TP TN; cards;
anxin 8.87 0.29 15 23.55 5.3 0.0039 0.036 0.695 10.620 duancun 0.085 0.24 7.5 3.5 3.9 0.0035 0.009 0.13 1.023 dazhang 2.125 0.57 9.55 4.4 6.65 0.0049 0.022 0.345 3.010 liutong 0.775 0.525 13.65 8.15 9.55 0.0050 0.018 0.265 2.120 guoli 0.54 0.475 10.25 5.5 7.3 0.0051 0.015 0.25 1.243 wangjia 3.43 0.345 12.95 5.1 5.15 0.0046 0.022 0.515 3.927 laowang 0.255 0.15 5.95 3.8 5.8 0.0037 0.014 0.065 0.527 quantou 0.25 0.26 6.3 3.45 7.1 0.0029 0.007 0.055 0.826 guang 0.255 0.165 6.9 3.95 6.5 0.0031 0.012 0.035 0.712 qiantang 0.32 0.305 6.8 3 6 0.0029 0.005 0.035 0.561 caipu 0.215 0.435 5.95 4.15 9.9 0.0022 0.008 0.045 1.026 ;
proc princomp data=set3 out=score; proc sort data=score out=sscore; by prin1;
proc print data=sscore; var name prin1; run; 输出结果
Eigenvalues of the Correlation Matrix
Eigenvalue Difference Proportion Cumulative PRIN1 5.69690 3.82099 0.632989 0.63299 PRIN2 1.87591 0.92438 0.208435 0.84142 PRIN3 0.95153 0.70525 0.105726 0.94715 PRIN4 0.24629 0.12240 0.027365 0.97452 PRIN5 0.12389 0.03703 0.013765 0.98828 PRIN6 0.08686 0.07455 0.009651 0.99793 PRIN7 0.01231 0.00687 0.001368 0.99930 PRIN8 0.00544 0.00456 0.000604 0.99990 PRIN9 0.00088 . 0.000097 1.00000 Eigenvectors
PRIN1 PRIN2 PRIN3 PRIN4 PRIN5 NH3N 0.393195 -.198804 0.169368 -.213507 0.074879 NO3N 0.107553 0.660316 0.071861 -.648613 -.009486 MN 0.381671 0.192738 -.088691 0.310424 -.728195 BOD5 0.368578 -.159264 0.351299 0.263110 -.003975 DO -.089142 0.520018 0.649753 0.382540 0.120597 TAS 0.230073 0.407010 -.599167 0.358839 0.262260 CR6 0.406205 -.002320 -.026508 0.120988 0.602306 TP 0.409448 0.022899 -.108319 -.216878 -.131267 TN 0.398469 -.159188 0.203121 -.177055 0.026283 第一主成分得分
OBS NAME PRIN1
1 caipu -1.98929 2 qiantang -1.90766 3 quantou -1.87246 4 guang -1.59408 5 laowang -1.42757 6 duancun -1.21839 7 guoli 0.19296 8 liutong 0.96528 9 dazhang 1.06893 10 wangjia 1.96637 11 anxin 5.81590
第一组成分中除了溶氧为负其余都为正,且正系数相差不大,可认为是指示综合污染程度。 再由第一主成分得分可知,安新庄、王家寨、 大张庄污染较重; 采莆台、前塘、圈头污染较轻。 第二主成分中溶氧、硝酸盐氮、金属离子系数为正,铵态氮、BOD5 系数为负,可理解为水体的氧化能力指标。
第三主成分中除重金属指标和总磷为负外,均为正,可理解为富营养化污染程度指标。
因篇幅问题不能全部显示,请点此查看更多更全内容