基于快速聚类法的植物分类

基于快速聚类法的植物分类

摘 要 本文主要讨论根据某植物的萼片及花瓣的长宽数据运用快速聚类法进行分类的问题。

针对问题一,将数据录入EXCEL 表格,运用快速聚类法并采用欧氏距离将Iris 数据分成3类,利用SAS 软件求解可得3类的频数分别为51、35及64。

针对问题二,同问题一的做法但采用绝对距离将数据分成3类,利用SAS 软件求解可得3类的频数分别为51、37及62。

针对问题三,同问题一的做法但采用L m 距离(m 1.5)将数据分成3类,利用SAS 软件求解可得3类的频数分别为51、37及62。

在分类数不确定的情况下将模型进行推广,利用快速聚类法和SAS 软件对各类结果进行比较分析,得出较好的分类。

关键词 快速聚类法;SAS 软件;欧氏距离;绝对距离;L m 距离

一、问题重述

植物是生命的主要形态之一,不同种类的植物形状一般不同。土壤环境,空气,阳光等都会影响植物的种类及形状,通过观察植物的形态对人类更好的了解植物有很大作用。现对某三种不同种类的植物的叶片及花瓣的长、宽进行调查。为此,取三个种类的植物G 1, G 2, G 3,每个种类取50个样本, 分别测量出每个样本的萼片长、宽及花瓣长、宽。为了更准确地将植物分类,根据题目中所给数据,解决以下问题:

问题一:用快速聚类法将这些数据分成3类,并写出分类结果; 问题一:用快速聚类法并采用绝对距离将这些数据分成3类,写出分类结果; 问题一:用快速聚类法并采用L m 距离(m =1.5)将这些数据分成3类,写出分类结果。

二、问题分析

聚类分析是研究分类问题的多元数据分析方法,为了解植物的本质特征,往往需要划分不同的类型去研究,当样品容量较大时,采用快速聚类法比较准确,快速聚类法先将样品粗略的分一下类,然后再按某种原则进行修改,直至分类比较合理为止。本文数据量较大,采取快速聚类法进行分类快速有效。 取某植物的三个种类G 1, G 2, G 3,每个种类取50个样本, 分别测量出每个样本的萼片长、宽及花瓣长、宽。利用SAS 软件对Iris 数据运用快速聚类法分别采用欧氏距离、绝对距离及L m 距离(m =1.5),从中选择出适当的聚点,进而对数据进行分类。

三、基本假设

1. 数据均真实有效可操作; 2. 样本均是随机选取;

3. 不考虑人为因素,检测仪器精确度不同的影响。

四、符号表示

五、模型的建立与求解

5.1 快速聚类法(欧式距离)

利用SAS 软件对Iris 数据采用欧氏距离进行快速聚类分析(见附录中程序1),初始聚点如表1所示:

聚点1、2和3对应的样品号分别为60、21和77号。分3类的聚类结果如表(见附录中表1)所示,从聚类的情况具体分析,第一类属于萼长居中,萼宽最宽,花瓣长和宽最小的样品,大部分为G 1种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为G 3种;第一类属于萼长和萼宽最小,花瓣长和宽居中的样品,大部分为G 2种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是18.0043;第二类包含35个样本,离聚点的最大距离是13.7788;第三类包含64个样本,离聚点的最大距离是17.9732。

聚类的大致情况见表2

18.3632,所以第3类与第2类最相近。

三个类的变量的样本均值与标准差如表3和表4所示:

表4 三个类的变量的样本标准差

根据样本均值与标准差可知:1、2、3类的数据基本都集中在均值附近,第三类的数据分布没有第一类集中。 5.2 快速聚类法(绝对距离)

利用SAS 软件对Iris 数据采用绝对距离进行快速聚类分析(见附录中程序2), 初始聚点如表5所示:

表5 初始聚点

聚点1、2和3对应的样品号分别为为60、21和77号。聚类中位数如表6所示:

分3类的聚类结果如表(见附录中表2)所示,由表6和附录中表2可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为G 1种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为G 3种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为G 2种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是30;第二类包含37个样本,离聚点的最大距离是29;第三类包含62个样本,离聚点

的最大距离是29.9983。

聚类的大致情况见表7:

表7 150个样品分3类情况

类间距离有助于分析类间的接近程度,第3类与第2类的距离最小,为 30.0017,所以第3类与第2类最相近。 5.3 快速聚类法(L m 距离(L m 1.5))

利用SAS 软件对Iris 数据采用L m 距离进行快速聚类分析(相关程序见附录中程序3),初始聚点如表8所示:

聚点1、2和3对应的样品号分别为60、21和77号,最终聚点如表8所示:

分3类聚类结果如表(见附录中表3)所示,由表8和附录中表3可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为G 1种;第二类属于萼长最长,萼宽最小,花瓣长和宽最大的样品,大部分为G 3种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为G 2种。

三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是21.1702;第二类包含37个样本,离聚点的最大距离是18.5932;第三类

包含62个样本,离聚点的最大距离是19.7812。

聚类的大致情况见表9:

离最小,为21.2817,所以第三类与第二类最接近。

六、模型评价与推广

6.1模型评价 优点:

(1)利用数学软件SAS 对模型进行分析,具有科学性; (2)采用的快速聚类法有成熟的理论基础,可信度较高;

(3)该模型建立所用的数学工具和聚类分析理论较简单,便于操作。 缺点:

(1)样本数据稍少,得出的分类方法可能与实际情况相违背; (2)尚未用快速分类法讨论其他的分类数,可能不是最优分类; (3)快速分类法自身有限制,无法对模型有全面、细致的分类求解。 6.2模型推广

将样本分为其他的类数,运用快速聚类法、利用SAS 软件分别求解,通过综合比较得出最优分类个数;运用快速聚类法得出的分类方法,以此植物的不同种类的萼片及花瓣长宽数据为依据进行简单分类,便于对此植物的管理,也可以推广到其他植物或动物的分类。

参考文献

[1] 范金城,梅长林,数据分析[M],北京:科学出版社,2002.

附录

表1 三种植物150个样本聚类结果

聚类 与种子观测 聚类 与种子观测

的距离 的距离

1 1.4941 51 1 4.6901 101 观测 1 聚类 与种子

的距离

1 4.2584 2 2 3 3 4 2 5 3 6 1 7 2 8 3 9 1 10 1 11 3 12 3 13 2 14 3 15 2 16 3 17 2 18 1 19 3 20 2 21 2 22 3 23 2 24 2 25 3 26 1 27 2 28 3 29 3 30 3 31 1 32 3 33 3 34 3 35 2 36

1 6.7619 6.0822 4.4486 7.0347 4.2974 7.8096 5.9631 18.0043 6.6522 3.2316 6.2596 8.1888 8.1779 6.7816 7.6315 2.4745 3.4721 3.0988 9.4863 13.3213 7.0161 5.1176 9.872 11.0569 5.1977 7.3114 11.6311 6.4038 5.4261 4.0821 7.4168 9.6756 7.8984 8.107 2.0429 52 1 53 3 54 1 55 1 56 1 57 3 58 2 59 1 60 1 61 1 62 3 63 3 64 1 65 1 66 3 67 3 68 1 69 1 70 3 71 3 72 1 73 1 74 2 75 2 76 3 77 3 78 2 79 1 80 1 81 2 82 2 83 3 84 2 85 3 86 3 4.2928 6.0428 4.9186 4.3405 3.4778 11.2936 6.752 9.248 10.168 6.0209 8.3558 5.1914 4.3653 1.5894 4.3897 6.3057 1.8195 4.82 1.6792 11.3416 12.0918 2.2089 8.0658 8.0988 7.6315 9.4152 6.0765 3.975 8.33 1.823 7.4335 5.2358 8.0285 16.9276 4.8983 102 1 103 2 104 3 105 2 106 3 107 1 108 1 109 3 110 3 111 2 112 2 113 1 114 3 115 3 116 1 117 3 118 3 119 3 120 3 121 3 122 3 123 2 124 2 125 1 126 1 127 2 128 2 129 3 130 3 131 3 132 2 133 2 134 3 135 1 136

1 5.2894 2.5801 8.1103 6.3238 3.9408 1.1276 1.9596 7.6049 8.6975 12.6961 7.2703 3.7543 8.5428 5.9327 4.8484 6.1072 5.918 3.7447 5.3765 17.9732 4.9907 4.6608 4.6822 6.5542 1.4131 7.1361 9.0475 3.0753 9.8625 10.9171 9.1026 4.0485 7.3075 2.7038 5.0056

37 38 39 40 41 42 43 44 45 46 47 48 49 50

1 3 2 1 2 1 3 1 2 3 1 3 3 2 2.9798 87 6.1167 88 13.1145 89 6.8225 90 3.6955 91 3.6241 92 5.9753 93 7.6669 94 11.6843 95 6.316 96 4.1251 97 5.5333 98 16.5624 99 4.6033 100 3 1 1 2 3 1 3 3 3 1 1 3 3 3 5.363 9.3177 3.4008 13.7788 7.4548 6.743 6.9486 9.6125 6.7272 0.8614 16.331 16.3151 10.8076 6.685 137 138 139 140 141 142 143 144 145 146 147 148 149 150 1 3 1 1 3 3 3 1 1 1 3 3 2 1 12.3533 8.1521 8.1672 4.0338 8.1903 7.0522 9.0534 4.4849 3.2954 2.1641 11.2511 9.6756 7.8352 4.1204

表2 三种植物150个样本聚类结果

观测 聚类 与种子观测 聚类 与种子的距观测

的距离 离

1 1 2 51 1 8 101 2 2 7 52 1 6 102 3 3 10.9979 53 3 13.0017 103 4 2 5 54 1 6 104 5 3 12.0017 55 1 5 105 6 1 6 56 1 5 106 7 2 11 57 3 14.9979 107 8 3 9.9979 58 2 6 108 9 1 30 59 1 16 109 10 1 11 60 1 17 110 11 3 6.0017 61 1 11 111 12 3 9.9979 62 3 13.0017 112 13 2 8 63 3 11.0017 113 14 3 13.9983 64 1 6 114 15 2 7 65 1 3 115 16 3 11.9983 66 3 6.0021 116 17 2 7 67 3 8.9983 117 18 1 7 68 1 3 118 19 3 3.0021 69 1 7 119 20 2 14 70 3 4.0017 120 21 2 29 71 3 16.9983 121 22 3 14.0017 72 1 19 122 23 2 7 73 1 3 123 24 2 18 74 2 16 124 25 3 14.9983 75 2 12 125

聚类 与种子

的距离

1 7 1 7 2 6 3 11.0021 2 15 3 7.0017 1 1 1 4 3 13.0021 3 15.9979 2 25 2 9 1 5 3 15.0017 3 10.9979 1 7 3 10.0021 3 10.9979 3 7.0017 3 10.0017 3 28.9983 3 7.0021 2 4 2 6 1 13

26 27 28 29 30 31 32 33 34 1 2 3 3 3 1 3 3 3 8 76 3 11.9983 126 7 77 3 13.9983 127 18.0017 78 2 11 128 11.0017 79 1 6 129 9.0017 80 1 11 130 6 81 2 6 131 13.0017 82 2 9 132 16.9983 83 3 11.0017 133 16.9979 84 2 9 134 1 2 2 3 3 2 2 2 3 4 19 11

6.0017 14.0021 17 12 3

11.9983 35 2 11 85 3 28.9983 135 36 1 3 86 3 6.9983 136 37 1 5 87 3 9.0021 137 38 3 8.0021 88 1 14 138 39 2 28 89 1 4 139 40 1 10 90 2 28 140 41 2 3 91 3 12.9979 141 42 1 6 92 1 13 142 43 3 8.9983 93 3 11.0017 143 44 1 12 94 3 12.9983 144 45 2 23 95 3 10.0017 145 46 3 12.9979 96 1 2.05E-08 146 47 1 6 97 1 22 147 48 3 7.9983 98 3 29.9983 148 49 3 28.9983 99 3 18.9983 149 50 2

13 100 3 8.9983 150

表3 三种植物150个样本聚类结果

观测 聚类 与种子的距观测 聚类 与种子的距

观测

离 离 1 1 1.5237 51 1 5.353 101 2 2 6.0266 52 1 4.7492 102 3 3 7.7943 53 3 8.6719 103 4 2 3.9365 54 1 5.3155 104 5 3 9.0217 55 1 4.6024 105 6 1 4.4981 56 1 3.8583 106 7 2 7.0785 57 3 12.5155 107 8 3 7.1761 58 2 5.7515 108 9 1 21.1702 59 1 10.8644 109 10 1 7.7266 60 1 11.9272 110 11 3 4.5451 61 1 7.313 111 12 3 7.6748 62 3 9.7865 112 13 2

6.9987

63 3

7.6265

113 1 3 1 8 1 19

3 14.9983 1 14 1 6

3 13.9983 3 11.0017 3 13.0017 1 6 1 6 1 3

3 17.0021 2 11 2 14 1 6

聚类 与种子的距

1 4.9039 1 5.8305 2 3.0307 3 8.0422 2 9.422 3 4.373 1 1.1138 1 2.4056 3 9.6652 3 9.7729 2 16.132 2 7.5121 1

4.0741

14 3 15 2 16 3 17 2 18 1 19 3 20 2 21 2 22 3 23 2 24 2 25 3 26 1 27 2 28 3 29 3 30 3 31 1 32 3 33 3 34 3 35 2 36 1 37 1 38 3 39 2 40 1 41 2 42 1 43 3 44 1 45 2 46 3 47 1 48 3 49 3 50 2

程序1:

data pjsr; input x1-x4; cards;

50 33 14 2

8.7658 5.8818 9.4753 3.7326 4.567 2.7851 9.6046 18.3607 9.4734 5.523 13.4066 11.7101 5.8236 6.3447 13.8779 8.1759 5.7772 4.6778 9.5608 10.6657 10.9846 7.6571 2.2266 3.3152 6.5201 17.7903 7.4909 2.9151 4.4912 5.8743 8.7121 15.7917 8.8943 4.6902 5.2739 18.8131 7.2141

64 1 4.6751 65 1 1.8413 66 3 4.8783 67 3 6.1263 68 1 2.4016 69 1 5.2681 70 3 2.9033 71 3 11.8321 72 1 13.8838 73 1 2.3219 74 2 11.1767 75 2 8.3868 76 3 9.4753 77 3 9.8797 78 2 7.3843 79 1 4.627 80 1 8.9282 81 2 3.9763 82 2 6.5888 83 3 7.5084 84 2 7.381 85 3 19.0689 86 3 4.5304 87 3 5.6666 88 1 10.4799 89 1 3.6183 90 2 18.5932 91 3 9.1627 92 1 8.3898 93 3 8.4209 94 3 9.7713 95 3 7.8312 96 1 0.5575 97 1 17.6764 98 3 18.988 99 3 12.0004 3

6.4123

114 3 115 3 116 1 117 3 118 3 119 3 120 3 121 3 122 3 123 2 124 2 125 1 126 1 127 2 128 2 129 3 130 3 131 2 132 2 133 2 134 3 135 1 136 1 137 1 138 3 139 1 140 1 141 3 142 3 143 3 144 1 145 1 146 1 147 3 148 2 149 2 150 1

10.8306 7.01 5.5392 6.4782 7.8205 4.905 6.4874 19.7812 4.742 3.9891 3.4542 8.0859 2.0175 10.8713 8.1434 4.5325 10.1398 11.4353 8.8601 2.3153 7.6553 2.8488 5.6299 13.7703 10.4972 9.6369 4.4513 8.9109 8.2703 10.7354 5.0384 4.0727 2.4519 13.5788 9.338 9.3138 4.7299

100

65 25 46 15

67 31 56 24

63 28 51 15

46 34 14 3

69 31 51 23

62 22 45 15

59 32 18 18

46 36 10 2

61 30 46 14

60 27 51 16

65 30 52 20

56 25 39 11

65 30 55 18

58 27 51 19

68 32 59 23

51 33 17 5

57 28 45 13

62 34 54 23

77 38 67 22

63 33 47 16

67 33 57 25

76 30 66 21

49 25 45 17

55 35 13 2

67 30 52 23

70 32 47 14

64 32 45 15

61 28 40 13

48 31 16 2

59 30 51 18

55 24 38 11

63 25 50 19

64 32 53 23

52 34 14 2

49 36 14 1

54 30 45 15

79 38 64 20

44 32 13 2

67 33 57 21

50 35 16 6

58 26 40 12

44 30 13 2

77 28 67 20

47 32 16 2

55 26 44 12

50 23 33 10

72 32 60 18

48 30 14 3

51 38 16 2

61 30 49 18

48 34 19 2

50 30 16 2

50 32 12 2

61 26 56 14

64 28 56 21

43 30 11 1

58 40 12 2

51 38 19 4

67 31 44 14

62 28 48 18

49 30 14 2

51 35 14 2

56 30 45 15

58 27 41 10

50 34 16 4

46 32 14 2

60 29 45 15

57 26 35 10

57 44 15 4

50 36 14 2

77 30 61 23

63 34 56 24

58 27 51 19

57 19 42 13

72 30 58 16

54 34 15 4

52 42 15 1

71 30 59 21

64 31 55 18

60 30 48 18

63 29 56 18

49 24 33 10

56 27 42 13

57 30 42 12

55 42 14 2

49 31 15 2

60 22 50 15

54 39 17 4

66 29 46 13

52 27 39 14

60 34 45 16

50 34 15 2

44 19 14 2

50 20 35 10

55 24 37 10

58 27 39 12

47 32 13 2

46 31 15 2

69 32 57 23

52 29 43 13

74 28 61 19

59 30 42 15

51 34 15 2

50 35 13 3

56 28 49 20

60 22 40 10

73 20 63 18

67 25 58 18

49 31 15 1

67 31 47 15

63 23 44 13

54 37 15 2

56 30 41 13

63 25 49 14

61 28 47 12

64 29 43 13

51 25 30 10

57 28 41 13

65 30 58 22

69 31 54 21

54 39 13 4

51 35 14 3

72 36 61 25

65 32 51 20

61 29 47 14

56 29 36 13

69 31 49 15

64 27 53 19

68 30 55 21

48 34 16 2

48 30 14 1

45 23 13 3

57 25 50 20

57 38 17 3

51 38 15 3

55 23 40 13

66 30 44 14

68 28 48 14

54 34 17 2

51 37 15 4

52 35 15 2

58 28 51 24

67 30 50 17

63 33 60 25

53 37 15 2 ;

proc cluster data=pjsr method=single OUTTREE=tree nonorm;

run ;

proc fastclus data=pjsr out=a1 maxc=3 cluster=c distance list;

data b1 b2 b3; set a1;

if c=1 then output b1;

if c=2 then output b2;

if c=3 then output b3;

proc print data=b1;

proc print data=b2;

proc print data=b3;

run ;

程序2:

data pjsr; input x1-x4; cards;

50 33 14 2

64 28 56 22

65 25 46 15

67 31 56 24

63 28 51 15

46 34 14 3

69 31 51 23

59 32 18 18

46 36 10 2

61 30 46 14

60 27 51 16

65 30 52 20

56 25 39 11

65 30 55 18

58 27 51 19

68 32 59 23

51 33 17 5

57 28 45 13

62 34 54 23

77 38 67 22

63 33 47 16

67 33 57 25

76 30 66 21

49 25 45 17

55 35 13 2

67 30 52 23

70 32 47 14

64 32 45 15

61 28 40 13

48 31 16 2

59 30 51 18

55 24 38 11

63 25 50 19

64 32 53 23

52 34 14 2

49 36 14 1

54 30 45 15

79 38 64 20

44 32 13 2

67 33 57 21

50 35 16 6

58 26 40 12

44 30 13 2

77 28 67 20

63 27 49 18

47 32 16 2

55 26 44 12

50 23 33 10

72 32 60 18

48 30 14 3

61 30 49 18

48 34 19 2

50 30 16 2

50 32 12 2

61 26 56 14

64 28 56 21

43 30 11 1

58 40 12 2

51 38 19 4

67 31 44 14

62 28 48 18

49 30 14 2

51 35 14 2

56 30 45 15

58 27 41 10

50 34 16 4

46 32 14 2

60 29 45 15

57 26 35 10

57 44 15 4

50 36 14 2

77 30 61 23

63 34 56 24

58 27 51 19

57 19 42 13

72 30 58 16

54 34 15 4

52 42 15 1

71 30 59 21

64 31 55 18

60 30 48 18

63 29 56 18

49 24 33 10

56 27 42 13

57 30 42 12

55 42 14 2

49 31 15 2

77 26 69 23

60 22 50 15

54 39 17 4

66 29 46 13

52 27 39 14

60 34 45 16

44 19 14 2

50 20 35 10

55 24 37 10

58 27 39 12

47 32 13 2

46 31 15 2

69 32 57 23

52 29 43 13

74 28 61 19

59 30 42 15

51 34 15 2

50 35 13 3

56 28 49 20

60 22 40 10

73 20 63 18

67 25 58 18

49 31 15 1

67 31 47 15

63 23 44 13

54 37 15 2

56 30 41 13

63 25 49 14

61 28 47 12

64 29 43 13

51 25 30 10

57 28 41 13

65 30 58 22

69 31 54 21

54 39 13 4

51 35 14 3

72 36 61 25

65 32 51 20

61 29 47 14

56 29 36 13

69 31 49 15

64 27 53 19

68 30 55 21

55 25 40 13

48 34 16 2

48 30 14 1

45 23 13 3

57 25 50 20

57 38 17 3

55 23 40 13

66 30 44 14

68 28 48 14

54 34 17 2

51 37 15 4

52 35 15 2

58 28 51 24

67 30 50 17

63 33 60 25

53 37 15 2 ;

proc cluster data=pjsr method=single OUTTREE=tree nonorm;

run ;

proc fastclus least=1 data=pjsr out=a1 maxc=3 cluster=c distance list;

data b1 b2 b3; set a1;

if c=1 then output b1;

if c=2 then output b2;

if c=3 then output b3;

proc print data=b1;

proc print data=b2;

proc print data=b3;

run ;

程序3:

data pjsr; input x1-x4; cards;

50 33 14 2

64 28 56 22

65 25 46 15

67 31 56 24

63 28 51 15

46 34 14 3

69 31 51 23

62 22 45 15

59 32 18 18

46 36 10 2

61 30 46 14

60 27 51 16

65 30 52 20

56 25 39 11

58 27 51 19 68 32 59 23 51 33 17 5 57 28 45 13 62 34 54 23 77 38 67 22 63 33 47 16 67 33 57 25 76 30 66 21 49 25 45 17 55 35 13 2 67 30 52 23 70 32 47 14 64 32 45 15 61 28 40 13 48 31 16 2 59 30 51 18 55 24 38 11 63 25 50 19 64 32 53 23 52 34 14 2 49 36 14 1 54 30 45 15 79 38 64 20 44 32 13 2 67 33 57 21 50 35 16 6 58 26 40 12 44 30 13 2 77 28 67 20 63 27 49 18 47 32 16 2 55 26 44 12 50 23 33 10 72 32 60 18 48 30 14 3 51 38 16 2 61 30 49 18 48 34 19 2 50 30 16 2 50 32 12 2 61 26 56 14 64 28 56 21

58 40 12 2 51 38 19 4 67 31 44 14 62 28 48 18 49 30 14 2 51 35 14 2 56 30 45 15 58 27 41 10 50 34 16 4 46 32 14 2 60 29 45 15 57 26 35 10 57 44 15 4 50 36 14 2 77 30 61 23 63 34 56 24 58 27 51 19 57 19 42 13 72 30 58 16 54 34 15 4 52 42 15 1 71 30 59 21 64 31 55 18 60 30 48 18 63 29 56 18 49 24 33 10 56 27 42 13 57 30 42 12 55 42 14 2 49 31 15 2 77 26 69 23 60 22 50 15 54 39 17 4 66 29 46 13 52 27 39 14 60 34 45 16 50 34 15 2 44 19 14 2 50 20 35 10 55 24 37 10 58 27 39 12 47 32 13 2 46 31 15 2

52 29 43 13

74 28 61 19

59 30 42 15

51 34 15 2

50 35 13 3

56 28 49 20

60 22 40 10

73 20 63 18

67 25 58 18

49 31 15 1

67 31 47 15

63 23 44 13

54 37 15 2

56 30 41 13

63 25 49 14

61 28 47 12

64 29 43 13

51 25 30 10

57 28 41 13

65 30 58 22

69 31 54 21

54 39 13 4

51 35 14 3

72 36 61 25

65 32 51 20

61 29 47 14

56 29 36 13

69 31 49 15

64 27 53 19

68 30 55 21

55 25 40 13

48 34 16 2

48 30 14 1

45 23 13 3

57 25 50 20

57 38 17 3

51 38 15 3

55 23 40 13

66 30 44 14

68 28 48 14

54 34 17 2

51 37 15 4

52 35 15 2

67 30 50 17

63 33 60 25

53 37 15 2 ;

proc cluster data=pjsr method=single OUTTREE=tree nonorm;

run ;

proc fastclus least=1.5 data=pjsr out=a1 maxc=3 cluster=c distance list;

data b1 b2 b3; set a1;

if c=1 then output b1;

if c=2 then output b2;

if c=3 then output b3;

proc print data=b1;

proc print data=b2;

proc print data=b3;

run ;

基于快速聚类法的植物分类

摘 要 本文主要讨论根据某植物的萼片及花瓣的长宽数据运用快速聚类法进行分类的问题。

针对问题一,将数据录入EXCEL 表格,运用快速聚类法并采用欧氏距离将Iris 数据分成3类,利用SAS 软件求解可得3类的频数分别为51、35及64。

针对问题二,同问题一的做法但采用绝对距离将数据分成3类,利用SAS 软件求解可得3类的频数分别为51、37及62。

针对问题三,同问题一的做法但采用L m 距离(m 1.5)将数据分成3类,利用SAS 软件求解可得3类的频数分别为51、37及62。

在分类数不确定的情况下将模型进行推广,利用快速聚类法和SAS 软件对各类结果进行比较分析,得出较好的分类。

关键词 快速聚类法;SAS 软件;欧氏距离;绝对距离;L m 距离

一、问题重述

植物是生命的主要形态之一,不同种类的植物形状一般不同。土壤环境,空气,阳光等都会影响植物的种类及形状,通过观察植物的形态对人类更好的了解植物有很大作用。现对某三种不同种类的植物的叶片及花瓣的长、宽进行调查。为此,取三个种类的植物G 1, G 2, G 3,每个种类取50个样本, 分别测量出每个样本的萼片长、宽及花瓣长、宽。为了更准确地将植物分类,根据题目中所给数据,解决以下问题:

问题一:用快速聚类法将这些数据分成3类,并写出分类结果; 问题一:用快速聚类法并采用绝对距离将这些数据分成3类,写出分类结果; 问题一:用快速聚类法并采用L m 距离(m =1.5)将这些数据分成3类,写出分类结果。

二、问题分析

聚类分析是研究分类问题的多元数据分析方法,为了解植物的本质特征,往往需要划分不同的类型去研究,当样品容量较大时,采用快速聚类法比较准确,快速聚类法先将样品粗略的分一下类,然后再按某种原则进行修改,直至分类比较合理为止。本文数据量较大,采取快速聚类法进行分类快速有效。 取某植物的三个种类G 1, G 2, G 3,每个种类取50个样本, 分别测量出每个样本的萼片长、宽及花瓣长、宽。利用SAS 软件对Iris 数据运用快速聚类法分别采用欧氏距离、绝对距离及L m 距离(m =1.5),从中选择出适当的聚点,进而对数据进行分类。

三、基本假设

1. 数据均真实有效可操作; 2. 样本均是随机选取;

3. 不考虑人为因素,检测仪器精确度不同的影响。

四、符号表示

五、模型的建立与求解

5.1 快速聚类法(欧式距离)

利用SAS 软件对Iris 数据采用欧氏距离进行快速聚类分析(见附录中程序1),初始聚点如表1所示:

聚点1、2和3对应的样品号分别为60、21和77号。分3类的聚类结果如表(见附录中表1)所示,从聚类的情况具体分析,第一类属于萼长居中,萼宽最宽,花瓣长和宽最小的样品,大部分为G 1种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为G 3种;第一类属于萼长和萼宽最小,花瓣长和宽居中的样品,大部分为G 2种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是18.0043;第二类包含35个样本,离聚点的最大距离是13.7788;第三类包含64个样本,离聚点的最大距离是17.9732。

聚类的大致情况见表2

18.3632,所以第3类与第2类最相近。

三个类的变量的样本均值与标准差如表3和表4所示:

表4 三个类的变量的样本标准差

根据样本均值与标准差可知:1、2、3类的数据基本都集中在均值附近,第三类的数据分布没有第一类集中。 5.2 快速聚类法(绝对距离)

利用SAS 软件对Iris 数据采用绝对距离进行快速聚类分析(见附录中程序2), 初始聚点如表5所示:

表5 初始聚点

聚点1、2和3对应的样品号分别为为60、21和77号。聚类中位数如表6所示:

分3类的聚类结果如表(见附录中表2)所示,由表6和附录中表2可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为G 1种;第二类属于萼长最长,萼宽居中,花瓣长和宽最大的样品,大部分为G 3种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为G 2种。三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是30;第二类包含37个样本,离聚点的最大距离是29;第三类包含62个样本,离聚点

的最大距离是29.9983。

聚类的大致情况见表7:

表7 150个样品分3类情况

类间距离有助于分析类间的接近程度,第3类与第2类的距离最小,为 30.0017,所以第3类与第2类最相近。 5.3 快速聚类法(L m 距离(L m 1.5))

利用SAS 软件对Iris 数据采用L m 距离进行快速聚类分析(相关程序见附录中程序3),初始聚点如表8所示:

聚点1、2和3对应的样品号分别为60、21和77号,最终聚点如表8所示:

分3类聚类结果如表(见附录中表3)所示,由表8和附录中表3可得第一类属于萼长最小,萼宽最宽,花瓣长和宽最小的样品,大部分为G 1种;第二类属于萼长最长,萼宽最小,花瓣长和宽最大的样品,大部分为G 3种;第三类属于萼长居中,萼宽最小,花瓣长和宽居中的样品,大部分为G 2种。

三种植物总共150个样本分为三类,第一类包含51个样本,离聚点的最大距离是21.1702;第二类包含37个样本,离聚点的最大距离是18.5932;第三类

包含62个样本,离聚点的最大距离是19.7812。

聚类的大致情况见表9:

离最小,为21.2817,所以第三类与第二类最接近。

六、模型评价与推广

6.1模型评价 优点:

(1)利用数学软件SAS 对模型进行分析,具有科学性; (2)采用的快速聚类法有成熟的理论基础,可信度较高;

(3)该模型建立所用的数学工具和聚类分析理论较简单,便于操作。 缺点:

(1)样本数据稍少,得出的分类方法可能与实际情况相违背; (2)尚未用快速分类法讨论其他的分类数,可能不是最优分类; (3)快速分类法自身有限制,无法对模型有全面、细致的分类求解。 6.2模型推广

将样本分为其他的类数,运用快速聚类法、利用SAS 软件分别求解,通过综合比较得出最优分类个数;运用快速聚类法得出的分类方法,以此植物的不同种类的萼片及花瓣长宽数据为依据进行简单分类,便于对此植物的管理,也可以推广到其他植物或动物的分类。

参考文献

[1] 范金城,梅长林,数据分析[M],北京:科学出版社,2002.

附录

表1 三种植物150个样本聚类结果

聚类 与种子观测 聚类 与种子观测

的距离 的距离

1 1.4941 51 1 4.6901 101 观测 1 聚类 与种子

的距离

1 4.2584 2 2 3 3 4 2 5 3 6 1 7 2 8 3 9 1 10 1 11 3 12 3 13 2 14 3 15 2 16 3 17 2 18 1 19 3 20 2 21 2 22 3 23 2 24 2 25 3 26 1 27 2 28 3 29 3 30 3 31 1 32 3 33 3 34 3 35 2 36

1 6.7619 6.0822 4.4486 7.0347 4.2974 7.8096 5.9631 18.0043 6.6522 3.2316 6.2596 8.1888 8.1779 6.7816 7.6315 2.4745 3.4721 3.0988 9.4863 13.3213 7.0161 5.1176 9.872 11.0569 5.1977 7.3114 11.6311 6.4038 5.4261 4.0821 7.4168 9.6756 7.8984 8.107 2.0429 52 1 53 3 54 1 55 1 56 1 57 3 58 2 59 1 60 1 61 1 62 3 63 3 64 1 65 1 66 3 67 3 68 1 69 1 70 3 71 3 72 1 73 1 74 2 75 2 76 3 77 3 78 2 79 1 80 1 81 2 82 2 83 3 84 2 85 3 86 3 4.2928 6.0428 4.9186 4.3405 3.4778 11.2936 6.752 9.248 10.168 6.0209 8.3558 5.1914 4.3653 1.5894 4.3897 6.3057 1.8195 4.82 1.6792 11.3416 12.0918 2.2089 8.0658 8.0988 7.6315 9.4152 6.0765 3.975 8.33 1.823 7.4335 5.2358 8.0285 16.9276 4.8983 102 1 103 2 104 3 105 2 106 3 107 1 108 1 109 3 110 3 111 2 112 2 113 1 114 3 115 3 116 1 117 3 118 3 119 3 120 3 121 3 122 3 123 2 124 2 125 1 126 1 127 2 128 2 129 3 130 3 131 3 132 2 133 2 134 3 135 1 136

1 5.2894 2.5801 8.1103 6.3238 3.9408 1.1276 1.9596 7.6049 8.6975 12.6961 7.2703 3.7543 8.5428 5.9327 4.8484 6.1072 5.918 3.7447 5.3765 17.9732 4.9907 4.6608 4.6822 6.5542 1.4131 7.1361 9.0475 3.0753 9.8625 10.9171 9.1026 4.0485 7.3075 2.7038 5.0056

37 38 39 40 41 42 43 44 45 46 47 48 49 50

1 3 2 1 2 1 3 1 2 3 1 3 3 2 2.9798 87 6.1167 88 13.1145 89 6.8225 90 3.6955 91 3.6241 92 5.9753 93 7.6669 94 11.6843 95 6.316 96 4.1251 97 5.5333 98 16.5624 99 4.6033 100 3 1 1 2 3 1 3 3 3 1 1 3 3 3 5.363 9.3177 3.4008 13.7788 7.4548 6.743 6.9486 9.6125 6.7272 0.8614 16.331 16.3151 10.8076 6.685 137 138 139 140 141 142 143 144 145 146 147 148 149 150 1 3 1 1 3 3 3 1 1 1 3 3 2 1 12.3533 8.1521 8.1672 4.0338 8.1903 7.0522 9.0534 4.4849 3.2954 2.1641 11.2511 9.6756 7.8352 4.1204

表2 三种植物150个样本聚类结果

观测 聚类 与种子观测 聚类 与种子的距观测

的距离 离

1 1 2 51 1 8 101 2 2 7 52 1 6 102 3 3 10.9979 53 3 13.0017 103 4 2 5 54 1 6 104 5 3 12.0017 55 1 5 105 6 1 6 56 1 5 106 7 2 11 57 3 14.9979 107 8 3 9.9979 58 2 6 108 9 1 30 59 1 16 109 10 1 11 60 1 17 110 11 3 6.0017 61 1 11 111 12 3 9.9979 62 3 13.0017 112 13 2 8 63 3 11.0017 113 14 3 13.9983 64 1 6 114 15 2 7 65 1 3 115 16 3 11.9983 66 3 6.0021 116 17 2 7 67 3 8.9983 117 18 1 7 68 1 3 118 19 3 3.0021 69 1 7 119 20 2 14 70 3 4.0017 120 21 2 29 71 3 16.9983 121 22 3 14.0017 72 1 19 122 23 2 7 73 1 3 123 24 2 18 74 2 16 124 25 3 14.9983 75 2 12 125

聚类 与种子

的距离

1 7 1 7 2 6 3 11.0021 2 15 3 7.0017 1 1 1 4 3 13.0021 3 15.9979 2 25 2 9 1 5 3 15.0017 3 10.9979 1 7 3 10.0021 3 10.9979 3 7.0017 3 10.0017 3 28.9983 3 7.0021 2 4 2 6 1 13

26 27 28 29 30 31 32 33 34 1 2 3 3 3 1 3 3 3 8 76 3 11.9983 126 7 77 3 13.9983 127 18.0017 78 2 11 128 11.0017 79 1 6 129 9.0017 80 1 11 130 6 81 2 6 131 13.0017 82 2 9 132 16.9983 83 3 11.0017 133 16.9979 84 2 9 134 1 2 2 3 3 2 2 2 3 4 19 11

6.0017 14.0021 17 12 3

11.9983 35 2 11 85 3 28.9983 135 36 1 3 86 3 6.9983 136 37 1 5 87 3 9.0021 137 38 3 8.0021 88 1 14 138 39 2 28 89 1 4 139 40 1 10 90 2 28 140 41 2 3 91 3 12.9979 141 42 1 6 92 1 13 142 43 3 8.9983 93 3 11.0017 143 44 1 12 94 3 12.9983 144 45 2 23 95 3 10.0017 145 46 3 12.9979 96 1 2.05E-08 146 47 1 6 97 1 22 147 48 3 7.9983 98 3 29.9983 148 49 3 28.9983 99 3 18.9983 149 50 2

13 100 3 8.9983 150

表3 三种植物150个样本聚类结果

观测 聚类 与种子的距观测 聚类 与种子的距

观测

离 离 1 1 1.5237 51 1 5.353 101 2 2 6.0266 52 1 4.7492 102 3 3 7.7943 53 3 8.6719 103 4 2 3.9365 54 1 5.3155 104 5 3 9.0217 55 1 4.6024 105 6 1 4.4981 56 1 3.8583 106 7 2 7.0785 57 3 12.5155 107 8 3 7.1761 58 2 5.7515 108 9 1 21.1702 59 1 10.8644 109 10 1 7.7266 60 1 11.9272 110 11 3 4.5451 61 1 7.313 111 12 3 7.6748 62 3 9.7865 112 13 2

6.9987

63 3

7.6265

113 1 3 1 8 1 19

3 14.9983 1 14 1 6

3 13.9983 3 11.0017 3 13.0017 1 6 1 6 1 3

3 17.0021 2 11 2 14 1 6

聚类 与种子的距

1 4.9039 1 5.8305 2 3.0307 3 8.0422 2 9.422 3 4.373 1 1.1138 1 2.4056 3 9.6652 3 9.7729 2 16.132 2 7.5121 1

4.0741

14 3 15 2 16 3 17 2 18 1 19 3 20 2 21 2 22 3 23 2 24 2 25 3 26 1 27 2 28 3 29 3 30 3 31 1 32 3 33 3 34 3 35 2 36 1 37 1 38 3 39 2 40 1 41 2 42 1 43 3 44 1 45 2 46 3 47 1 48 3 49 3 50 2

程序1:

data pjsr; input x1-x4; cards;

50 33 14 2

8.7658 5.8818 9.4753 3.7326 4.567 2.7851 9.6046 18.3607 9.4734 5.523 13.4066 11.7101 5.8236 6.3447 13.8779 8.1759 5.7772 4.6778 9.5608 10.6657 10.9846 7.6571 2.2266 3.3152 6.5201 17.7903 7.4909 2.9151 4.4912 5.8743 8.7121 15.7917 8.8943 4.6902 5.2739 18.8131 7.2141

64 1 4.6751 65 1 1.8413 66 3 4.8783 67 3 6.1263 68 1 2.4016 69 1 5.2681 70 3 2.9033 71 3 11.8321 72 1 13.8838 73 1 2.3219 74 2 11.1767 75 2 8.3868 76 3 9.4753 77 3 9.8797 78 2 7.3843 79 1 4.627 80 1 8.9282 81 2 3.9763 82 2 6.5888 83 3 7.5084 84 2 7.381 85 3 19.0689 86 3 4.5304 87 3 5.6666 88 1 10.4799 89 1 3.6183 90 2 18.5932 91 3 9.1627 92 1 8.3898 93 3 8.4209 94 3 9.7713 95 3 7.8312 96 1 0.5575 97 1 17.6764 98 3 18.988 99 3 12.0004 3

6.4123

114 3 115 3 116 1 117 3 118 3 119 3 120 3 121 3 122 3 123 2 124 2 125 1 126 1 127 2 128 2 129 3 130 3 131 2 132 2 133 2 134 3 135 1 136 1 137 1 138 3 139 1 140 1 141 3 142 3 143 3 144 1 145 1 146 1 147 3 148 2 149 2 150 1

10.8306 7.01 5.5392 6.4782 7.8205 4.905 6.4874 19.7812 4.742 3.9891 3.4542 8.0859 2.0175 10.8713 8.1434 4.5325 10.1398 11.4353 8.8601 2.3153 7.6553 2.8488 5.6299 13.7703 10.4972 9.6369 4.4513 8.9109 8.2703 10.7354 5.0384 4.0727 2.4519 13.5788 9.338 9.3138 4.7299

100

65 25 46 15

67 31 56 24

63 28 51 15

46 34 14 3

69 31 51 23

62 22 45 15

59 32 18 18

46 36 10 2

61 30 46 14

60 27 51 16

65 30 52 20

56 25 39 11

65 30 55 18

58 27 51 19

68 32 59 23

51 33 17 5

57 28 45 13

62 34 54 23

77 38 67 22

63 33 47 16

67 33 57 25

76 30 66 21

49 25 45 17

55 35 13 2

67 30 52 23

70 32 47 14

64 32 45 15

61 28 40 13

48 31 16 2

59 30 51 18

55 24 38 11

63 25 50 19

64 32 53 23

52 34 14 2

49 36 14 1

54 30 45 15

79 38 64 20

44 32 13 2

67 33 57 21

50 35 16 6

58 26 40 12

44 30 13 2

77 28 67 20

47 32 16 2

55 26 44 12

50 23 33 10

72 32 60 18

48 30 14 3

51 38 16 2

61 30 49 18

48 34 19 2

50 30 16 2

50 32 12 2

61 26 56 14

64 28 56 21

43 30 11 1

58 40 12 2

51 38 19 4

67 31 44 14

62 28 48 18

49 30 14 2

51 35 14 2

56 30 45 15

58 27 41 10

50 34 16 4

46 32 14 2

60 29 45 15

57 26 35 10

57 44 15 4

50 36 14 2

77 30 61 23

63 34 56 24

58 27 51 19

57 19 42 13

72 30 58 16

54 34 15 4

52 42 15 1

71 30 59 21

64 31 55 18

60 30 48 18

63 29 56 18

49 24 33 10

56 27 42 13

57 30 42 12

55 42 14 2

49 31 15 2

60 22 50 15

54 39 17 4

66 29 46 13

52 27 39 14

60 34 45 16

50 34 15 2

44 19 14 2

50 20 35 10

55 24 37 10

58 27 39 12

47 32 13 2

46 31 15 2

69 32 57 23

52 29 43 13

74 28 61 19

59 30 42 15

51 34 15 2

50 35 13 3

56 28 49 20

60 22 40 10

73 20 63 18

67 25 58 18

49 31 15 1

67 31 47 15

63 23 44 13

54 37 15 2

56 30 41 13

63 25 49 14

61 28 47 12

64 29 43 13

51 25 30 10

57 28 41 13

65 30 58 22

69 31 54 21

54 39 13 4

51 35 14 3

72 36 61 25

65 32 51 20

61 29 47 14

56 29 36 13

69 31 49 15

64 27 53 19

68 30 55 21

48 34 16 2

48 30 14 1

45 23 13 3

57 25 50 20

57 38 17 3

51 38 15 3

55 23 40 13

66 30 44 14

68 28 48 14

54 34 17 2

51 37 15 4

52 35 15 2

58 28 51 24

67 30 50 17

63 33 60 25

53 37 15 2 ;

proc cluster data=pjsr method=single OUTTREE=tree nonorm;

run ;

proc fastclus data=pjsr out=a1 maxc=3 cluster=c distance list;

data b1 b2 b3; set a1;

if c=1 then output b1;

if c=2 then output b2;

if c=3 then output b3;

proc print data=b1;

proc print data=b2;

proc print data=b3;

run ;

程序2:

data pjsr; input x1-x4; cards;

50 33 14 2

64 28 56 22

65 25 46 15

67 31 56 24

63 28 51 15

46 34 14 3

69 31 51 23

59 32 18 18

46 36 10 2

61 30 46 14

60 27 51 16

65 30 52 20

56 25 39 11

65 30 55 18

58 27 51 19

68 32 59 23

51 33 17 5

57 28 45 13

62 34 54 23

77 38 67 22

63 33 47 16

67 33 57 25

76 30 66 21

49 25 45 17

55 35 13 2

67 30 52 23

70 32 47 14

64 32 45 15

61 28 40 13

48 31 16 2

59 30 51 18

55 24 38 11

63 25 50 19

64 32 53 23

52 34 14 2

49 36 14 1

54 30 45 15

79 38 64 20

44 32 13 2

67 33 57 21

50 35 16 6

58 26 40 12

44 30 13 2

77 28 67 20

63 27 49 18

47 32 16 2

55 26 44 12

50 23 33 10

72 32 60 18

48 30 14 3

61 30 49 18

48 34 19 2

50 30 16 2

50 32 12 2

61 26 56 14

64 28 56 21

43 30 11 1

58 40 12 2

51 38 19 4

67 31 44 14

62 28 48 18

49 30 14 2

51 35 14 2

56 30 45 15

58 27 41 10

50 34 16 4

46 32 14 2

60 29 45 15

57 26 35 10

57 44 15 4

50 36 14 2

77 30 61 23

63 34 56 24

58 27 51 19

57 19 42 13

72 30 58 16

54 34 15 4

52 42 15 1

71 30 59 21

64 31 55 18

60 30 48 18

63 29 56 18

49 24 33 10

56 27 42 13

57 30 42 12

55 42 14 2

49 31 15 2

77 26 69 23

60 22 50 15

54 39 17 4

66 29 46 13

52 27 39 14

60 34 45 16

44 19 14 2

50 20 35 10

55 24 37 10

58 27 39 12

47 32 13 2

46 31 15 2

69 32 57 23

52 29 43 13

74 28 61 19

59 30 42 15

51 34 15 2

50 35 13 3

56 28 49 20

60 22 40 10

73 20 63 18

67 25 58 18

49 31 15 1

67 31 47 15

63 23 44 13

54 37 15 2

56 30 41 13

63 25 49 14

61 28 47 12

64 29 43 13

51 25 30 10

57 28 41 13

65 30 58 22

69 31 54 21

54 39 13 4

51 35 14 3

72 36 61 25

65 32 51 20

61 29 47 14

56 29 36 13

69 31 49 15

64 27 53 19

68 30 55 21

55 25 40 13

48 34 16 2

48 30 14 1

45 23 13 3

57 25 50 20

57 38 17 3

55 23 40 13

66 30 44 14

68 28 48 14

54 34 17 2

51 37 15 4

52 35 15 2

58 28 51 24

67 30 50 17

63 33 60 25

53 37 15 2 ;

proc cluster data=pjsr method=single OUTTREE=tree nonorm;

run ;

proc fastclus least=1 data=pjsr out=a1 maxc=3 cluster=c distance list;

data b1 b2 b3; set a1;

if c=1 then output b1;

if c=2 then output b2;

if c=3 then output b3;

proc print data=b1;

proc print data=b2;

proc print data=b3;

run ;

程序3:

data pjsr; input x1-x4; cards;

50 33 14 2

64 28 56 22

65 25 46 15

67 31 56 24

63 28 51 15

46 34 14 3

69 31 51 23

62 22 45 15

59 32 18 18

46 36 10 2

61 30 46 14

60 27 51 16

65 30 52 20

56 25 39 11

58 27 51 19 68 32 59 23 51 33 17 5 57 28 45 13 62 34 54 23 77 38 67 22 63 33 47 16 67 33 57 25 76 30 66 21 49 25 45 17 55 35 13 2 67 30 52 23 70 32 47 14 64 32 45 15 61 28 40 13 48 31 16 2 59 30 51 18 55 24 38 11 63 25 50 19 64 32 53 23 52 34 14 2 49 36 14 1 54 30 45 15 79 38 64 20 44 32 13 2 67 33 57 21 50 35 16 6 58 26 40 12 44 30 13 2 77 28 67 20 63 27 49 18 47 32 16 2 55 26 44 12 50 23 33 10 72 32 60 18 48 30 14 3 51 38 16 2 61 30 49 18 48 34 19 2 50 30 16 2 50 32 12 2 61 26 56 14 64 28 56 21

58 40 12 2 51 38 19 4 67 31 44 14 62 28 48 18 49 30 14 2 51 35 14 2 56 30 45 15 58 27 41 10 50 34 16 4 46 32 14 2 60 29 45 15 57 26 35 10 57 44 15 4 50 36 14 2 77 30 61 23 63 34 56 24 58 27 51 19 57 19 42 13 72 30 58 16 54 34 15 4 52 42 15 1 71 30 59 21 64 31 55 18 60 30 48 18 63 29 56 18 49 24 33 10 56 27 42 13 57 30 42 12 55 42 14 2 49 31 15 2 77 26 69 23 60 22 50 15 54 39 17 4 66 29 46 13 52 27 39 14 60 34 45 16 50 34 15 2 44 19 14 2 50 20 35 10 55 24 37 10 58 27 39 12 47 32 13 2 46 31 15 2

52 29 43 13

74 28 61 19

59 30 42 15

51 34 15 2

50 35 13 3

56 28 49 20

60 22 40 10

73 20 63 18

67 25 58 18

49 31 15 1

67 31 47 15

63 23 44 13

54 37 15 2

56 30 41 13

63 25 49 14

61 28 47 12

64 29 43 13

51 25 30 10

57 28 41 13

65 30 58 22

69 31 54 21

54 39 13 4

51 35 14 3

72 36 61 25

65 32 51 20

61 29 47 14

56 29 36 13

69 31 49 15

64 27 53 19

68 30 55 21

55 25 40 13

48 34 16 2

48 30 14 1

45 23 13 3

57 25 50 20

57 38 17 3

51 38 15 3

55 23 40 13

66 30 44 14

68 28 48 14

54 34 17 2

51 37 15 4

52 35 15 2

67 30 50 17

63 33 60 25

53 37 15 2 ;

proc cluster data=pjsr method=single OUTTREE=tree nonorm;

run ;

proc fastclus least=1.5 data=pjsr out=a1 maxc=3 cluster=c distance list;

data b1 b2 b3; set a1;

if c=1 then output b1;

if c=2 then output b2;

if c=3 then output b3;

proc print data=b1;

proc print data=b2;

proc print data=b3;

run ;


相关文章

  • 植物保护研究方法
  • 植物保护研究方法 实时荧光定量PCR 技术及其在昆虫学研究中的应用 专业:植物病理学 姓名:齐朝妹 学号: 2015050163 实时荧光定量PCR 技术及其在昆虫学研究中的应用 实时荧光定量PCR( real-time fluoresce ...查看


  • DNA条形编码技术在昆虫学中的应用
  • DNA 条形编码技术在昆虫学中的应用 摘要:DNA 条形编码技术是分子生物学领域出现的一项新技术,其本质是一段含有生物信息的DNA 片段,通过对这段基因片段的分析来实现对生物物种准确且快速的鉴定.本文主要针对DNA 条形编码技术的产生.发展 ...查看


  • 河流生态修复技术分析
  • 摘 要:随着城市化进程的不断加快,河流对促进城市发展及改善人们生活环境具有非常重要的作用.但是随着过度的开发及大量的污染物排入河流中,导致河流的水体受到严重的污染.对我国渔业.农业及流域居民的健康带来巨大的影响,严重限制我国社会经济的快速发 ...查看


  • 数学形态学在海洋浮游植物显微图像处理中的应用
  • 第47卷 增刊22008年12月 厦门大学学报(自然科学版) Journal of X ia m en Un iversity (N atural S cience) V o. l 47 Sup . 2D ec . 2008 数学形态学在海 ...查看


  • 高通量测序技术在林木育种中的应用
  • 摘要林木不仅是重要的可再生资源,为人类提供了衣食住行等最基本的原材料,也是陆地生态系统最重要的组成部分.传统育种方法已在很大程度上促进了林木育种学的发展,但难以满足人类对林木资源需求.新一代的高通量测序技术为这个传统学科带来了技术和方法的革 ...查看


  • 结构功能模型
  • 第 卷第 期 年 月 林 ≥≤ ∞ × 业科 ≥ ∂ ∞ 学 ≥ ≤ ∞ ∂ 1 1 √ 虚拟树木生长建模及可视化研究综述 雷相东 常 敏 陆元昌 赵天忠 1中国林业科学研究院资源信息研究所 北京 1北京林业大学信息学院 北京 摘 要 虚拟 ...查看


  • 单核苷酸多态性检测方法研究概述及其应用
  • 玉米科学2009,17(3):142-145文章编号:1005-0906(2009)03-0142-04 JournalofMaizeSciences 单核苷酸多态性检测方法研究概述及其应用 李 摘 琳1,杨德光1,胡正2,王永力1 (1. ...查看


  • 乳酸菌分类鉴定方法的研究进展
  • 专论与综述 中 国 酿 造 2009年第6期总第207期 1 乳酸菌分类鉴定方法的研究进展 庞会利,谈重芳,蔡义民,秦广雍 1 1 2 1* (1 郑州大学离子束生物工程省重点实验室,河南郑州450052;2 日本国立畜产草地研究所,日本枥 ...查看


  • 植物病原细菌检测和细菌病害诊断方法
  • 第7卷第3-4期 2009年11月菌 物 研 究 Journal of Fungal Research Vol 17No 13-4 Nov. 2009 植物病原细菌检测和细菌病害诊断方法 刘学敏 1* , 孟玉芹 2 (1. 东北农业大学农 ...查看


热门内容