动态聚类法的粗糙集规则提取

30542010,31(13)

计算机工程与设计Computer Engineering and and Design 计算机工程与设计Computer Engineering Design

动态聚类法的粗糙集规则提取

宋云雪1,2,于宏超1,史永胜1

(1. 中国民航大学航空工程学院,天津300300;2. 中国民航大学科技处,天津300300)

要:针对航空发动机的故障样本,提出了一种基于动态聚类的粗糙集规则提取算法。给出了该算法的模型,描述了动态聚类方法和广义欧氏距离,举例说明了这种算法,用神经网络对样本进行训练并验证约简是否正确。结果表明,动态聚类法可以改善分类,使最终的核与约简更精准,去除了干扰信息的影响,在保证诊断精度的同时。提高了故障识别的正确率。关键词:动态聚类法; 广义重要度; 广义欧氏距离; 粗糙集; 属性约简中图法分类号:TP391

文献标识码:A

文章编号:1000-7024(2010) 13-3054-03

Rough set rule extraction algorithm of dynamic clustering method

SONG Yun-xue 1,2,

YU Hong-chao 1,

SHI Yong-sheng 1

(1. College of Aeronautical Engineering, Civil Aviation University of China, Tianjin 300300, China;

2. Science and Technology Agency, Civil Aviation University of China, Tianjin 300300, China )

Abstract :Considering the fault samples of aero-engine, the rule extraction algorithm of rough set based on dynamic clustering method is proposed. Firstly the model of the algorithm is obtained, where the dynamic clustering method and general Euclidean distance are de-fined, and then a given example illustrates this extraction algorithm, at last a Neural-network is used to train the fault samples, and validates whether the reduction is correct. The result we get shows that the dynamic clustering method can improve the classification, and the ultimate nuclear and reduction are more accurate. With removing the impact of interference information, the proposed method improves the accuracy of fault identification as well as ensuring the precision of diagnosis.

Key words :dynamic clustering method; general important degree; general Euclidean distance; rough set; attribute reduction

0引言

广义重要度考虑每个属性的特征特点的同时,也考虑到了它对分类决策的影响,使分类具有更好的相似性,从而具有更高的准确率[1-2]。

本文先用动态聚类法获得属性分类,然后用变精度粗糙集进行规则提取,最后用实例来说明验证算法。

目前常用的聚类方法分为无监督聚类和有监督聚类。神经网络方法中的聚类中心就是采用无监督方法求得的,其收敛速度快分类能力好。与有监督聚类相比,无监督聚类存在着更大的不确定性。这是因为在无监督问题中没有了已知的样本集,甚至可能不知道样本的类别数,可以利用的信息量大大减少。为了解决这种不确定性,专家们利用了很多其他理论进行辅助,例如模糊集理论、粗糙集理论。加入的这些方法使分类有了很多改进之处,但也有不足,例如模糊K-means 方法对聚类中心的初值十分敏感,而粗糙K-means 方法中有过多的参数要选择,降低了应用的方便性。

动态聚类法可以消除有监督聚类和无监督聚类方法中分类的不确定性,从而改善分类质量,它对聚类中心的初值不敏感,增加了其应用的方便性。本文中动态聚类算法中涉及到的距离计算全部采用广义欧氏距离,广义欧氏距离是一种空间的广义重要度距离,其中涉及到属性广义重要度的概念。

1

1.1

理论基础

属性的广义重要度和空间的属性广义重要度欧氏距离[3]

针对所有决策属性,定义一种广义属性重要度。定义1

给定决策系统S ={U ,C ∪{D },V },U /d ={

=

2

1

2

,

,

=

——从个数中取2的组合,

,表示

——

表示属

收稿日期:2009-08-27;修订日期:2010-01-11。

基金项目:国家自然科学基金委员会与中国民用航空局联合项目(60879017) ;天津市自然科学基金项目(08JCYBJC11600) 。

作者简介:宋云雪(1968-) ,女,硕士,高级工程师,硕士生导师,研究方向为结构智能化设计、故障诊断与结构修理;于宏超(1984-) ,女,硕士研究生,研究方向为故障诊断、状态监控;史永胜(1965-) ,男,博士后,教授,硕士生导师,研究方向为结构智能化设计、故障诊断与结构修理、专家系统、知识表示。E-mail :[email protected]

宋云雪,于宏超,史永胜:动态聚类法的粗糙集规则提取

2010,31(13) 3055

1

, ¸ö·½Ïò£¬Ô

ò

µÄÊôÐÔ¹ãÒåÖØÒª¶ÈÅ·ÊϾàÀëΪ

)

——在各个方向上的分量。

1.2动态聚类算法描述

聚类实际就是想找到一种最优分类。迭代法的基础思想

是:先找一个初始划分,然后通过不断调整聚类中心进行重新聚类,直到满足要求为止。迭代最优化过程是从不合理的划分到划分,是一个动态的迭代过程,因此也称为动态聚类法。

初始聚类中心的选择往往会影响迭代结果,所以本文在选择初始划分时,把全部样本看作一类,然后用均值法找其类心,用广义重要度欧式距离衡量所有样本与类心的距离。动态聚类法允许模式样本从一个聚合类转移到另一个聚合类,使初始的不准确的划分逐步得到改进。

动态聚类方法,算法简单,计算存储量小,算法中的距离计算采用广义欧氏距离,可以在一定程度上消除样本分类的不确定性,改善分类质量。下面介绍该算法的计算步骤:

1

,

=

1

*,

2

, ,

¡ª¡ªÊä³öÖµ£¬¸ÃÖµÏÔʾ·¢¶¯»ú״̬£»

1

——低压转子转速;

——尾喷口

指示值;——发动机机匣振动值。数据样

本中2组正常数据和7组故障数据,采用归一化方法对数据进行标准化,处理后的数据表如表1

所示。

,计算所有样本与样本中心的距离,距离中心

1

1

最远的样本点暂定为新的聚类中心,按最小距离原则把样本分成两类,

然后计算样本重新聚类后的类心

个类心。根据最小距离原则重新聚类迭代类心

后的样本,

并计算此时所有样本点与聚类中心的距离平方和

1

3

5

7

8

},

1

3

,5

,7

}、{9

}

N

1

“最佳”

3056

{

1

2010,31(13)

4

计算机工程与设计Computer Engineering and Design

9

7

4

7

}、{

}、{

},

91

5

}、{,},

5

,}、{

4

7

}、{

91

}

。采用变精度粗糙集约简算法对样本进行约简,论域,=

{

3

,=

5

7

9

},

条件属性

£¬

=

=

{

,,,=

==

{

={

=

2

}

=

{=0.7,

在计算

*0.7

1中所有项对应的样本区间所

={

占的比例值,经计算,

所有比例值的均值为}∨{

},因此得到两个约简{

£¬

核为{,},

}。

2111

3333

, , ,

5555

, , ,

, ,

,

1,

1

, 3,

3

, 5,

5

, , ,

2.3算法的对比验证

用传统粗糙集方法处理表1的数据[6],先采用模糊集聚类,

£¬

之后也采用单纯的粗糙集约简算法[7-9],得到的约简为{,,

,,

,{

,},

£¬

(上接第3002页) [2]

Phil Kerly.Cache blocking technique on hyper-threading tech-nology enabled processors [EB/OL]. http://software.intel.com/en-us/articles/cache-blocking-technique-on-hyper-threading-technology-enabled-processors,2007. [3]

David A Bader,Varun Kanade,Kamesh Madduri.SWARM:A parallel programming framework for multicore processors [C ]. Parallel and Distributed Processing Symposium, 2007:1-8. [4]

Cerin Christophe, Michel Koskas.Work stealing technique and scheduling on the critical path [C ].The 3rd International Confe-rence on Grid and Pervasive Computing,2008. [5]

Guy E Belloch, Phillip B Gibbons.Effectively sharing a cache

[9][8][7][6]

among threads [C ].Proceedings of the 16th ACM Symposium on Parallelism in Algorithms and Architectures,2004.

Christophe Cerin,Michel Koskas.Work stealing technique and scheduling on the critical path [C ].The 3rd International Confe-rence on Grid and Pervasive Computing,2008:227-232.Acar U A,Blelloch G E,Blumofe R D.The data locality of work stealing [C ].Theory of Computing Systems,2002:321-347.Frigo M, Strumpen V . The cache complexity of multithreaded cache oblivious algorithms [C ].ACM Symposium on Parallelism in Algorithms and Architectures,2006:271-280.

Intel Corporation. IntelVTune TM performance analyzer [EB/OL ].http://software.intel.com/en-us/intel-vtune.

30542010,31(13)

计算机工程与设计Computer Engineering and and Design 计算机工程与设计Computer Engineering Design

动态聚类法的粗糙集规则提取

宋云雪1,2,于宏超1,史永胜1

(1. 中国民航大学航空工程学院,天津300300;2. 中国民航大学科技处,天津300300)

要:针对航空发动机的故障样本,提出了一种基于动态聚类的粗糙集规则提取算法。给出了该算法的模型,描述了动态聚类方法和广义欧氏距离,举例说明了这种算法,用神经网络对样本进行训练并验证约简是否正确。结果表明,动态聚类法可以改善分类,使最终的核与约简更精准,去除了干扰信息的影响,在保证诊断精度的同时。提高了故障识别的正确率。关键词:动态聚类法; 广义重要度; 广义欧氏距离; 粗糙集; 属性约简中图法分类号:TP391

文献标识码:A

文章编号:1000-7024(2010) 13-3054-03

Rough set rule extraction algorithm of dynamic clustering method

SONG Yun-xue 1,2,

YU Hong-chao 1,

SHI Yong-sheng 1

(1. College of Aeronautical Engineering, Civil Aviation University of China, Tianjin 300300, China;

2. Science and Technology Agency, Civil Aviation University of China, Tianjin 300300, China )

Abstract :Considering the fault samples of aero-engine, the rule extraction algorithm of rough set based on dynamic clustering method is proposed. Firstly the model of the algorithm is obtained, where the dynamic clustering method and general Euclidean distance are de-fined, and then a given example illustrates this extraction algorithm, at last a Neural-network is used to train the fault samples, and validates whether the reduction is correct. The result we get shows that the dynamic clustering method can improve the classification, and the ultimate nuclear and reduction are more accurate. With removing the impact of interference information, the proposed method improves the accuracy of fault identification as well as ensuring the precision of diagnosis.

Key words :dynamic clustering method; general important degree; general Euclidean distance; rough set; attribute reduction

0引言

广义重要度考虑每个属性的特征特点的同时,也考虑到了它对分类决策的影响,使分类具有更好的相似性,从而具有更高的准确率[1-2]。

本文先用动态聚类法获得属性分类,然后用变精度粗糙集进行规则提取,最后用实例来说明验证算法。

目前常用的聚类方法分为无监督聚类和有监督聚类。神经网络方法中的聚类中心就是采用无监督方法求得的,其收敛速度快分类能力好。与有监督聚类相比,无监督聚类存在着更大的不确定性。这是因为在无监督问题中没有了已知的样本集,甚至可能不知道样本的类别数,可以利用的信息量大大减少。为了解决这种不确定性,专家们利用了很多其他理论进行辅助,例如模糊集理论、粗糙集理论。加入的这些方法使分类有了很多改进之处,但也有不足,例如模糊K-means 方法对聚类中心的初值十分敏感,而粗糙K-means 方法中有过多的参数要选择,降低了应用的方便性。

动态聚类法可以消除有监督聚类和无监督聚类方法中分类的不确定性,从而改善分类质量,它对聚类中心的初值不敏感,增加了其应用的方便性。本文中动态聚类算法中涉及到的距离计算全部采用广义欧氏距离,广义欧氏距离是一种空间的广义重要度距离,其中涉及到属性广义重要度的概念。

1

1.1

理论基础

属性的广义重要度和空间的属性广义重要度欧氏距离[3]

针对所有决策属性,定义一种广义属性重要度。定义1

给定决策系统S ={U ,C ∪{D },V },U /d ={

=

2

1

2

,

,

=

——从个数中取2的组合,

,表示

——

表示属

收稿日期:2009-08-27;修订日期:2010-01-11。

基金项目:国家自然科学基金委员会与中国民用航空局联合项目(60879017) ;天津市自然科学基金项目(08JCYBJC11600) 。

作者简介:宋云雪(1968-) ,女,硕士,高级工程师,硕士生导师,研究方向为结构智能化设计、故障诊断与结构修理;于宏超(1984-) ,女,硕士研究生,研究方向为故障诊断、状态监控;史永胜(1965-) ,男,博士后,教授,硕士生导师,研究方向为结构智能化设计、故障诊断与结构修理、专家系统、知识表示。E-mail :[email protected]

宋云雪,于宏超,史永胜:动态聚类法的粗糙集规则提取

2010,31(13) 3055

1

, ¸ö·½Ïò£¬Ô

ò

µÄÊôÐÔ¹ãÒåÖØÒª¶ÈÅ·ÊϾàÀëΪ

)

——在各个方向上的分量。

1.2动态聚类算法描述

聚类实际就是想找到一种最优分类。迭代法的基础思想

是:先找一个初始划分,然后通过不断调整聚类中心进行重新聚类,直到满足要求为止。迭代最优化过程是从不合理的划分到划分,是一个动态的迭代过程,因此也称为动态聚类法。

初始聚类中心的选择往往会影响迭代结果,所以本文在选择初始划分时,把全部样本看作一类,然后用均值法找其类心,用广义重要度欧式距离衡量所有样本与类心的距离。动态聚类法允许模式样本从一个聚合类转移到另一个聚合类,使初始的不准确的划分逐步得到改进。

动态聚类方法,算法简单,计算存储量小,算法中的距离计算采用广义欧氏距离,可以在一定程度上消除样本分类的不确定性,改善分类质量。下面介绍该算法的计算步骤:

1

,

=

1

*,

2

, ,

¡ª¡ªÊä³öÖµ£¬¸ÃÖµÏÔʾ·¢¶¯»ú״̬£»

1

——低压转子转速;

——尾喷口

指示值;——发动机机匣振动值。数据样

本中2组正常数据和7组故障数据,采用归一化方法对数据进行标准化,处理后的数据表如表1

所示。

,计算所有样本与样本中心的距离,距离中心

1

1

最远的样本点暂定为新的聚类中心,按最小距离原则把样本分成两类,

然后计算样本重新聚类后的类心

个类心。根据最小距离原则重新聚类迭代类心

后的样本,

并计算此时所有样本点与聚类中心的距离平方和

1

3

5

7

8

},

1

3

,5

,7

}、{9

}

N

1

“最佳”

3056

{

1

2010,31(13)

4

计算机工程与设计Computer Engineering and Design

9

7

4

7

}、{

}、{

},

91

5

}、{,},

5

,}、{

4

7

}、{

91

}

。采用变精度粗糙集约简算法对样本进行约简,论域,=

{

3

,=

5

7

9

},

条件属性

£¬

=

=

{

,,,=

==

{

={

=

2

}

=

{=0.7,

在计算

*0.7

1中所有项对应的样本区间所

={

占的比例值,经计算,

所有比例值的均值为}∨{

},因此得到两个约简{

£¬

核为{,},

}。

2111

3333

, , ,

5555

, , ,

, ,

,

1,

1

, 3,

3

, 5,

5

, , ,

2.3算法的对比验证

用传统粗糙集方法处理表1的数据[6],先采用模糊集聚类,

£¬

之后也采用单纯的粗糙集约简算法[7-9],得到的约简为{,,

,,

,{

,},

£¬

(上接第3002页) [2]

Phil Kerly.Cache blocking technique on hyper-threading tech-nology enabled processors [EB/OL]. http://software.intel.com/en-us/articles/cache-blocking-technique-on-hyper-threading-technology-enabled-processors,2007. [3]

David A Bader,Varun Kanade,Kamesh Madduri.SWARM:A parallel programming framework for multicore processors [C ]. Parallel and Distributed Processing Symposium, 2007:1-8. [4]

Cerin Christophe, Michel Koskas.Work stealing technique and scheduling on the critical path [C ].The 3rd International Confe-rence on Grid and Pervasive Computing,2008. [5]

Guy E Belloch, Phillip B Gibbons.Effectively sharing a cache

[9][8][7][6]

among threads [C ].Proceedings of the 16th ACM Symposium on Parallelism in Algorithms and Architectures,2004.

Christophe Cerin,Michel Koskas.Work stealing technique and scheduling on the critical path [C ].The 3rd International Confe-rence on Grid and Pervasive Computing,2008:227-232.Acar U A,Blelloch G E,Blumofe R D.The data locality of work stealing [C ].Theory of Computing Systems,2002:321-347.Frigo M, Strumpen V . The cache complexity of multithreaded cache oblivious algorithms [C ].ACM Symposium on Parallelism in Algorithms and Architectures,2006:271-280.

Intel Corporation. IntelVTune TM performance analyzer [EB/OL ].http://software.intel.com/en-us/intel-vtune.


相关文章

  • 常用的几种遥感图像特征提取技术分析
  • 2009年第1期(总第112期) Chinesehi-techenterprises 中国高新技术企业 NO.1.2009 (CumulativetyNO.112) 常用的几种遥感图像特征提取技术分析 杨利民1,胡龙华2,罗铁良2,贾云生2 ...查看


  • 遥感影像的解译-分类
  • (赵春霞.钱乐祥)监督分类是需要学习训练的分类方法,如最大似然分类,人工神经网络分类,即是需要事先为每类地物在遥感图像上采集样本数据,之后通过学习训练过程才来分类;非监督分类不需要人工采集地物样本点数据,多是通过聚类的方法来自动分类,主要有 ...查看


  • 粗糙集理论及其应用进展
  • 清华大学学报(自然科学版) 2001年第41卷第1期 CN 1122223 N . 41, N o . 1J T singhua U niv (Sci &Tech ) , 2001, V o l 17 32 6468 粗糙集理论及其 ...查看


  • 数据挖掘在中国的现状和发展研究
  • 管 理 工 程 学 报 Vol . 18, No . 3 Journal of Industrial Engineering Engineering Management 2004年第3期 数据挖掘在中国的现状和发展研究 李菁菁, 邵培基, ...查看


  • 数据挖掘算法研究与综述
  • 第26卷第9期 V01.26 No.9 计算机工程与设计 ComputerEngineeringandDesign 2005年9月 Sept.2005 数据挖掘算法研究与综述 邹志文, 朱金伟 (江苏大学计算机学院,江苏镇江212013) ...查看


  • 土壤含水量遥感监测
  • 譬767714 分类号: UDC密级:编号: 咿幽撼毋 硕士学位论文 土壤含水量遥感监测 学位申请人:宋承运 一 导师姓名及职称 专业名称邓孺孺副教授地图学与地理信息系统 二oO五年六月七日 ◇土壤含水量遥感监测 土壤含水量遥感监测 专业: ...查看


  • 非常实用:产品几何量技术规范(全套完整版)
  • 2012年04月10日 星期二 23:43 工科必备知识非常实用:产品几何量技术规范(全套完整版本可以下载) GB 11334-1989圆锥公差 GB GB11336-1989直线度误差检测 GB-T 18779.1-2002工件与测量设备 ...查看


  • 基于结构化属性集的规则学习
  • 第30卷第8期 2010年8月 计算机应用 JournalofComputerApplications V01.30No.8 Aug.2010 文章编号:1001-9081(2010)08-2010-03 基于结构化属性集的规则学习 时百胜 ...查看


  • 感地质的特点及雷达微波遥感的应用
  • 科学技术 遥感地质的特点及雷达微波遥感的应用 田 莉 核工业北京地质研究院 北京 100029 [摘 要]微波遥感是在20世纪90年代迅速发展起来的遥感技术.本文首先介绍了遥感地质的特点,然后详细介绍了雷达微波遥感在地质方面的应用. [关键 ...查看


热门内容