学 术 论 坛
2009 NO.14
科技资讯
基于决策树算法的客户分类模型研究
金伟健
(义乌工商职业技术学院 浙江义乌 322000)
摘 要:分析了应用决策树算法对CRM 系统中客户进行分类的一般过程, 对分类的过程中的几个方面进行了优化, 给出了一个改进了的基于决策树分类算法的客户分类模型。
关键词:客户分类 决策树 数据集 匹配中图分类号:TP1文献标识码:A文章编号:1672-3791(2009)05(b)-0239-01
传统的客户分类方法一般是基于经验的分类方法或基于统计的简单划分方法, 这些方法一般根据决策者的经验或是根据客户简单的属性特征进行, 例如根据客户所购买的产品类别、客户的居住地域等对客户划分类别。虽然这些划分对企业的客户管理也是很有意义的, 但却无法满足诸如对客户的潜在价值、客户的资信程度等深入分析的需求。
数据挖掘的分类技术应用于研究CRM 中客户分类方法的现象已经非常普遍, 特别是使用决策树算法来研究客户分类方法的比较多, 但是真正非常有效地解决客户分类问题的方法还没有实现。
1 客户分类过程的总体结构
CRM 系统中的客户分类方法并不固定, 经过多年的CRM 实践, 企业家及学者对客户分类的研究, 对客户进行分类管理的一般步骤做了如下总结:首先, 确定所有的客户群, 包括现有的和潜在的客户并搜集整理客户的相关信息; 然后根据自身需求选择分类标准, 应用分类方法对所有客户进行分类; 其次, 筛选出有发展潜力的客户, 分析客户特点并制定相应的CRM 策略; 最后, 监督管理CRM 策略的实施。
研究了CRM 中客户分类的总体过程, 按照数据挖掘中分类方法基本机理, 结合决策树
分类方法进行分类的一般过程, 决策树方法应用于CRM 中客户分类管理的一般过程如下:首先产生对问题描述产生一般数据集进行训练, 然后在训练数据集上应用决策树分类算法产生分类规则, 最后应用分类规则进行分类。
2 一个改进的客户分类模型
分析CRM 中客户分类的总体过程和决策树分类的总体过程, 结合决策树方法分类的过程中几个基本步骤, 给出一个基于决策树和匹配模型的客户分类模型。此模型在应用决策树方法分类之前, 进行有效的改进了的数据预处理生成训练数据集, 经过优化产生训练数据集然后结合分类算法应用于决策树分类模型; 而从决策树提取规则之后, 经过评价规则的有效性, 生成决策规则矩阵应用于数理统计的匹配模型, 对现有的客户数据集进行分类。2.1 数据预处理
基于线性代数理论和相关性分析的数据预处理方法, 在建立决策树之前先对客户数据进行预处理, 对数据集进行面向记录压缩[1],然后再采用相关分析方法, 取得分类的关键属性, 从而实现对数据集的面向属性压缩[1]。
2. 1. 1 面向记录压缩
为获得训练决策树的训练数据集, 我们将客户数据集m+x个客户的数据记录组成矩阵C, 矩阵C 由向量组所构成, 分别代表客户记录中的一个元组。
由线性代数理论, 假设客户数据集A 是一个m+x维的向量组, 是A 中m 个向量, 如果满足向量组线性无关且A 中任意向量a 都可以用向量组线性表示, 则称为向量组A 的一个最大线性无关组[38]。向量组A 的一个最大无关组的向量个数称为向量组A 的秩。
所以只要从客户数据集A 中取得m 个记录组成向量组, 而且它是数据集A 的最大线性无关组, 则客户数据集A 中的任意一个记录a 都可以由推出。
在客户数据集A 中求出m+x个客户记录向量的秩, 设为R, 那么由线性代数的理论, 只要在R 个记录中获得分类信息, 其它记录的分类就可以由这个R 个记录的分类推出, 进而就可以对客户数据集进行分类预测。
这样只要抽取的R 个客户记录满足客户数据集的最大无关组的定, 就可以这R 个记录组成训练数据集, 以达到了减少客户分析的数量, 对训练数据集的获得的规模有一定的参考作用, 分类的效率也将提高。由抽取的R 个记录产生的分类对剩余的记录分类是有效的。
2. 1. 2 面向属性压缩
设决定客户分类函数为Y, 有客户记录属性有m 个。那么存在因变量Y 和m 个自变量构成的自变量集合, 为了研究因变量与自变量之间的统计关系, 观测n 个样本点, 由此构成n ×m 的观测矩阵。使用偏最小二乘法[2]在矩阵X 中提取成分t1(t1为的线性组合), 要求t1能很好地代表X 中的变异信息, 且与Y 的相关度最大, 这样,t1尽可能好地综合了X 的信息, 同时也对Y 有最强的解释力, 在第一个成分t1被提取后, 实施X 对t1的回归及Y 对t1的回归, 如果回归方程已达到满意精度, 则计算可以终止; 否则, 将利用X 被t1解释后的剩余信息进行第二轮成分提取, 如此反复迭代, 直到能达到一个较满意的精度为止。若最终X 共提取了k 个成分t 1, ……, t k , 通过实施Y 对t 1, ……, t k 的回归, 然后表达成Y 关于原变量的回归方程。
通过使用偏最小二乘法, 建立回归模型并在Matlab7.0中使用回归分析, 可以得到决定客户分类的K 个关键属性组, 对于M 个属性中的M-K 个属性可以进行删除, 从而面向属性地对数据集进行简约, 结合决策树构建的方法, 可以有效地介绍决策树中的节点从而降低决策树构造的复杂度, 为构建决策树进行分类奠定了良好的基础。
2.2应用分类匹配模型进行客户分类
由决策树生成的决策规则形成一个知识库, 将客户数据中的客户记录经过模式化成一定长的字符串, 即特征串, 然后将客户数据集中字符串与知识库中知识进行模型匹配。由于Forrest 提出的r 连续位的匹配规则[3]在应用与客户分类问题上是存在问题的, 所以匹配方式采用基于汉明距离的非线性匹配方式。
基于汉明距离的非线性匹配方式在进行模式匹配的问题上克服了这个问题, 它从整体上把握匹配原则, 在进行模式匹配的时候设定一定的阈值, 比如说对于r 位连续的字符串其中r-1位匹配则已经满足阈值。
将决策树生成的分类规则模型化生成规则矩阵R,Ri 表示任一行向量,rij 表示客户分类决策因子。
根据入侵检测的基本原理, 将决策树生成的分类规则模式化为特征串作为匹配模型的初始知识库。客户决策因子匹配模型启动忠诚客户知识特征串与需评判的客户因子进行匹配, 采用基于汉明距离的入侵检测模型, 使用基于汉明距离的数理统计匹配算法。
结合基于汉明距离进行匹配选择的模型, 对客户数据集进行分类, 应用此分类匹配模型来进行数据分类的模型。
3 改进的客户分类模型的分析及结论
改进的客户分类模型通过分析应用决策树方法进行客户分类的一般过程, 从数据预处理和应用规则进行数据集分类的几个方面对客户分类方法进行了组合优化。在数据预处理阶段采用线性代数的相关理论对产生优化的数据集的方法进行了研究, 得出了一组优化数据集的方法; 在应用规则对数据进行分类的阶段, 给出了一种应用基于入侵检测的匹配模型来进行数据分类的方法, 该方法具有自适应与智能性的特点。整个改进的客户分类模型从一定的程度上有效地简化了分类方法和提高的分类效率, 并且有一定的智能性。
参考文献
[1] 刘小虎, 李生. 决策树的优化算法[J].软件
学报,1998,9(10):797~800.
[2]王惠文. 偏最小二乘回归方法及其应用[M].
北京:国防工业出版社, 1999.
科技资讯 SCIENCE & TECHNOLOGY INFORMATION
239
学 术 论 坛
2009 NO.14
科技资讯
基于决策树算法的客户分类模型研究
金伟健
(义乌工商职业技术学院 浙江义乌 322000)
摘 要:分析了应用决策树算法对CRM 系统中客户进行分类的一般过程, 对分类的过程中的几个方面进行了优化, 给出了一个改进了的基于决策树分类算法的客户分类模型。
关键词:客户分类 决策树 数据集 匹配中图分类号:TP1文献标识码:A文章编号:1672-3791(2009)05(b)-0239-01
传统的客户分类方法一般是基于经验的分类方法或基于统计的简单划分方法, 这些方法一般根据决策者的经验或是根据客户简单的属性特征进行, 例如根据客户所购买的产品类别、客户的居住地域等对客户划分类别。虽然这些划分对企业的客户管理也是很有意义的, 但却无法满足诸如对客户的潜在价值、客户的资信程度等深入分析的需求。
数据挖掘的分类技术应用于研究CRM 中客户分类方法的现象已经非常普遍, 特别是使用决策树算法来研究客户分类方法的比较多, 但是真正非常有效地解决客户分类问题的方法还没有实现。
1 客户分类过程的总体结构
CRM 系统中的客户分类方法并不固定, 经过多年的CRM 实践, 企业家及学者对客户分类的研究, 对客户进行分类管理的一般步骤做了如下总结:首先, 确定所有的客户群, 包括现有的和潜在的客户并搜集整理客户的相关信息; 然后根据自身需求选择分类标准, 应用分类方法对所有客户进行分类; 其次, 筛选出有发展潜力的客户, 分析客户特点并制定相应的CRM 策略; 最后, 监督管理CRM 策略的实施。
研究了CRM 中客户分类的总体过程, 按照数据挖掘中分类方法基本机理, 结合决策树
分类方法进行分类的一般过程, 决策树方法应用于CRM 中客户分类管理的一般过程如下:首先产生对问题描述产生一般数据集进行训练, 然后在训练数据集上应用决策树分类算法产生分类规则, 最后应用分类规则进行分类。
2 一个改进的客户分类模型
分析CRM 中客户分类的总体过程和决策树分类的总体过程, 结合决策树方法分类的过程中几个基本步骤, 给出一个基于决策树和匹配模型的客户分类模型。此模型在应用决策树方法分类之前, 进行有效的改进了的数据预处理生成训练数据集, 经过优化产生训练数据集然后结合分类算法应用于决策树分类模型; 而从决策树提取规则之后, 经过评价规则的有效性, 生成决策规则矩阵应用于数理统计的匹配模型, 对现有的客户数据集进行分类。2.1 数据预处理
基于线性代数理论和相关性分析的数据预处理方法, 在建立决策树之前先对客户数据进行预处理, 对数据集进行面向记录压缩[1],然后再采用相关分析方法, 取得分类的关键属性, 从而实现对数据集的面向属性压缩[1]。
2. 1. 1 面向记录压缩
为获得训练决策树的训练数据集, 我们将客户数据集m+x个客户的数据记录组成矩阵C, 矩阵C 由向量组所构成, 分别代表客户记录中的一个元组。
由线性代数理论, 假设客户数据集A 是一个m+x维的向量组, 是A 中m 个向量, 如果满足向量组线性无关且A 中任意向量a 都可以用向量组线性表示, 则称为向量组A 的一个最大线性无关组[38]。向量组A 的一个最大无关组的向量个数称为向量组A 的秩。
所以只要从客户数据集A 中取得m 个记录组成向量组, 而且它是数据集A 的最大线性无关组, 则客户数据集A 中的任意一个记录a 都可以由推出。
在客户数据集A 中求出m+x个客户记录向量的秩, 设为R, 那么由线性代数的理论, 只要在R 个记录中获得分类信息, 其它记录的分类就可以由这个R 个记录的分类推出, 进而就可以对客户数据集进行分类预测。
这样只要抽取的R 个客户记录满足客户数据集的最大无关组的定, 就可以这R 个记录组成训练数据集, 以达到了减少客户分析的数量, 对训练数据集的获得的规模有一定的参考作用, 分类的效率也将提高。由抽取的R 个记录产生的分类对剩余的记录分类是有效的。
2. 1. 2 面向属性压缩
设决定客户分类函数为Y, 有客户记录属性有m 个。那么存在因变量Y 和m 个自变量构成的自变量集合, 为了研究因变量与自变量之间的统计关系, 观测n 个样本点, 由此构成n ×m 的观测矩阵。使用偏最小二乘法[2]在矩阵X 中提取成分t1(t1为的线性组合), 要求t1能很好地代表X 中的变异信息, 且与Y 的相关度最大, 这样,t1尽可能好地综合了X 的信息, 同时也对Y 有最强的解释力, 在第一个成分t1被提取后, 实施X 对t1的回归及Y 对t1的回归, 如果回归方程已达到满意精度, 则计算可以终止; 否则, 将利用X 被t1解释后的剩余信息进行第二轮成分提取, 如此反复迭代, 直到能达到一个较满意的精度为止。若最终X 共提取了k 个成分t 1, ……, t k , 通过实施Y 对t 1, ……, t k 的回归, 然后表达成Y 关于原变量的回归方程。
通过使用偏最小二乘法, 建立回归模型并在Matlab7.0中使用回归分析, 可以得到决定客户分类的K 个关键属性组, 对于M 个属性中的M-K 个属性可以进行删除, 从而面向属性地对数据集进行简约, 结合决策树构建的方法, 可以有效地介绍决策树中的节点从而降低决策树构造的复杂度, 为构建决策树进行分类奠定了良好的基础。
2.2应用分类匹配模型进行客户分类
由决策树生成的决策规则形成一个知识库, 将客户数据中的客户记录经过模式化成一定长的字符串, 即特征串, 然后将客户数据集中字符串与知识库中知识进行模型匹配。由于Forrest 提出的r 连续位的匹配规则[3]在应用与客户分类问题上是存在问题的, 所以匹配方式采用基于汉明距离的非线性匹配方式。
基于汉明距离的非线性匹配方式在进行模式匹配的问题上克服了这个问题, 它从整体上把握匹配原则, 在进行模式匹配的时候设定一定的阈值, 比如说对于r 位连续的字符串其中r-1位匹配则已经满足阈值。
将决策树生成的分类规则模型化生成规则矩阵R,Ri 表示任一行向量,rij 表示客户分类决策因子。
根据入侵检测的基本原理, 将决策树生成的分类规则模式化为特征串作为匹配模型的初始知识库。客户决策因子匹配模型启动忠诚客户知识特征串与需评判的客户因子进行匹配, 采用基于汉明距离的入侵检测模型, 使用基于汉明距离的数理统计匹配算法。
结合基于汉明距离进行匹配选择的模型, 对客户数据集进行分类, 应用此分类匹配模型来进行数据分类的模型。
3 改进的客户分类模型的分析及结论
改进的客户分类模型通过分析应用决策树方法进行客户分类的一般过程, 从数据预处理和应用规则进行数据集分类的几个方面对客户分类方法进行了组合优化。在数据预处理阶段采用线性代数的相关理论对产生优化的数据集的方法进行了研究, 得出了一组优化数据集的方法; 在应用规则对数据进行分类的阶段, 给出了一种应用基于入侵检测的匹配模型来进行数据分类的方法, 该方法具有自适应与智能性的特点。整个改进的客户分类模型从一定的程度上有效地简化了分类方法和提高的分类效率, 并且有一定的智能性。
参考文献
[1] 刘小虎, 李生. 决策树的优化算法[J].软件
学报,1998,9(10):797~800.
[2]王惠文. 偏最小二乘回归方法及其应用[M].
北京:国防工业出版社, 1999.
科技资讯 SCIENCE & TECHNOLOGY INFORMATION
239