谁是最好的客户

谁是最好的客户？

使用SPSS 从营销数据库中获得更多信息

备注：这是一篇思路非常清晰的市场挖掘方面的文章，主要侧重于从统计的角度来看待数据挖掘，而不是侧重于从机器学习的角度。非常适合具有统计背景的人员迅速切入数据挖掘领域。美中不足的是没有给出具体的数据这样我们不能按图索骥地将文章中介绍的方法操作一遍。网上也流传一篇由SPSS 北京办事处翻译的pdf 版，但我觉得还是原来的英文版讲得详细点。欢迎前来交流营销和数据挖掘。

摘要

本文使用SPSS 的频数分析、描述性分析、缺失值分析、方差分析、卡方检验、交叉表、均值比较、相关分析、线性回归、决策树等统计方法及饼状图、条形图、箱图、散点图、树形图等图表对一个客户数据案例进行分析，以发现不同客户群体的特征，为市场推广活动提供依据。

关键词

市场，细分，客户，统计，分析，比较

谁

是最好的客户？任何行业专业人士——市场人员，销售经理，产品开发者和服务专家——都乐意回答这个问题。在当今激烈的市场中，开发，吸引和保留客户越来越困难同时也越来越昂贵。由于这些压力，更多的组织使用营销数据库最大化他们现有的客户价值。转换客户数据为知识和信息的行为是一个有力的手段和企业生存的一项必需的技能。

理解客户的固有特征可以给你有价值的发现。了解最有价值或至少有利润的客户，他们的购买方式，购买行为和人口统计特征是制订营销计划的关键。较好地理解客户是什么可以帮助你开发忠诚的，有持续回报的客户，制订提升销售和交叉销售及营销定位计划。集思广益的决策也是广告，促销，直接邮寄活动和其他营销成功的基础。

有许多方式可以确定最佳客户的特征，也有许多方法可用来度量这些特征。本文说明使用SPSS 实现客户分析的一种方法。

案例营销数据库中包含2000个客户和下列数据：

⏹ 首次成为公司客户的日期

⏹ 购买历史

⏹ 不同促销方案的响应率

⏹ 家庭收入

⏹ 地区

⏹ 性别和其它人口统计数据

本文中我们从数据库中析取可控信息，使用各种数据分析技术，从初级的到高级的，目标是依据过去的销售额用人口统计数据来识别不同的细分客户群。

即使最普通的过程产生的结果对怎样理解客户也可以产生深刻的含意。不要低估这些方法。用灵活和有力的分析工具结合你的业务背景是从数据中获得有价值信息的最好方法。

首先探索：典型客户是什么样的？

我们通过从数据库中探索不同的变量来回答这样的问题：

⏹ 客户住在哪里？在三个销售区域中客户的分布如何？

⏹ 客户的平均收入是多少？

⏹ 成为公司客户的时间有多长？

⏹ 对不同的促销方案，客户平均响应是多少？有多少人响应第一促销方案？

⏹ 客户花费是多少？

SPSS 提供了可以迅速回答以上问题的几种分析方法，频数和描述性分析过程可以提供对客户数据的初步印象。

从图1 饼状图中可以看出，东部地区所占比例最大(34%)，西部地区最小(19%)，而有16.9%的数据未列出所属地区。

图 1 和表 1。SPSS 自动形成的图表显示最多的客户（34%）生活在东部地区。

频数和描述过程非常适合对数据进行原始整理，可能在分析中许多想法都要用这种方法实现。

分析客户住居在哪里帮助我们确定销售版图。频数过程提供分类变量计数和百分比表，同时可用条图，直方图和饼图表示数据。SPSS 自动地呈现这些表和图的结果。

从分析中我们可以认识到什么证明是重要的。饼图和表1显示最大的客户群（34%）生活在东部地区，最小的客户群（19%）生活在西部地区。并且有16.9%的客户在数据库中没有列出居住区域。

SPSS 用特殊的处理表示缺失数据。知道何时为什么信息缺失很有必要。例如，你可能想区别是因为它们没有涉及而缺失还是因为它们难以获得而缺失。表1中，“百分数” 包括缺失数据，“有效百分数” 从计算中排出了缺失数据，可以从表上迅速并行比较缺失数据怎样影响结果的。

要得到家庭收入的信息，我们需要几个基本的统计量作为最初描述统计量。如平均值，最小和最大值，或连续变量，如以美元为单位的收入和以年数为单位的年龄。描述过程为我们提供了一系列汇总统计量。从表2可以看到在2000个客户中家庭收入的平均值大约是 $61,000, 大部分收入范围在 $50,000和 $72,000之间。

表2. 描述过程显示平均家庭收入大约是$61,000.

要回答“成为公司客户的时间有多长?” 的问题，我们必须处理一个字段然后计算每个时间周期的客户数。因为数据库包含第一次成为公司客户的日期，首先计算一个新变量：作为客户的时长。使用SPSS 中提供的众多的时间函数，可以轻而易举地用年数转换成日期计算客户的时长。计算这个新变量后，用时长的频数表来表示客户存在时间。

表 3. 频数表显示51%的客户存在超过7年。

从表 3 看出大约有29%的客户存在10年以上，差不多有过半数的客户在7年以上。接下来，我们要问“谁消费最多？”，最好的客户理所当然是最有利润的客户，或为组织花费最多的客户。

为了得到准确的客户生命周期价值，结合前期购买和客户行为建立预测模型预测未来购买。

本例中，我们开始用总订单金额代替每个客户。首先，建立一个新变量，对数据库中每个订单金额（订单1的金额，订单2的金额等等）求和。因为总订单金额是连续变量，直方图是显示结果的最有效的方法。

图 2. 从直方图可以看出大部分客户消费低于$500，少数几个客户消费

量比较大。

直方图的直条代表一个数据范围。在图2中大部分客户消费低于$500，少数几个客户消费量比较大。每个客户平均消费量是$1,360 ，很少有客户消费量超过$7,000。

当目前为止，我们知道典型的客户是：

⏹ 生活在东部

⏹ 家庭平均收入为$61,000

⏹ 有七年购物历史

⏹ 在公司产品和服务上消费 $1,360

客户对不同的促销有怎样的响应？

进行促销分析是理解客户的另一个重要步骤。评估营销计划和促销帮助分辨可以做什么可以不做什么。它准确地告诉我们何时及为什么某个计划成功，所以你可以拷贝你的成功经验和学习失败的经验。

要回答“每种促销有多少人响应？”和“不同的促销平均响应是多少？”的问题，可以对每种促销响应运行频数分析过程和对四种促销的订单运行描述分析过程。

表 4. 大约有45%，或890人对第一促销方案有响应。

在表4中，有890人，或大约45%的客户响应第一促销方案。对其它促销进行类似的分析，第二促销方案的响应率是39%，第三促销方案的响应率是37.4%，第四促销方案的响应率是17.4%。

这里出现一个新问题：在第四促销方案中唯一的特征是它较成功的获得客户响应的原因吗？换句话说，这种结果有意义吗？购买历史（表5）信息显示第三促销方案的平均值是$294, 低于其它促销方案。这种差别是否有统计意义还需进一步分析来确定。

表 5. 购买历史分析显示第三促销方案的平均值是$294, 低于其它促销方案。

进一步分析：我们的客户怎样不同？怎样相似？

既然对客户和各种促销的成功有一个基本的理解，通过观察两个或多个变量立刻支持这种有力的分析。SPSS 帮助发现用别的方式难于发现的潜在关系。例如，已经知道客户在各区域分布和有多少客户响应第一促销方案。接下来要观察各区域响应第一促销方案的客户有多少。通过研究回答这些问题：

⏹ 每个地区客户生命周期平均是多少？

⏹ 各区域人们怎样响应第一促销方案？

SPSS 很容易实现比较不同的分组数据。Crosstabs 过程，Means 过程, 分

段条图和箱图都可以清晰地表示这些结果；当结果有统计意义时，可用卡方统计量，方差分析和CHAID 识别。当你知道什么是有统计意义时，这就很重要了，因为你没有浪费你的努力。

下一步探索的问题是“每个区域客户平均生命周期是多少？”。一个强有力的统计图，箱图将均值和数据分布显示在一起。图3箱图中很容易看出西部地区客户平均生命周期大于其它地区。

图 3. 箱图将均值和数据分布显示在一起。很容易看出西部地区客户平

均生命周期大于其它地区。

均值比较提供联合分布的汇总统计。表6（包含与箱图相同的信息，但用表的形式）显示总平均时长是 7.49 年，西部地区比东部和中部地区平均占有期长。这个发现有意义吗？

统计显著性告诉你如果差别是随机的，或它们概率值很大，需进一步分析判断。如果差别是随机的，意味着结果同原假设一样。即变量没有显著性影响或对结果没有发生影响。

如果差别有统计意义，意味着备择假设成立，表明有非随机因素的潜在影响。当统计意义存在时，进一步探索非常必要。

表6. 均值比较报告显示总平均生命周期是 7.49 年，西部地区比东部和

中部地区占有时间要长。

图7的ANOVA 表显示区域与时间周期有统计意义的差别。因为显著性水平是0.000, 或小于0.05，能够得出均值间差别很可能统计意义的结论：区域和生命周期的差别很可能不是随机因素引起的而与其它因素有关。可能的原因是：首先在西部区域开展促销，但在不同的区域有更多的产品需求，或某种产品功能在一个区域成功地促销。了解你的业务，关键数据，支持你的直觉也是很重要的。

表7. ANOVA表显示各区域有统计意义差别，表明要做进一步的分析。

接着对促销响应进行分析。SPSS 使用分段条图将四种促销信息组合在一起，并将其可视化。图4提供按区域响应方式汇总表。可见中部地区同其它两个地区相比订单较少，特别是同西部相比。通过观察区域频数分布不会得出这个推测，它只告诉我们西部地区包含最少的人口。

图 4. SPSS 分段条图提供快速清晰的方式表达各区域响应方式。

要查明如果这是显著的，我们要进一步按区域探索各种促销结果。要回答“有多少人在各区域响应第一促销方案”的问题，我们在第一促销方案和区域因素上执行交叉表过程。表8显示响应第一个促销方案的人有41.3%来自东部地区（列百分比）。而响应第一个促销方案的人只有26.5%来自西部地区，超过半数（50.5%）的西部居民（行百分比）响应了促销。要理解如果区域确定对第一促销方案可能的响应，比较的是区域百分比（行百分比）并发现东部地区的居民45%响应了这个促销，中部地区的居民40%响应这个促销。根据这个信息，对第一促销方案，得出西部是一个促销较好销售区域的结论。可是，当百分数看起来不同时，在西部地区启动拷贝第一促销方案就没有充分的理由。首先，我们必须确定这些百分数是否有统计意义。这里，如果统计意义存在，卡方统计量可以表示。

表 8. 响应第一个促销方案的人只有26.5%来自西部地区，超过半数的

西部居民响应了促销。

表 9 包含区域和第一促销方案的卡方信息。按惯例皮尔松卡方统计量应该小于0.05才有统计显著性意义（在95%的置信水平上）。在这个例子中卡方值是0.007, 所有它有显著性意义。能够有令人信服的理由确信第一促销方案在西部地区比较成功，例如广告语言直接满足客户听觉上的需要，或媒体类型匹配客户视觉需要，吸引客户的眼球。

通过识别哪一种活动在西部地区比较成功，能够得到今后在该地区促销的知识。也可以选择探索以区域为基础的任何关系。

表 9. Chi-square 值是0.007 表示各地区在第一促销方案上有显著性的差异。

哪一位客户消费最多？

观察购买历史的另一种方法是评估总消费量而不是只看在单一订单上消费多少。也许总消费量同区域之间的关系可以揭示一些信息。单因素方差分析给你一个有关平均值有显著性差异的详细信息。

首先单因素方差分析提供一个描述性统计表。表10显示各地区四种促销方案的总消费量平均差别非常大。在中部地区平均消费量是$1,206, 东部地区是$1,391, 而西部地区超过$1,600.

报告的最后部分显示东部和西部间消费水平的平均差异没有显著的统计意义。另一方面，西部和中部间的差异有统计意义。能使用这些信息进一步识别这些地区的差别如何及为什么，制订营销定位计划。例如，不同的营销和销售混合，不同的促销，或绑定一些产品和服务或许在中部地区会更好。西部地区营销计划在西部重复应该更加成功。

表10. 单因素方差分析显示东部和西部消费水平的差别没有统计意义差别；西部和中部地区的差别有统计意义。

预测总消费量

预测模型是帮助定位潜在客户和优化营销资源一种有力的武器。它能帮助回答如“按照收入家庭消费占他们的收入多少？”的问题。

在许多统计研究中，目标是用方程建立一种关系，用一个已知变量预测另一个变量。SPSS 提供几个过程建立相关关系定义预测模型，从散点图到相关关系，线性和逻辑回归分析再到CHAID 分析。SPSS 的指南按部就班地指导，你不必成为统计学家就可以完成这些过程。

图 5. 散点图显示两个变量相关关系。

表11. 相关系数是60.8%，显示在家庭收入和总消费量上有很强的相关关系

图 5 显示这两个变量的相关关系。散点图显示两个连续变量的联合分布。相关系数是60.8%，表11显示在家庭收入和总消费量上有很强的相关关系。回归分析进一步确定模型的相关关系，如表12和图6所示。这种关系意思是随着家庭收入的增加，购买我们产品的总消费量也增加。我们能够使用这个模型发现更好的预测销售和改进营销努力。

表12 和图 6. 线性回归说明家庭收入和总消费量的关系。收入越多，消费越多。

范例的计划包括：对较高收入的家庭提供较多的产品和服务，或制订客户保留计划帮助维持较高收入家庭成为长期的客户，匹配营销资源给潜在收入的细分市场。到现在为止，已经看到客户所在地区和他们的消费量间的相关关系。同时也看到收入与总消费量有正相关性。

细分有利润的客户群并进行成功的营销。

营销数据库常常使用一种叫做CHAID 的技术（卡方自动交互检验）。

CHAID 告诉我们几个变量什么特征结合很可能导致什么结果，而不是只告诉我们两个变量间的关系是否有意义。(例如，对促销的响应) 。我们输入区域，产品类别，离散化的收入变量到CHAID 模型中，去寻找哪一种特征结合最可能对第一促销方案产生响应。CHAID 自动建立结果树图，如图7所示。

图7. CHAID 呈现哪一个特征结合最可能对第一促销方案产生结果的模型。

图 8 显示根节点的细节，哪些变量对第一促销方案有最显著的影响。收入被发现是最高的预测因子（它对应着前面回归方程发现）。在这种情况下，CHAID 超出回归方程的范围对其进行进一步的交互探索。

图8. CHAID树图的根节点显示收入作为最高响应的预测因子。

在图 9中, 下面的树枝显示如果收入水平在第三类（$57,750 到

$65,000）并且产品类别在第一类则有73%的响应率。CHAID 在数据库内显示唯一的细分。所以你能够支持特征的组合从营销计划中获得最好的结果。

我们发现家庭收入在$57,750到$65,000的客户（购买第一类产品的客户）很可能就是购买第一促销方案的客户。用其它变量作CHAID 分析可能导致其它的研究结果；例如，一般而言，我们发现中部地区对我们的各种促销响应不好，另外一个收入组的妇女对我们的响应良好，因此对另外的客户群采用直接邮寄方法也许有效果。

图 9. CHAID 用收入水平的第三类（$57,750 到$65,000）和产品分类的第一类划分唯一的细分市场。

采取行动

SPSS 允许我们快速地评估数据的平均值和分布获得典型客户的一些重要的信息：来自东部地区的客户，但总体来讲对第三促销方案没有太多的响应，很可能有较高的收入，倾向于成为长期客户。理解典型客户的特征为未来营销工作提供更好的指导。通过比较多个特征和细分客户群，SPSS 帮助我们获得更多的潜在模式：不止第三促销方案对我们最不利，而且在中部地区几乎没有收益，响应率低于其它两个地区。中部地区的客户有最低的平均收入，帮助我们解释他们对各种促销方案相对比较低的响应率。通过识别这些客户群，我们能够制订营销定位和保留客户计划。

最后, 使用SPSS 预测模型和细分技术识别相关关系，开发描述收入和总消费量的模型帮助预测未来销售。按照客户对第一促销方案的响应识别唯一的细分客户群。使用基于预测响应细分客户群的结果关键是制订有利润来源的营销计划。当细分特征和个别客户及潜在客户相匹配时，你能够拷贝成功的计划，修正或排除没有利润的计划获得更好的结果。作为这次分析的结果，能够制定如下计划：

按照高收入，西部地区，生命周期长，购买第一类产品的客户定义

最好的细分客户群。制订一个新的保留客户的计划。

⏹ 开发和检验新的捆绑产品和服务，更好的满足中部地区，低收入客户的目标需求。

⏹ 在中部和东部地区重复西部的销售模式建立长期客户群。 ⏹ 在西部地区复制第一促销方案

⏹ 匹配未来市场营销活动资金投向有利润的细分客户(基于原始的家庭收入 )

通过执行更多的任务，能够获得更多的相互关系。然而，本文的目的显示SPSS 给你一套分析的选择，你不必要成为统计学家，可以使用SPSS 中最高级的技术，从实际业务的背景中获得有价值的信息。