基于一种大数据应用架构的消费者行为分析

基于一种大数据应用架构的消费者行为分析

  摘 要: 研究了一种大数据的应用程序框架,通过使用拓扑数据结构、共生技术分析和马尔科夫链理论来分析消费者的购买行为。首先将与消费者相关的数据转换成一种拓扑数据结构;然后使用拓扑关系、一种共生矩阵对消费者行为进行分析,推断出马尔柯夫链模型。仿真结果证实了该理论框架的有效性。

  关键词: 大数据;消费者行为;拓扑数据结构;马尔科夫链

0 引言

  随着云技术的应用和普及,利用“数据”对消费者细分变得更为容易,在此“数据”之下形成的“精准”传播正日益成为厂商的得力助手。大数据在经济分析、灾害预报、产品和服务跟踪、消费行为洞察甚至在了解股市走向等方面大有用武之地,在发达国家已经开始普及应用,在中国也得到越来越多的运用。

  在消费领域,通过数以百万计的网络传感器和视频监控系统,人们能搜索到关于消费者和供应商的大量数据[1];各种媒体和社交网络平台中关于消费者的数据更是呈现指数式增长;用户在各种社交网络平台中所生成的未经编辑的信息,包括结构化和非结构化的数据,让人眼花缭乱。把这些海量数据统一称作大数据。一般情况下,大数据具有批量、多品种、快速度三种特性[2-3]。

  另一方面,消费者行为分析是对消费者、产品商、运营商之间对诸如购买、节约、商标选择等方面的关注[4]。此外,如今的消费者称号不再是指过去单一的消费者行为,对他们的定义不再仅是买家,更是一种会引导电商零售企业营销方式变迁的模式。为了分析消费者行为,获取更多的信息是有必要的。在这个方面,对数据驱动决策作出,处理大数据已经成为了中心角色[5]。在大数据平台中所搜集的数据的性质是各不相同的,为了分析这些数据,仅数据的数量和性质而言就是一个艰巨的挑战[6]。本文用图1所示的框架结构,通过数学拓扑以及与马尔科夫链相结合的共生分析理论来分析这些海量数据以及如何能够获取有用的信息。

1 消费者行为分析的大数据框架

  应用于消费者行为分析的大数据框架图由三个功能层组成,分别是数据组织层、分析建模层、预测推理层[7-8]。在数据组织层,收集到的数据在一个动力系统中被组织,以至于该数据能够被看作是一个时间序列。具体而言,假设随机变量分别为:

  Xt:在时间t时的数据量。

  Yt:出现在时间间隔为[t,t+1]的新数据。

  Zt:出现在时间间隔为[t,t+1]的劣化数据。

  该数据流可以在一个随机方程中建模为:

  

  可以通过线性回归马尔科夫链在

式(2)中获得Xt:

  E[Yt+1|Yt]=(1-ρ)E(Y)+ρYt(2)

  通过式(1)乘以Yt+1,再取其期望,同时使t→∞,这样能够获得式(3):

  (1-ρ)E(XY)=(1-ρ)E(X)E(Y)+ρE(Y2)-ρE(Y)(3)

  在式(1)中代入E(XY)的值,通过式(4)获得大数据的平均量:

  

  对于代表当前特别关注的变量Xt,通过方程(4)将会得出时间序列数据。经产生的时间序列数据,构造出拓扑数据结构,这样大数据能够被存储为所构造的拓扑数据而不失其一般性,该优势是对大存储器的需求显著减少。同时,重要的信息能够通过使用离散集而获得,可以利用拓扑结构对该种消费行为进行研究。拓扑数据结构的基本概念是认识其数据的形状或模式,用于发现数据,识别其有意义的数据子集,这样的拓扑数据结构由满足包含、相交和封闭性的采样数据的子集集合而成。以下三种关键性的拓扑性质使得从大数据中可能提取出具有一定价值的数据:(1)无坐标性;(2)提取不同形状下的一种客体模式的能力;(3)不失其重要特性的压缩形状。

  适用于上述三种特性的共生矩阵被处于分析建模层中的数据结构所建立。按行归一化的共生矩阵、马尔科夫转移概率都能被估计,同时形成了一步转移概率矩阵P。然后平稳分布π以及随时间变化分布的Pt能够通过(5)式获得。最后这些可能性在预测推理层被用于获取所需的特定信息。

  π=πPPt+1=Pt·P(5)

2 实验结果

  为了说明该架构,对合成的消费者购买行为数据进行模拟。把购买消费品的时间序列数据收集起来并在表1中显示出来,该数据包含了4种消费品和10个时间点。包含消费品的整个数据集是Xt={a,b,c,d},拓扑T被定义为Xt的子集集合,这样T包含一个空集和整个集,T中的两个集合并一定被包含在T中,且T中任何两个集合的交叉点也必须被包含在T中,这样包含的拓扑关系被用于建立处于拓扑T中数据集之间的共生矩阵。相应的共生矩阵如表2所示。通过共生矩阵行归一化能够得到一步转移概率矩阵P。当t=2,3,4,…时,通过计算Pt能够获得t步转移概率。在一般情况下,平衡状态在t的一个有限值内达到。因此,当t=1,2,3,…时,通过绘制相应的t步概率获得该种趋势图。最后,必要的信息能够通过图2所示的消费者趋势图推导出。在图2中,水平线表示时间点,垂直线表示购买成对商品的模式。其中大数据分析最重要的方面之一便是通过解码图2中被编码的定量信息和定性信息以显示其结构和模式。通过图2的解释线图能够观察到,在其他配对线趋势图之间,配对线趋势图(a,b)是最可能的

结合,其次是配对线趋势图(a,d)。接下来发现的是包括物品b的线是处于顶部的一些线,这意味着物品b是最受欢迎的物品,这样的结果与原始数据一致。结合了物品d但是没有包括物品b的线是最低的,这解释为物品d是最不受欢迎的。

3 结论

  本文结合消费者行为的非结构化数据,呈现了一种大数据应用程序框架。这是大数据分析的早期阶段,在消费领域,通过使用真实的生活数据,分析消费品的购买情况,在网络平台上将会产生大量的数据源,通过这些数据精准了解消费者心理对企业的功能和作用,特别是对营销来说更具有特别重大和实际的意义。

基于一种大数据应用架构的消费者行为分析

  摘 要: 研究了一种大数据的应用程序框架,通过使用拓扑数据结构、共生技术分析和马尔科夫链理论来分析消费者的购买行为。首先将与消费者相关的数据转换成一种拓扑数据结构;然后使用拓扑关系、一种共生矩阵对消费者行为进行分析,推断出马尔柯夫链模型。仿真结果证实了该理论框架的有效性。

  关键词: 大数据;消费者行为;拓扑数据结构;马尔科夫链

0 引言

  随着云技术的应用和普及,利用“数据”对消费者细分变得更为容易,在此“数据”之下形成的“精准”传播正日益成为厂商的得力助手。大数据在经济分析、灾害预报、产品和服务跟踪、消费行为洞察甚至在了解股市走向等方面大有用武之地,在发达国家已经开始普及应用,在中国也得到越来越多的运用。

  在消费领域,通过数以百万计的网络传感器和视频监控系统,人们能搜索到关于消费者和供应商的大量数据[1];各种媒体和社交网络平台中关于消费者的数据更是呈现指数式增长;用户在各种社交网络平台中所生成的未经编辑的信息,包括结构化和非结构化的数据,让人眼花缭乱。把这些海量数据统一称作大数据。一般情况下,大数据具有批量、多品种、快速度三种特性[2-3]。

  另一方面,消费者行为分析是对消费者、产品商、运营商之间对诸如购买、节约、商标选择等方面的关注[4]。此外,如今的消费者称号不再是指过去单一的消费者行为,对他们的定义不再仅是买家,更是一种会引导电商零售企业营销方式变迁的模式。为了分析消费者行为,获取更多的信息是有必要的。在这个方面,对数据驱动决策作出,处理大数据已经成为了中心角色[5]。在大数据平台中所搜集的数据的性质是各不相同的,为了分析这些数据,仅数据的数量和性质而言就是一个艰巨的挑战[6]。本文用图1所示的框架结构,通过数学拓扑以及与马尔科夫链相结合的共生分析理论来分析这些海量数据以及如何能够获取有用的信息。

1 消费者行为分析的大数据框架

  应用于消费者行为分析的大数据框架图由三个功能层组成,分别是数据组织层、分析建模层、预测推理层[7-8]。在数据组织层,收集到的数据在一个动力系统中被组织,以至于该数据能够被看作是一个时间序列。具体而言,假设随机变量分别为:

  Xt:在时间t时的数据量。

  Yt:出现在时间间隔为[t,t+1]的新数据。

  Zt:出现在时间间隔为[t,t+1]的劣化数据。

  该数据流可以在一个随机方程中建模为:

  

  可以通过线性回归马尔科夫链在

式(2)中获得Xt:

  E[Yt+1|Yt]=(1-ρ)E(Y)+ρYt(2)

  通过式(1)乘以Yt+1,再取其期望,同时使t→∞,这样能够获得式(3):

  (1-ρ)E(XY)=(1-ρ)E(X)E(Y)+ρE(Y2)-ρE(Y)(3)

  在式(1)中代入E(XY)的值,通过式(4)获得大数据的平均量:

  

  对于代表当前特别关注的变量Xt,通过方程(4)将会得出时间序列数据。经产生的时间序列数据,构造出拓扑数据结构,这样大数据能够被存储为所构造的拓扑数据而不失其一般性,该优势是对大存储器的需求显著减少。同时,重要的信息能够通过使用离散集而获得,可以利用拓扑结构对该种消费行为进行研究。拓扑数据结构的基本概念是认识其数据的形状或模式,用于发现数据,识别其有意义的数据子集,这样的拓扑数据结构由满足包含、相交和封闭性的采样数据的子集集合而成。以下三种关键性的拓扑性质使得从大数据中可能提取出具有一定价值的数据:(1)无坐标性;(2)提取不同形状下的一种客体模式的能力;(3)不失其重要特性的压缩形状。

  适用于上述三种特性的共生矩阵被处于分析建模层中的数据结构所建立。按行归一化的共生矩阵、马尔科夫转移概率都能被估计,同时形成了一步转移概率矩阵P。然后平稳分布π以及随时间变化分布的Pt能够通过(5)式获得。最后这些可能性在预测推理层被用于获取所需的特定信息。

  π=πPPt+1=Pt·P(5)

2 实验结果

  为了说明该架构,对合成的消费者购买行为数据进行模拟。把购买消费品的时间序列数据收集起来并在表1中显示出来,该数据包含了4种消费品和10个时间点。包含消费品的整个数据集是Xt={a,b,c,d},拓扑T被定义为Xt的子集集合,这样T包含一个空集和整个集,T中的两个集合并一定被包含在T中,且T中任何两个集合的交叉点也必须被包含在T中,这样包含的拓扑关系被用于建立处于拓扑T中数据集之间的共生矩阵。相应的共生矩阵如表2所示。通过共生矩阵行归一化能够得到一步转移概率矩阵P。当t=2,3,4,…时,通过计算Pt能够获得t步转移概率。在一般情况下,平衡状态在t的一个有限值内达到。因此,当t=1,2,3,…时,通过绘制相应的t步概率获得该种趋势图。最后,必要的信息能够通过图2所示的消费者趋势图推导出。在图2中,水平线表示时间点,垂直线表示购买成对商品的模式。其中大数据分析最重要的方面之一便是通过解码图2中被编码的定量信息和定性信息以显示其结构和模式。通过图2的解释线图能够观察到,在其他配对线趋势图之间,配对线趋势图(a,b)是最可能的

结合,其次是配对线趋势图(a,d)。接下来发现的是包括物品b的线是处于顶部的一些线,这意味着物品b是最受欢迎的物品,这样的结果与原始数据一致。结合了物品d但是没有包括物品b的线是最低的,这解释为物品d是最不受欢迎的。

3 结论

  本文结合消费者行为的非结构化数据,呈现了一种大数据应用程序框架。这是大数据分析的早期阶段,在消费领域,通过使用真实的生活数据,分析消费品的购买情况,在网络平台上将会产生大量的数据源,通过这些数据精准了解消费者心理对企业的功能和作用,特别是对营销来说更具有特别重大和实际的意义。


相关文章

  • 基于SOA的医院信息系统集成平台
  • 基于SOA 的医院信息系统集成平台建设与思考 申刚磊① 沈崇德 童思木 *① 摘 要 医院各信息系统间的信息共享与业务协同是目前医院信息化建设面临的主要问题.分析目前医院信息系统建设现状,提出面向服务架构(SOA )的医院服务总线(HSB ...查看


  • 数据仓库的基本架构
  • 数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support).其实数据仓库本身并不 "生产"任何数据,同时自身也不需要"消费"任何的数据,数据来源于外部,并且开 ...查看


  • Dubbo路由模块设计说明书
  • Dubbo 路由模块 设计说明书 修改记录 1 目录 1. 1.1. 1.2. 引言 ............................................................................. ...查看


  • 物联网技术标准
  • 物联网技术调研报告  描绘了人类未来全新的信息活动场景:让所有的物品都与实现任何 时间和任何地点的无处不在的连接.人们可以通过对物体进行识别.定位.追踪.监控并触发相应事件,形成信息化解决方案.目前很多全球主要国家都制订了开发物联网的长期 ...查看


  • 基于网络的新产品推广方案设计报告
  • 基于网络的新产品推广方案设计报告 实习生:谢荣平 指导老师:丁飞 2013.9.4 目录 一.背景 ...................................................................... ...查看


  • 中心数据交换平台建设方案
  • XX 省电子政务系统 数据交换平台 国际商业机器中国有限公司 2005.5 目 录: 1 概述 数据交换共享平台是协作式电子政务应用平台(包括政府职能部门之间的电子协作.政府与公众/企事业单位的服务管理等)的核心基础服务模块,负责实现跨系统 ...查看


  • 2015年企业网络安全八大趋势分析
  • 2014年尚余两月,但安全业界已经迫不及待地开始抢先预测,以下是Fortinet公司对2015年重要的发展与趋势的看法: 1. 安全违规越来越难防御 安全违规与数据泄漏仍然是无论任何规模的公司机构的安全噩梦.威胁与防御两者始终都在不断进化. ...查看


  • 开题报告(格式-时间参考)
  • 北方民族大学毕业设计(论文) 开题报告书 题目 姓学专 名号业 丁红胜 指导教师 北方民族大学教务处制 北方民族大学毕业设计(论文) 开题报告书 姓学题 名号目 2012年12月30日 计算机科学课题性质毕业论文与工程学院 自拟/结合科研( ...查看


  • 对云计算的认识
  • 云计算是一个将 IT 以服务的形式进行交付的全面解决方案.云中的计算机被配置成协同工作的模式,那些使用这些计算机资源的应用就好象在使用一个计算实例一样.云计算的灵活性在于能够按需分配资源.因此,不再需要给任务分配特定的硬件,这会提高现有系统 ...查看


热门内容