中
国
高
技术
产业发展促
进
会
hi na H
c So igh -Tec on h Industry Promoti
面向服务的大数据分析平台解决方案 *
■ 黄哲学 ** 陈小军 ** 李俊杰 ** 王 强 ** 中国科学院深圳先进技术研究院 深圳 518060
ie ty
关注中国
题,引起欧美各国政府和产业界高度重视,美国政府 于 2012 年 3 月率先发布了 《大数据研究与发展计划》 , Google、Amazon、Facebook、IBM、EMC、SAP 等 国际领先互联网和 IT 公司都在相关技术领域和应用进 行布局,力图在大数据产业浪潮中抢得先机。 随着我国经济社会信息化和自动化水平不断提高, 在政府管理、公共服务、科学研究、商业应用等许多 领域也面临大数据问题,亟需各种有针对性和经济有 效的解决方案,快速提升我国在大数据领域的整体实 力和国际竞争力。
[1]
52
C
摘 要: 本文针对日益增长的大数据分析与信息服务的应用需求,提出基于数据中心 和互联网、面向服务的大数据分析平台解决方案,为开展大数据分析相关的研究和实践 提供借鉴和参考。首先对国内外大数据技术的产业现状进行回顾,然后给出基于数据中 心和互联网的大数据分析平台拓扑架构,讨论大数据分析平台的系统功能和关键技术, 最后阐述该平台系统的应用和产业化前景。 关键词: 大数据 大数据分析 大数据平台 互联网服务 DOI:10.11842/chips.2014.01.009
近年来, 大数据处理与分析已经成为全球性问
本文结合中国科学院战略性技术先导专项“面向 感知中国的新一代信息技术”中“海云数据系统”的研 制实践 [2],提出基于互联网和数据中心、面向服务的大 数据分析平台解决方案,以满足日益增长的用户需求, 为我国开展大数据分析技术的研究和实践提供借鉴和 参考。
一、大数据技术发展现状
大数据时代来临,工业界是技术争霸的主战场。 全球大数据产业界针对大数据特有的海量、非结构化、 关系复杂、动态时变等特性以及不断涌现的各种新型应
该课题受到中国科学院战略性技术先导专项 “面向感知中国的新一代信息技术先导专项 (XDA06000000) ” 资助, 属 于专项项目 “海云创新试验环境构建与关键技术研究 (XDA06010000) ” 的子课题之一“ :海云数据系统关键技术研 究与系统研制 (XDA06010500) ” 黄哲学, 博士, 中国科学院深圳先进技术研究院, 研究员, 首席科学家, 深圳市高性能数据挖掘重点实验室主任, 广东 省领军人才。国际聚类算法研究著名学者, 领导开发开源数据挖掘 ALPHAMINER 系统, 具有 20 余年在数据挖掘、 商务智能领域的研究和开发经验, 曾为澳大利亚、 香港等地的银行、 保险、 电信、 零售、 物流等行业客户提供商务智能 应用咨询服务。陈小军, 博士, 中国科学院深圳先进技术研究院, 助理研究员, 深圳市高性能数据挖掘重点实验室核 心成员。主要研究领域为机器学习、 子空间聚类算法。李俊杰, 博士, 中国科学院深圳先进技术研究院, 助理研究员, 深圳市高性能数据挖掘重点实验室核心成员。主要研究领域为集成学习、 交互式可视化数据分析。王强, 博士, 中 国科学院深圳先进技术研究院, 助理研究员, 深圳市高性能数据挖掘重点实验室核心成员。主要研究领域为子空间 聚类、 随机森林分类。
科技促进发展 ★ 2014年 第10卷 第1期
Hig
h-Te ch Industry Promotio
oc nS
用需求,围绕海量复杂数据的存储、管理、整合、处理、 分析、展现、应用等主要环节,已经形成了新的大数 据产业体系。 从 发 展 路 线 角 度 看, 业 界 将 大 数 据 产 业 划 分 为 三 大 阵 营: 一 类 是 以 IBM、 微 软、 惠 普、ORACLE、 EMC 等为代表的传统 IT 领导厂商,通过“硬件 + 软 件 + 数据”整体解决方案向用户提供以平台为核心的 完备的基础架构与服务,并通过密集地并购大数据分析 企业,以迅速增强和扩展在大数据分析领域的实力和市 场份额; 一类是以 SAS、SPSS 等为代表的专业商务智 能公司,专注于智能数据分析; 还有一类是以 Google、 Amazon、Facebook 等互联网公司为代表,基于自身 的应用平台、庞大用户群和海量用户信息,提供精准 营销和个性化推荐等商业活动。以上三大阵营各有特 点和优势,形成了大数据时代三足鼎立的格局。 1. 整体平台解决方案厂商 以 IBM、 微 软、 惠 普、ORACLE、EMC 等 为 代 表的传统 IT 巨头,通过“硬件 + 软件 + 数据”的整 体平台向用户提供大数据一站式解决方案。IBM 在过 去几年连续投入 160 亿美元,收购了 30 多家与大数据 相关的企业,初步实现了大数据行业应用的布局。目 前 IBM 在软件架构层面,收购了商务智能软件供应 商 Cognos[3]、统计分析软件 SPSS[4]、数据库分析供应 商 Netezza 。结合 IBM 的 DB2 数据库,推出了支持 Apache Hadoop 的 InfoSphereBigInsights 软件 ,支 持大数据的应用。在硬件架构层面,IBM 发布了集成 了刀片服务器、存储、网络设备及相应软件系统的大 数据一体机 Pure Data ,提供数据仓库、和数据分析 等功能。 为了应对行业竞争,数据库龙头企业 ORACLE 推出了 Oracle 大数据一体机。该一体机集成了 Oracle Exalogic 中间件云服务器 、Oracle Exadata 数据库 云服务器
[9] [8] [7] [6] [5]
通过内嵌 R 语言包实现了分析功能。Vertica 数据分析 平台以软件的形式存在,可以加载在不同的计算资源 上运行,包括一体机,同构或异构的硬件集群,甚至 是公有云环境。 存储服务器厂商 EMC 依托其 Greenplum 数据库 推出了第一款 Greenplum 一体机产品(Appliance)[12], 对 原 有 的 EMC 硬 件 和 Greenplum 软 件 进 行 了 整 合。Greenplum 采 用 不 同 于 Oracle、DB2 等 数 据 库 产 品 的 shared-nothing 大 规 模 并 行 处 理 (Massive Parallel Process,MPP) 架构,特别适用于大数据分 析场景,可以通过增加节点方式进行横向扩展,从而 有效控制成本和性能。Greenplum 包含支持结构化数 据处理的 Greenplum Database 和非结构化数据处理的 Greenplum HD (Hadoop)。 整体平台解决方案厂商依靠自身原有的软件、硬 件或技术优势,通过收购及整合不同公司的产品线,实 现对大数据各个领域的覆盖。但是这种堆砌式的系统 整合,并不能彻底的突破大数据分析的瓶颈 [2]。只有通 过对自身产品和技术的原始创新,才能实现对大数据 处理问题的彻底解决。 2. 商务智能专业厂商 以 SAS、Teradata、Hyperion、Business Objects、Cognos、SPSS 等为代表的商务智能专业厂商 长期专注于智能数据分析领域,具有技术实力强、产 品线丰富、深刻理解传统行业(如银行、电信、零售) 应用需求等优势。近年来,随着大数据分析竞争日趋激 烈,该类厂商成为传统 IT 巨头的争夺焦点,早在 2007 年至 2009 年,Oracle、SAP、IBM 等 IT 巨头就已完成 对商务智能前四大厂商 Hyperion、Business Objects、 Cognos、SPSS 的并购。 商务智能专业厂商在大数据时代的发力点在结构 化数据处理。在大数据时代,这些厂商开始加大在高可 扩展计算、非结构化数据处理、以及与业务运营集成 的实时处理(即操作型商务智能)等方面的投入和创 新。例如,SAS 在 2012 年推出了基于内存计算的高性 能数据分析方案,核心部件包括: SAS 高性能分析服务 器 [13]、SAS 可视化分析 [14] 和 SAS DataFlux 数据流处 理引擎 [15]。SAS 高性能分析服务器采用库内分析和内
SCIENCE&TECHNOLOGY FOR DEVELOPMENT
和 Oracle Exalytics 商务智能云服务器
[10]
,
形成了 ORACLE 企业级端到端大数据的产品线。 通过收购 Vertica 公司,惠普推出针对大数据的 Vertica 6.1 数据分析平台
[11]
,突破了传统数据仓库和
数据库无法实现纵向扩展的瓶颈。在大数据管理方面, Vertica 信息优化平台实现高速度、高性能、高可扩展,
53
ie ty
Focus on China
中
国
高
技术
产业发展促
进
会
hi na
C
中
国
高
技术
产业发展促
进
会
hi na H
c So igh -Tec on h Industry Promoti
存计算两种解决方案。库内分析技术在数据库内实现分 析的过程,用户过去开发的 SAS 程序可以直接移植使 用,而且这样的分析过程无需提取数据,避免了数据传 输的额外开销,分析能力极大地提高。内存计算技术则 利用大内存服务器的优势,减少数据从硬盘加载到内存 的机会,把数据和分析程序直接放置在内存中执行,特 别适合具有迭代和嵌套模式的分析算法,极大地提高了 建模处理的速度。除此之外,SAS 公司最新推出的高 性能分析解决方案还采用了“SAS Visual Analytics” 技术,即可视化分析,让用户及时地查看分析结果。 Teradata 公司针对大数据处理提出了统一数据架 构 (Teradata Unified Data Architecture,UDA) 的 Aster 大数据分析平台
[17] [16]
ie ty
关注中国
Facebook 目前运行着世界上最大的 Hadoop 服务 器集群,存储的数据超过了 100PB,每 30 分钟可以处 理的数据超过了 105TB。然而,爆炸式增长的数据使 Facebook 的 Hadoop 服务器集群难以承受,出现数据 雪 崩 问 题 (avalanche of data)。 为 此,Facebook 开 发出两种全新软件平台处理大数据的挑战,第一种叫 做 “Corona ( 日冕 )”[24],它可以实现在数目庞大的 Hadoop 服务器之间运行大量的任务,并且不用担心软 件错误会导致整个服务器集群出现崩溃。第二种叫做 “Prism ( 棱镜 )”[25],它实现了不同地域服务器的数据 自动复制和传输,使 Facebook 遍布全球数据中心的 Hadoop 服务器集群的数据得到同步,形成更加庞大的 Hadoop 数据集群。 云计算服务提供商 Amazon 推出了 Amazon 弹性 MapReduce(Amazon Elastic MapReduce)[26]。弹性 MapReduce 是一项能够迅速扩展的 Web 服务,运行在 亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储 服务平台上(Amazon S3)上。作为业界领先的云计 算服务提供商,Amazon 提供网页检索、日志分析、数 据挖掘、金融建模等数据密集型的任务需要的弹性云 服务,动态地满足用户对于计算资源的需求。 相对于国外互联网企业在大数据技术上的不断创 新,国内互联网企业主要在大数据应用模式上创新。阿 里巴巴利用旗下淘宝网的历史交易数据,推出了“淘 宝指数”[27],商家可以参考该指数指导生产、制定价格 和控制库存。百度面对大数据时代企业需求,从数据、 工具及应用三个层面规划大数据时代的企业战略。腾 讯利用自身强大的社会网络通讯平台资源,通过大数 据技术挖掘社会网络中的商业价值,实现了不同产品 营销平台,为用户推荐感兴趣的产品和内容。 综上所述,当前的大数据技术领域以产业引领为 主,在大数据集中的领域推出相应的产品和服务。学 术界主要围绕其中的难点问题展开基础性研究 [2]。 目前, 围绕大数据的科学研究、技术创新、系统开发和实际 应用刚刚起步,无论产业界还是学术界,正处在群雄 并起的 “大数据春秋时期” 。可以预计, 在未来五至十年, 大数据领域将会发展成若干核心团队、公司、典型应 用的“大数据战国时代” 。
公司统一数据架构在数据管理方面的优势,它与大数据 的收集、处理等工作紧密相连,为企业提供一个完善 的数据源。UDA 通过 Hadoop 实现数据存储管理,通 过 Aster 实现数据探索和分析,通过 Teradata 实现统 一的数据架构,将存储、分析与整合相互结合,实现 大数据价值的一个完整的闭环。 商务智能专业厂商(如 SAS、Teradata)凭借在 数据分析领域的长期积累,在大数据的分析建模方面 仍然处于行业领导地位。但是,这些产品的大数据处 理能力往往依赖于高性能服务器的处理能力,虽然他 们也在向 Hadoop 等分布式平台迁移,但是实际的效果 还有待观察。 3. 互联网公司 大型的互联网巨头,如国外的 Google、Facebook、 Amazon,国内的阿里巴巴、百度、腾讯等,基于自身 海量的用户信息和互联网处理平台,依托大数据提供精 准营销和个性化广告推介等商业活动。十年前,Google 发表的 GFS(Google File System) 、MapReduce 和 BigTable
[20] [18] [19]
Hadoop。 目 前,Google 通 过 自 身 开 发 的 Caffeine 平 台 [21],直接将索引放置在分布式数据库 BigTable 上。 Google 还向用户提供了大数据的虚拟服务器业务, 用 户 可 以 把 数 据 上 传 到 Google, 采 用 Google 提 供 的 BigQuery
[22]
础设施完成数据查询和分析。 54
科技促进发展 ★ 2014年 第10卷 第1期
C
下
。该平台继承了 Teradata
论文催生了大数据处理的事实标准
和 Google Compute Engine
[23]
等服务和基
Hig
h-Te ch Industry Promotio
oc nS
二、大数据分析平台体系架构
大数据没有一个明确的定义,是一个相对的概念, 取决于当前所具有的数据处理能力。如果一个用户所面 对的数据超出该用户所拥有的数据存储、处理和分析 的能力,致使该用户不能有效地利用数据,该用户就 面对大数据问题。在大数据时代,个人、企业和机构 都会面临大数据的问题。建设面向服务的大数据平台, 为众多的中小企业和个人用户提供大数据处理和分析 的能力,将成为大数据产业发展的重要方向。 面向服务的大数据分析平台以区域性智能数据中 心及高速互联网为基础设施,以互联网服务体系为架 构,以大数据存储、处理、挖掘和交互式可视化分析 等关键技术为支撑,通过多样化移动智能终端及移动 互联网为用户提供数据存储、管理及分析服务。 大数据分析平台的拓扑架构如图 1 所示。其中部
署在多个地方的智能数据中心提供大数据存储及计算 平台,通过平台服务器提供系统调用功能。门户服务中 心将整合所有的智能数据中心存储和计算资源,并通 过 web 应用服务器和 Open API 服务器以 web 调用和 Open API 调用的方式提供大数据存储、管理及挖掘服 务。终端用户利用移动智能终端通过互联网访问门户 服务中心, 使用其提供的大数据存储、 管理及挖掘服务。 大数据分析平台的系统架构如图 2 所示。系统包 含 3 个层次: 平台层为整个大数据分析平台提供基础平 台支持; 功能层提供基本的大数据存储和挖掘功能; 服 务层为用户提供基于互联网的大数据服务。具体包括: (1)平台层: 为大数据存储和挖掘提供大数据存储 和计算平台,为多区域智能中心的分析架构提供多数 据中心调度引擎; (2)功能层: 为大数据存储和挖掘提供大数据集成、
˙˜ ˚ ——˜ • †…˚‰ ¸¸ª˘‰ ¤
¶¸ ˆ»§
ˇ ˝‡¶ ˝ ‰ ¿
´• +• » ˙‰
˘¶fl Ł–‚
¸¸ª…fl¨”
¸ª•¤¿
PC ¿˝»§¶¸
˘‰ ¤• ˛æ˘ ˚ · ·¢˘‰ ¤
˚
· ·¢…fl¨”
“˚ ˚ • ˛æ˘
¿
ˆ¯»§• ˛æ ——˜ ... ´• +• » ˙‰ ´• +• » ˙‰
ˇ ˝‡¶ ˝ ‰ ¿ ˙˜ ˚ ——˜ • †…˚‰ ¸¸ª˘‰ ¤
´• +• » ˙‰
Web ƒ ˆ• ˛æ˘
Open API • ˛æ˘
˘‰ ¤• ˛æ˘
¸¸ª…fl¨”
¸ª•¤¿
˚
· ·¢˘‰ ¤
¶¨ ——˜
˚
· ·¢…fl¨”
“˚ ˚ • ˛æ˘
¿
图1
大数据分析平台拓扑示意图
SCIENCE&TECHNOLOGY FOR DEVELOPMENT
55
ie ty
Focus on China
中
国
高
技术
产业发展促
进
会
hi na
C
中
国
高
技术
产业发展促
进
会
hi na H
c So igh -Tec on h Industry Promoti
ie ty
关注中国
建基于多智能中心的大数据服务平台。
存储、管理和挖掘功能; (3)服务层: 基于 Web 和 Open API 技术提供大 数据服务。
发一系列关键技术(如图 3 所示) ,主要包括: 1. 平台层 (1)大数据分布式存储系统: 针对数据不断增长的 挑战,需要研究大规模、非结构化数据的存储问题,突 破大数据的存储、管理和高效访问关键技术,当前需 要构建至少 PB 级存储能力的大数据平台才能满足一般 的科研和应用需求。 (2)分布式数据挖掘运行时系统: 针对大数据挖掘 算法运行的挑战,突破 MapReduce 技术的局限,研究 有效支持迭代、递归、层次及集成机制的海量数据挖 掘编程模型和运行时系统,构建大数据运行时系统。 (3)智能数据中心联合调度技术: 针对大数据存储 和挖掘的挑战,研究多数据中心的智能联合调度、负载 均衡技术,整合多个数据中心的存储和计算资源,构 56
科技促进发展 ★ 2014年 第10卷 第1期
C
服务层
大数据Web服务
大数据OpenAPI 服务
2. 功能层 (1)高可扩展性大数据挖掘算法: 针对大数据挖掘 的挑战,研究基于云计算的分布式大数据处理与挖掘 算法,构建高可扩展的大数据处理与挖掘算法库,实 现 TB 级数据的建模能力。 (2) 大数据安全与隐私保护技术: 针对数据挖掘 “软 件即服务” (SaaS)模式的需求,研究开发数据挖掘在 云环境下的隐私保护、数据审计和节点数据挖掘技术, 确保大数据挖掘过程中的数据安全,保证用户的隐私 不被泄露。 (3)分布式工作流引擎: 针对大数据挖掘分布式调 度的挑战,研究基于云计算的分布式工作流调度、负 载均衡技术,构建高效分布式工作流执行引擎。 (4)交互式可视化分析技术: 针对传统分析方法交 互性和可理解性不足的问题,研究启发式、人机交互、 可视化数据挖掘新技术,实现大数据挖掘的高度人机 交互功能。 3. 服务层 (1)基于 Web 的大数据挖掘技术: 突破传统的基 于单机软件的数据挖掘技术,创新基于 Web 的大数据 挖掘方法和流程,实现易于使用的基于 Web 的大数据 挖掘技术,构建基于 Web 的大数据分析环境。 (2)基于 Open API 的大数据挖掘技术: 突破传统 的基于软件的数据挖掘技术,创新基于 Open API 的 大数据挖掘方法, 研究大数据挖掘开放接口、 开放流程, 构建基于 Open API 的大数据分析模式。 为广大用户提供大数据处理和分析的服务功能, 大数据分析平台要突破传统的基于软件和高端服务器 的数据挖掘传统技术体系,采用基于云计算的大数据 存储和处理架构、分布式数据挖掘算法和基于互联网 的大数据存储、处理和挖掘服务模式。实现这一目标 需要做如下创新: (1)系统架构创新: 突破传统的基于软件和高端服 务器的数据挖掘技术体系,研发基于互联网和云计算 的大数据存储、处理和挖掘的数据中心系统架构,支 持多用户、多任务的大数据分析环境; (2)服务模式创新: 突破传统的一次性软件销售或
功能层
大数据 集成 大数据存 储平台
大数据 存储
大数据 管理
大数据 挖掘
多数据中心 调度引擎
平台层
大数据计 算平台
图2
大数据分析平台系统架构
基于 OpenAPI的大 数据挖掘技术
服务层 功能层
基于Web的大数据 挖掘技术
高可扩展 性大数据 挖掘算法
大数据安 全与隐私 保护技术
分布式工 作流引擎
交互式可 视化分析 技术
平台层
大数据分布式 存储系统
分布式数据挖 掘运行时系统
智能数据中心 联合调度技术
图3
大数据分析平台关键技术
三、大数据分析平台关键技术
建设面向服务的大数据分析平台,需要研究和开
Hig
h-Te ch Industry Promotio
oc nS
软件租赁的高价格解决方案,创新基于互联网的大数 据存储、处理和分析服务模式,为用户提供按需、廉 价的大数据存储、处理和分析服务; (3)使用模式创新: 突破传统的使用单机软件的方 式,创新基于互联网的大数据存储、管理和分析服务, 提供多终端(台式机、笔记本、平板电脑、手机等) 、 多途径(浏览器访问,Open API 调用等)的用户使用 模式。
策略不仅符合大数据应用的发展趋势,同时也满足中 小企业和个人用户对于数据分析系统的可用性、时效 性和低成本等方面的要求。 目前,在大数据处理与分析领域,国际上三支主 要力量在不断地竞争与融合,即大型互联网公司(如 Google、Amazon) 、 传 统 商 务 智 能 公 司( 如 SAS、 SPSS) 和 传 统 IT 公 司( 如 IBM、ORACLE、SAP) 。 三方从各自优势出发,不断增强针对大数据的分析智能 性、计算扩展性和非结构化数据处理能力。尽管一些 公司在上述领域取得突破并抢得市场先机,但国际大 数据产业整体上仍然处于起步阶段,据 IDC 公司预测 未来 5 年大数据分析产业年增长率高达 9.8%,到 2016 年全球产业规模将超过 500 亿美元。同时,越来越多的 大数据创新公司不断涌现并发展迅速,也证明了该领 域蕴含着巨大的发展潜力和广阔的市场前景。 大数据分析平台所采用的技术路线和应用模式融 合了智能分析技术、高可扩展计算技术、非结构化数据 处理技术和软件即服务(SaaS)应用模式,符合当前 国际大数据产业的发展趋势和产业化应用要求。一方 面,系统通过互联网服务方式向用户提供高可用、高易 用和一站式的海量数据分析服务,可有效降低企业应用 门槛和成本,通过专业化服务外包满足企业个性化需 求。另一方面,由于是开放架构的系统平台,商业用 户和其他软件提供商可通过系统提供的互联网服务开 发接口(Open API)开发面向行业商务智能应用的解 决方案, 孵化新型咨询公司、 软件公司和信息服务公司, 有助于形成以平台为核心的大数据分析产业生态环境。
四、大数据分析平台应用与产业化
商业应用是大数据分析平台的发展目标。随着我 国企业信息化程度和水平不断提高,越来越多的企业 需要大数据分析的能力以提高竞争力。在互联网、电 子商务、金融、电信、零售、物流等数据驱动型行业, 客户分群、客户行为分析、客户关系管理、市场营销、 广告投放、业务优化、风险管理等企业核心业务越来越 依赖于对数据的有效分析与挖掘。正如在《大数据: 国 家选择与产业方向》一书中所说, “大数据时代公司的 价值,与其拥有的数字资产的规模、活性成正比,与 其解释、运用数据的能力成正比” 。因此,如何从海量 业务数据中挖掘有价值的信息和知识,从而指导商业 运营与决策、提高企业运营效率和盈利能力,成为每 个企业都将面临的重要挑战。 大数据分析平台基于分布式海量数据存储与计算 环境,提供图形化交互式数据处理和分析工具,丰富 的数据分析与挖掘算法,以及交互式可视化分析工具, 通过互联网服务方式向用户提供服务。这种系统实现
参考文献:
[1] Tom Kalil. Big Data is a Big Deal, March 29, 2012. Available at: http://www.whitehouse.gov/ blog/2012/03/29/big-data-big-deal. [2] 黄哲学, 曹付元, 李俊杰, 陈小军 面向大数据的 海 云 数 据系 统 关 键 技 术 研 究 . 网 络 新 媒 体 技 术 2012(6):20-26. [3] Big Data Analytics with IBM Cognos Dynamic Cubes, Available at: http://www.redbooks.ibm. com/technotes/tips0942.pdf. [4] Per forming a data min ing tool evaluation, Av a i l a b l e a t : h t t p : // p u b l i c . d h e . i b m . c o m /c o m m o n /s s i /e c m /e n /i mw143 0 0 u s e n / IMW14300USEN.PDF. [5] IBM Netezza Analytics, Available at: http:// w w w- 01. ib m .c om /s of t w a r e/d at a/n e t e z z a/ analytics/ . [6] What’s New in IBM InfoSphere BigInsights V2.0, Available at: http://www-01.ibm.com/
SCIENCE&TECHNOLOGY FOR DEVELOPMENT
57
ie ty
Focus on China
中
国
高
技术
产业发展促
进
会
hi na
C
中
国
高
技术
产业发展促
进
会
hi na H
c So igh -Tec on h Industry Promoti
software/data/infosphere/big insights/whats_ new.html. [7] IBM PureData System for Analytics N1001, Av a i l a b l e a t : h t t p : // p u b l i c . d h e . i b m . c o m /c o m m o n /s s i /e c m /e n /i m d 14 4 0 0 u s e n / IMD14400USEN.PDF. [8] O R AC L E E X A L O G IC E L A S T IC C L OU D , Av a i l a b l e a t : h t t p : // w w w . o r a c l e . c o m /u s /p r o d u c t s /m i d d l e w a r e /e x a l o g i c / e x a l o g i c - e l a s t i c - c l o u d-x 2-2- d s -13 6 7 8 0 5. pdf?ssSourceSiteId=ocomcn. [9] ORACLE EXADATA DATABASE MACHINE, Av a i l a b l e a t : h t t p : // w w w. o r a c l e . c o m / technetwork/server-storage/engineered-systems/ exad at a/dbmach i ne-x 2-8-d at ashe et-173705. pdf?ssSourceSiteId=ocomcn. [10] ORACLE EXALYTICS IN-MEMORY MACHINE: A BRIEF INTRODUCTION, Available at: http:/ / www.oracle.com/us/solutions/ent-performancebi/business-intelligence/exalytics-bi-machine/ overview/exalytics-introduction-1372418.pdf. [11] HP Vertica 6.1 Boosts Big Data Value, Available at: ht t p://w w w.hp.c om/ hpi n fo/new sroom/ press_kits/2012/HPDiscoverFrankfurt2012/HP_ Vertica_6.1_NA.pdf [12] EMC Greenplum Data Computing Appliance Enhances EMC IT’s Global Data Warehouse, Available at: http://www.emc.com/collateral/ software/white-papers/h8869-emc-greenplumdca-oracle-gdw-wp.pdf. [13] SAS High-Performance Analytics Server, SAS White Paper, Available at: http://www.sas. com/resources/whitepaper/wp_41948.pdf. [14] SAS Visual Analytics: User's Guide, Available at: http://support.sas.com/documentation/cdl/ en/vaug/65524/PDF/default/vaug.pdf. [15] Big Data Meets Big Data Analytics, SAS White Pap er, Ava i l able at: ht t p://w w w.s as.c om/ resources/whitepaper/wp_46345.pdf.
ie ty
关注中国
[16] Te r a d a t a I n t e g r a t e s B i g D a t a A n a l y t i c Architecture, Available at: http:/ /www.teradata. com/News-Releases/2012/Teradata-IntegratesBig-Data-Analytic-Architecture/ . [17] Terad at a Ast er Dis c over y Pl at for m O f fer s Power fu l Dat a Scienc e Solution i n a Box, Available at: http://www.asterdata.com/news/ t e r ad at a-a s t e r-d i s c ove r y-pl at for m-of fe r s powerful-data-science-solution.php. [18] Sanjay Ghemawat, Howard Gobioff, and ShunTak Leu ng. 2003. The Goog le fi le system. SIGOPS Oper. Syst. Rev. 37, 5, pp. 29-43. [19] Jef frey Dean and Sanjay Ghemawat. 2008. MapReduce: simplified data processing on large clusters. Commun. ACM 51, pp. 107-113. [20] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber. 2008. Bigtable: A Distributed Storage System for Str uctured Data. ACM Trans. Comput. Syst. 26, 2, pp. 26. [21] Paul Martin, Caffeine-The New Google Update, Available at: http://www.wearecube3.com/blog/ article/caffeine-the-new-google-update/ . [22] Google BigQuery Real-time big data analytics in the cloud, Available at: https://cloud.google. com/files/BigQuery.pdf. [23] Google Compute Engine computation in the cloud, Available at: https://cloud.google.com/ files/GoogleComputeEngine.pdf. [24] Facebook open sources Corona -- a better way to do webscale Hadoop, Available at: http:// gigaom.com/2012/11/08/facebook-open-sourcescorona-a-better-way-to-do-webscale-hadoop/ . [25] Facebook’s Project Prism is reimagining how big data scales, Available at: http:/ /venturebeat. com/2012/08/22/facebook-prism/ . /aws.amazon.com. [26] http:/ /shu.taobao.com. [27] http:/
Service Oriented Big Data Analytics Platform
Joshua Zhexue Huang, Xiaojun Chen, Junjie Li, Qiang Wang Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518060 58
科技促进发展 ★ 2014年 第10卷 第1期
C
Hig
h-Te ch Industry Promotio
oc nS
Abstract: This paper proposes a service oriented big data analytics platform solution that is intended to satisfy the high demands of the growing number of users who require to access big data analytical tools to solve big data analysis problems. The platform is designed based on the infrastructure of internet and intelligent data centers. The current status of big data technology in industry is first reviewed. Then, the topological architecture of the service oriented platform is given. After that, the functional structure and the key technologies required for building the platform are discussed. In the end, potential applications of the platform in industry are discussed. Keywords:Big Data, Big data analytics, Analytical platform, Internet Service ( 责任编辑: 何岸波,张志华; 责任译审: 龚 宇 )
SCIENCE&TECHNOLOGY FOR DEVELOPMENT
59
ie ty
Focus on China
中
国
高
技术
产业发展促
进
会
hi na
C
中
国
高
技术
产业发展促
进
会
hi na H
c So igh -Tec on h Industry Promoti
面向服务的大数据分析平台解决方案 *
■ 黄哲学 ** 陈小军 ** 李俊杰 ** 王 强 ** 中国科学院深圳先进技术研究院 深圳 518060
ie ty
关注中国
题,引起欧美各国政府和产业界高度重视,美国政府 于 2012 年 3 月率先发布了 《大数据研究与发展计划》 , Google、Amazon、Facebook、IBM、EMC、SAP 等 国际领先互联网和 IT 公司都在相关技术领域和应用进 行布局,力图在大数据产业浪潮中抢得先机。 随着我国经济社会信息化和自动化水平不断提高, 在政府管理、公共服务、科学研究、商业应用等许多 领域也面临大数据问题,亟需各种有针对性和经济有 效的解决方案,快速提升我国在大数据领域的整体实 力和国际竞争力。
[1]
52
C
摘 要: 本文针对日益增长的大数据分析与信息服务的应用需求,提出基于数据中心 和互联网、面向服务的大数据分析平台解决方案,为开展大数据分析相关的研究和实践 提供借鉴和参考。首先对国内外大数据技术的产业现状进行回顾,然后给出基于数据中 心和互联网的大数据分析平台拓扑架构,讨论大数据分析平台的系统功能和关键技术, 最后阐述该平台系统的应用和产业化前景。 关键词: 大数据 大数据分析 大数据平台 互联网服务 DOI:10.11842/chips.2014.01.009
近年来, 大数据处理与分析已经成为全球性问
本文结合中国科学院战略性技术先导专项“面向 感知中国的新一代信息技术”中“海云数据系统”的研 制实践 [2],提出基于互联网和数据中心、面向服务的大 数据分析平台解决方案,以满足日益增长的用户需求, 为我国开展大数据分析技术的研究和实践提供借鉴和 参考。
一、大数据技术发展现状
大数据时代来临,工业界是技术争霸的主战场。 全球大数据产业界针对大数据特有的海量、非结构化、 关系复杂、动态时变等特性以及不断涌现的各种新型应
该课题受到中国科学院战略性技术先导专项 “面向感知中国的新一代信息技术先导专项 (XDA06000000) ” 资助, 属 于专项项目 “海云创新试验环境构建与关键技术研究 (XDA06010000) ” 的子课题之一“ :海云数据系统关键技术研 究与系统研制 (XDA06010500) ” 黄哲学, 博士, 中国科学院深圳先进技术研究院, 研究员, 首席科学家, 深圳市高性能数据挖掘重点实验室主任, 广东 省领军人才。国际聚类算法研究著名学者, 领导开发开源数据挖掘 ALPHAMINER 系统, 具有 20 余年在数据挖掘、 商务智能领域的研究和开发经验, 曾为澳大利亚、 香港等地的银行、 保险、 电信、 零售、 物流等行业客户提供商务智能 应用咨询服务。陈小军, 博士, 中国科学院深圳先进技术研究院, 助理研究员, 深圳市高性能数据挖掘重点实验室核 心成员。主要研究领域为机器学习、 子空间聚类算法。李俊杰, 博士, 中国科学院深圳先进技术研究院, 助理研究员, 深圳市高性能数据挖掘重点实验室核心成员。主要研究领域为集成学习、 交互式可视化数据分析。王强, 博士, 中 国科学院深圳先进技术研究院, 助理研究员, 深圳市高性能数据挖掘重点实验室核心成员。主要研究领域为子空间 聚类、 随机森林分类。
科技促进发展 ★ 2014年 第10卷 第1期
Hig
h-Te ch Industry Promotio
oc nS
用需求,围绕海量复杂数据的存储、管理、整合、处理、 分析、展现、应用等主要环节,已经形成了新的大数 据产业体系。 从 发 展 路 线 角 度 看, 业 界 将 大 数 据 产 业 划 分 为 三 大 阵 营: 一 类 是 以 IBM、 微 软、 惠 普、ORACLE、 EMC 等为代表的传统 IT 领导厂商,通过“硬件 + 软 件 + 数据”整体解决方案向用户提供以平台为核心的 完备的基础架构与服务,并通过密集地并购大数据分析 企业,以迅速增强和扩展在大数据分析领域的实力和市 场份额; 一类是以 SAS、SPSS 等为代表的专业商务智 能公司,专注于智能数据分析; 还有一类是以 Google、 Amazon、Facebook 等互联网公司为代表,基于自身 的应用平台、庞大用户群和海量用户信息,提供精准 营销和个性化推荐等商业活动。以上三大阵营各有特 点和优势,形成了大数据时代三足鼎立的格局。 1. 整体平台解决方案厂商 以 IBM、 微 软、 惠 普、ORACLE、EMC 等 为 代 表的传统 IT 巨头,通过“硬件 + 软件 + 数据”的整 体平台向用户提供大数据一站式解决方案。IBM 在过 去几年连续投入 160 亿美元,收购了 30 多家与大数据 相关的企业,初步实现了大数据行业应用的布局。目 前 IBM 在软件架构层面,收购了商务智能软件供应 商 Cognos[3]、统计分析软件 SPSS[4]、数据库分析供应 商 Netezza 。结合 IBM 的 DB2 数据库,推出了支持 Apache Hadoop 的 InfoSphereBigInsights 软件 ,支 持大数据的应用。在硬件架构层面,IBM 发布了集成 了刀片服务器、存储、网络设备及相应软件系统的大 数据一体机 Pure Data ,提供数据仓库、和数据分析 等功能。 为了应对行业竞争,数据库龙头企业 ORACLE 推出了 Oracle 大数据一体机。该一体机集成了 Oracle Exalogic 中间件云服务器 、Oracle Exadata 数据库 云服务器
[9] [8] [7] [6] [5]
通过内嵌 R 语言包实现了分析功能。Vertica 数据分析 平台以软件的形式存在,可以加载在不同的计算资源 上运行,包括一体机,同构或异构的硬件集群,甚至 是公有云环境。 存储服务器厂商 EMC 依托其 Greenplum 数据库 推出了第一款 Greenplum 一体机产品(Appliance)[12], 对 原 有 的 EMC 硬 件 和 Greenplum 软 件 进 行 了 整 合。Greenplum 采 用 不 同 于 Oracle、DB2 等 数 据 库 产 品 的 shared-nothing 大 规 模 并 行 处 理 (Massive Parallel Process,MPP) 架构,特别适用于大数据分 析场景,可以通过增加节点方式进行横向扩展,从而 有效控制成本和性能。Greenplum 包含支持结构化数 据处理的 Greenplum Database 和非结构化数据处理的 Greenplum HD (Hadoop)。 整体平台解决方案厂商依靠自身原有的软件、硬 件或技术优势,通过收购及整合不同公司的产品线,实 现对大数据各个领域的覆盖。但是这种堆砌式的系统 整合,并不能彻底的突破大数据分析的瓶颈 [2]。只有通 过对自身产品和技术的原始创新,才能实现对大数据 处理问题的彻底解决。 2. 商务智能专业厂商 以 SAS、Teradata、Hyperion、Business Objects、Cognos、SPSS 等为代表的商务智能专业厂商 长期专注于智能数据分析领域,具有技术实力强、产 品线丰富、深刻理解传统行业(如银行、电信、零售) 应用需求等优势。近年来,随着大数据分析竞争日趋激 烈,该类厂商成为传统 IT 巨头的争夺焦点,早在 2007 年至 2009 年,Oracle、SAP、IBM 等 IT 巨头就已完成 对商务智能前四大厂商 Hyperion、Business Objects、 Cognos、SPSS 的并购。 商务智能专业厂商在大数据时代的发力点在结构 化数据处理。在大数据时代,这些厂商开始加大在高可 扩展计算、非结构化数据处理、以及与业务运营集成 的实时处理(即操作型商务智能)等方面的投入和创 新。例如,SAS 在 2012 年推出了基于内存计算的高性 能数据分析方案,核心部件包括: SAS 高性能分析服务 器 [13]、SAS 可视化分析 [14] 和 SAS DataFlux 数据流处 理引擎 [15]。SAS 高性能分析服务器采用库内分析和内
SCIENCE&TECHNOLOGY FOR DEVELOPMENT
和 Oracle Exalytics 商务智能云服务器
[10]
,
形成了 ORACLE 企业级端到端大数据的产品线。 通过收购 Vertica 公司,惠普推出针对大数据的 Vertica 6.1 数据分析平台
[11]
,突破了传统数据仓库和
数据库无法实现纵向扩展的瓶颈。在大数据管理方面, Vertica 信息优化平台实现高速度、高性能、高可扩展,
53
ie ty
Focus on China
中
国
高
技术
产业发展促
进
会
hi na
C
中
国
高
技术
产业发展促
进
会
hi na H
c So igh -Tec on h Industry Promoti
存计算两种解决方案。库内分析技术在数据库内实现分 析的过程,用户过去开发的 SAS 程序可以直接移植使 用,而且这样的分析过程无需提取数据,避免了数据传 输的额外开销,分析能力极大地提高。内存计算技术则 利用大内存服务器的优势,减少数据从硬盘加载到内存 的机会,把数据和分析程序直接放置在内存中执行,特 别适合具有迭代和嵌套模式的分析算法,极大地提高了 建模处理的速度。除此之外,SAS 公司最新推出的高 性能分析解决方案还采用了“SAS Visual Analytics” 技术,即可视化分析,让用户及时地查看分析结果。 Teradata 公司针对大数据处理提出了统一数据架 构 (Teradata Unified Data Architecture,UDA) 的 Aster 大数据分析平台
[17] [16]
ie ty
关注中国
Facebook 目前运行着世界上最大的 Hadoop 服务 器集群,存储的数据超过了 100PB,每 30 分钟可以处 理的数据超过了 105TB。然而,爆炸式增长的数据使 Facebook 的 Hadoop 服务器集群难以承受,出现数据 雪 崩 问 题 (avalanche of data)。 为 此,Facebook 开 发出两种全新软件平台处理大数据的挑战,第一种叫 做 “Corona ( 日冕 )”[24],它可以实现在数目庞大的 Hadoop 服务器之间运行大量的任务,并且不用担心软 件错误会导致整个服务器集群出现崩溃。第二种叫做 “Prism ( 棱镜 )”[25],它实现了不同地域服务器的数据 自动复制和传输,使 Facebook 遍布全球数据中心的 Hadoop 服务器集群的数据得到同步,形成更加庞大的 Hadoop 数据集群。 云计算服务提供商 Amazon 推出了 Amazon 弹性 MapReduce(Amazon Elastic MapReduce)[26]。弹性 MapReduce 是一项能够迅速扩展的 Web 服务,运行在 亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储 服务平台上(Amazon S3)上。作为业界领先的云计 算服务提供商,Amazon 提供网页检索、日志分析、数 据挖掘、金融建模等数据密集型的任务需要的弹性云 服务,动态地满足用户对于计算资源的需求。 相对于国外互联网企业在大数据技术上的不断创 新,国内互联网企业主要在大数据应用模式上创新。阿 里巴巴利用旗下淘宝网的历史交易数据,推出了“淘 宝指数”[27],商家可以参考该指数指导生产、制定价格 和控制库存。百度面对大数据时代企业需求,从数据、 工具及应用三个层面规划大数据时代的企业战略。腾 讯利用自身强大的社会网络通讯平台资源,通过大数 据技术挖掘社会网络中的商业价值,实现了不同产品 营销平台,为用户推荐感兴趣的产品和内容。 综上所述,当前的大数据技术领域以产业引领为 主,在大数据集中的领域推出相应的产品和服务。学 术界主要围绕其中的难点问题展开基础性研究 [2]。 目前, 围绕大数据的科学研究、技术创新、系统开发和实际 应用刚刚起步,无论产业界还是学术界,正处在群雄 并起的 “大数据春秋时期” 。可以预计, 在未来五至十年, 大数据领域将会发展成若干核心团队、公司、典型应 用的“大数据战国时代” 。
公司统一数据架构在数据管理方面的优势,它与大数据 的收集、处理等工作紧密相连,为企业提供一个完善 的数据源。UDA 通过 Hadoop 实现数据存储管理,通 过 Aster 实现数据探索和分析,通过 Teradata 实现统 一的数据架构,将存储、分析与整合相互结合,实现 大数据价值的一个完整的闭环。 商务智能专业厂商(如 SAS、Teradata)凭借在 数据分析领域的长期积累,在大数据的分析建模方面 仍然处于行业领导地位。但是,这些产品的大数据处 理能力往往依赖于高性能服务器的处理能力,虽然他 们也在向 Hadoop 等分布式平台迁移,但是实际的效果 还有待观察。 3. 互联网公司 大型的互联网巨头,如国外的 Google、Facebook、 Amazon,国内的阿里巴巴、百度、腾讯等,基于自身 海量的用户信息和互联网处理平台,依托大数据提供精 准营销和个性化广告推介等商业活动。十年前,Google 发表的 GFS(Google File System) 、MapReduce 和 BigTable
[20] [18] [19]
Hadoop。 目 前,Google 通 过 自 身 开 发 的 Caffeine 平 台 [21],直接将索引放置在分布式数据库 BigTable 上。 Google 还向用户提供了大数据的虚拟服务器业务, 用 户 可 以 把 数 据 上 传 到 Google, 采 用 Google 提 供 的 BigQuery
[22]
础设施完成数据查询和分析。 54
科技促进发展 ★ 2014年 第10卷 第1期
C
下
。该平台继承了 Teradata
论文催生了大数据处理的事实标准
和 Google Compute Engine
[23]
等服务和基
Hig
h-Te ch Industry Promotio
oc nS
二、大数据分析平台体系架构
大数据没有一个明确的定义,是一个相对的概念, 取决于当前所具有的数据处理能力。如果一个用户所面 对的数据超出该用户所拥有的数据存储、处理和分析 的能力,致使该用户不能有效地利用数据,该用户就 面对大数据问题。在大数据时代,个人、企业和机构 都会面临大数据的问题。建设面向服务的大数据平台, 为众多的中小企业和个人用户提供大数据处理和分析 的能力,将成为大数据产业发展的重要方向。 面向服务的大数据分析平台以区域性智能数据中 心及高速互联网为基础设施,以互联网服务体系为架 构,以大数据存储、处理、挖掘和交互式可视化分析 等关键技术为支撑,通过多样化移动智能终端及移动 互联网为用户提供数据存储、管理及分析服务。 大数据分析平台的拓扑架构如图 1 所示。其中部
署在多个地方的智能数据中心提供大数据存储及计算 平台,通过平台服务器提供系统调用功能。门户服务中 心将整合所有的智能数据中心存储和计算资源,并通 过 web 应用服务器和 Open API 服务器以 web 调用和 Open API 调用的方式提供大数据存储、管理及挖掘服 务。终端用户利用移动智能终端通过互联网访问门户 服务中心, 使用其提供的大数据存储、 管理及挖掘服务。 大数据分析平台的系统架构如图 2 所示。系统包 含 3 个层次: 平台层为整个大数据分析平台提供基础平 台支持; 功能层提供基本的大数据存储和挖掘功能; 服 务层为用户提供基于互联网的大数据服务。具体包括: (1)平台层: 为大数据存储和挖掘提供大数据存储 和计算平台,为多区域智能中心的分析架构提供多数 据中心调度引擎; (2)功能层: 为大数据存储和挖掘提供大数据集成、
˙˜ ˚ ——˜ • †…˚‰ ¸¸ª˘‰ ¤
¶¸ ˆ»§
ˇ ˝‡¶ ˝ ‰ ¿
´• +• » ˙‰
˘¶fl Ł–‚
¸¸ª…fl¨”
¸ª•¤¿
PC ¿˝»§¶¸
˘‰ ¤• ˛æ˘ ˚ · ·¢˘‰ ¤
˚
· ·¢…fl¨”
“˚ ˚ • ˛æ˘
¿
ˆ¯»§• ˛æ ——˜ ... ´• +• » ˙‰ ´• +• » ˙‰
ˇ ˝‡¶ ˝ ‰ ¿ ˙˜ ˚ ——˜ • †…˚‰ ¸¸ª˘‰ ¤
´• +• » ˙‰
Web ƒ ˆ• ˛æ˘
Open API • ˛æ˘
˘‰ ¤• ˛æ˘
¸¸ª…fl¨”
¸ª•¤¿
˚
· ·¢˘‰ ¤
¶¨ ——˜
˚
· ·¢…fl¨”
“˚ ˚ • ˛æ˘
¿
图1
大数据分析平台拓扑示意图
SCIENCE&TECHNOLOGY FOR DEVELOPMENT
55
ie ty
Focus on China
中
国
高
技术
产业发展促
进
会
hi na
C
中
国
高
技术
产业发展促
进
会
hi na H
c So igh -Tec on h Industry Promoti
ie ty
关注中国
建基于多智能中心的大数据服务平台。
存储、管理和挖掘功能; (3)服务层: 基于 Web 和 Open API 技术提供大 数据服务。
发一系列关键技术(如图 3 所示) ,主要包括: 1. 平台层 (1)大数据分布式存储系统: 针对数据不断增长的 挑战,需要研究大规模、非结构化数据的存储问题,突 破大数据的存储、管理和高效访问关键技术,当前需 要构建至少 PB 级存储能力的大数据平台才能满足一般 的科研和应用需求。 (2)分布式数据挖掘运行时系统: 针对大数据挖掘 算法运行的挑战,突破 MapReduce 技术的局限,研究 有效支持迭代、递归、层次及集成机制的海量数据挖 掘编程模型和运行时系统,构建大数据运行时系统。 (3)智能数据中心联合调度技术: 针对大数据存储 和挖掘的挑战,研究多数据中心的智能联合调度、负载 均衡技术,整合多个数据中心的存储和计算资源,构 56
科技促进发展 ★ 2014年 第10卷 第1期
C
服务层
大数据Web服务
大数据OpenAPI 服务
2. 功能层 (1)高可扩展性大数据挖掘算法: 针对大数据挖掘 的挑战,研究基于云计算的分布式大数据处理与挖掘 算法,构建高可扩展的大数据处理与挖掘算法库,实 现 TB 级数据的建模能力。 (2) 大数据安全与隐私保护技术: 针对数据挖掘 “软 件即服务” (SaaS)模式的需求,研究开发数据挖掘在 云环境下的隐私保护、数据审计和节点数据挖掘技术, 确保大数据挖掘过程中的数据安全,保证用户的隐私 不被泄露。 (3)分布式工作流引擎: 针对大数据挖掘分布式调 度的挑战,研究基于云计算的分布式工作流调度、负 载均衡技术,构建高效分布式工作流执行引擎。 (4)交互式可视化分析技术: 针对传统分析方法交 互性和可理解性不足的问题,研究启发式、人机交互、 可视化数据挖掘新技术,实现大数据挖掘的高度人机 交互功能。 3. 服务层 (1)基于 Web 的大数据挖掘技术: 突破传统的基 于单机软件的数据挖掘技术,创新基于 Web 的大数据 挖掘方法和流程,实现易于使用的基于 Web 的大数据 挖掘技术,构建基于 Web 的大数据分析环境。 (2)基于 Open API 的大数据挖掘技术: 突破传统 的基于软件的数据挖掘技术,创新基于 Open API 的 大数据挖掘方法, 研究大数据挖掘开放接口、 开放流程, 构建基于 Open API 的大数据分析模式。 为广大用户提供大数据处理和分析的服务功能, 大数据分析平台要突破传统的基于软件和高端服务器 的数据挖掘传统技术体系,采用基于云计算的大数据 存储和处理架构、分布式数据挖掘算法和基于互联网 的大数据存储、处理和挖掘服务模式。实现这一目标 需要做如下创新: (1)系统架构创新: 突破传统的基于软件和高端服 务器的数据挖掘技术体系,研发基于互联网和云计算 的大数据存储、处理和挖掘的数据中心系统架构,支 持多用户、多任务的大数据分析环境; (2)服务模式创新: 突破传统的一次性软件销售或
功能层
大数据 集成 大数据存 储平台
大数据 存储
大数据 管理
大数据 挖掘
多数据中心 调度引擎
平台层
大数据计 算平台
图2
大数据分析平台系统架构
基于 OpenAPI的大 数据挖掘技术
服务层 功能层
基于Web的大数据 挖掘技术
高可扩展 性大数据 挖掘算法
大数据安 全与隐私 保护技术
分布式工 作流引擎
交互式可 视化分析 技术
平台层
大数据分布式 存储系统
分布式数据挖 掘运行时系统
智能数据中心 联合调度技术
图3
大数据分析平台关键技术
三、大数据分析平台关键技术
建设面向服务的大数据分析平台,需要研究和开
Hig
h-Te ch Industry Promotio
oc nS
软件租赁的高价格解决方案,创新基于互联网的大数 据存储、处理和分析服务模式,为用户提供按需、廉 价的大数据存储、处理和分析服务; (3)使用模式创新: 突破传统的使用单机软件的方 式,创新基于互联网的大数据存储、管理和分析服务, 提供多终端(台式机、笔记本、平板电脑、手机等) 、 多途径(浏览器访问,Open API 调用等)的用户使用 模式。
策略不仅符合大数据应用的发展趋势,同时也满足中 小企业和个人用户对于数据分析系统的可用性、时效 性和低成本等方面的要求。 目前,在大数据处理与分析领域,国际上三支主 要力量在不断地竞争与融合,即大型互联网公司(如 Google、Amazon) 、 传 统 商 务 智 能 公 司( 如 SAS、 SPSS) 和 传 统 IT 公 司( 如 IBM、ORACLE、SAP) 。 三方从各自优势出发,不断增强针对大数据的分析智能 性、计算扩展性和非结构化数据处理能力。尽管一些 公司在上述领域取得突破并抢得市场先机,但国际大 数据产业整体上仍然处于起步阶段,据 IDC 公司预测 未来 5 年大数据分析产业年增长率高达 9.8%,到 2016 年全球产业规模将超过 500 亿美元。同时,越来越多的 大数据创新公司不断涌现并发展迅速,也证明了该领 域蕴含着巨大的发展潜力和广阔的市场前景。 大数据分析平台所采用的技术路线和应用模式融 合了智能分析技术、高可扩展计算技术、非结构化数据 处理技术和软件即服务(SaaS)应用模式,符合当前 国际大数据产业的发展趋势和产业化应用要求。一方 面,系统通过互联网服务方式向用户提供高可用、高易 用和一站式的海量数据分析服务,可有效降低企业应用 门槛和成本,通过专业化服务外包满足企业个性化需 求。另一方面,由于是开放架构的系统平台,商业用 户和其他软件提供商可通过系统提供的互联网服务开 发接口(Open API)开发面向行业商务智能应用的解 决方案, 孵化新型咨询公司、 软件公司和信息服务公司, 有助于形成以平台为核心的大数据分析产业生态环境。
四、大数据分析平台应用与产业化
商业应用是大数据分析平台的发展目标。随着我 国企业信息化程度和水平不断提高,越来越多的企业 需要大数据分析的能力以提高竞争力。在互联网、电 子商务、金融、电信、零售、物流等数据驱动型行业, 客户分群、客户行为分析、客户关系管理、市场营销、 广告投放、业务优化、风险管理等企业核心业务越来越 依赖于对数据的有效分析与挖掘。正如在《大数据: 国 家选择与产业方向》一书中所说, “大数据时代公司的 价值,与其拥有的数字资产的规模、活性成正比,与 其解释、运用数据的能力成正比” 。因此,如何从海量 业务数据中挖掘有价值的信息和知识,从而指导商业 运营与决策、提高企业运营效率和盈利能力,成为每 个企业都将面临的重要挑战。 大数据分析平台基于分布式海量数据存储与计算 环境,提供图形化交互式数据处理和分析工具,丰富 的数据分析与挖掘算法,以及交互式可视化分析工具, 通过互联网服务方式向用户提供服务。这种系统实现
参考文献:
[1] Tom Kalil. Big Data is a Big Deal, March 29, 2012. Available at: http://www.whitehouse.gov/ blog/2012/03/29/big-data-big-deal. [2] 黄哲学, 曹付元, 李俊杰, 陈小军 面向大数据的 海 云 数 据系 统 关 键 技 术 研 究 . 网 络 新 媒 体 技 术 2012(6):20-26. [3] Big Data Analytics with IBM Cognos Dynamic Cubes, Available at: http://www.redbooks.ibm. com/technotes/tips0942.pdf. [4] Per forming a data min ing tool evaluation, Av a i l a b l e a t : h t t p : // p u b l i c . d h e . i b m . c o m /c o m m o n /s s i /e c m /e n /i mw143 0 0 u s e n / IMW14300USEN.PDF. [5] IBM Netezza Analytics, Available at: http:// w w w- 01. ib m .c om /s of t w a r e/d at a/n e t e z z a/ analytics/ . [6] What’s New in IBM InfoSphere BigInsights V2.0, Available at: http://www-01.ibm.com/
SCIENCE&TECHNOLOGY FOR DEVELOPMENT
57
ie ty
Focus on China
中
国
高
技术
产业发展促
进
会
hi na
C
中
国
高
技术
产业发展促
进
会
hi na H
c So igh -Tec on h Industry Promoti
software/data/infosphere/big insights/whats_ new.html. [7] IBM PureData System for Analytics N1001, Av a i l a b l e a t : h t t p : // p u b l i c . d h e . i b m . c o m /c o m m o n /s s i /e c m /e n /i m d 14 4 0 0 u s e n / IMD14400USEN.PDF. [8] O R AC L E E X A L O G IC E L A S T IC C L OU D , Av a i l a b l e a t : h t t p : // w w w . o r a c l e . c o m /u s /p r o d u c t s /m i d d l e w a r e /e x a l o g i c / e x a l o g i c - e l a s t i c - c l o u d-x 2-2- d s -13 6 7 8 0 5. pdf?ssSourceSiteId=ocomcn. [9] ORACLE EXADATA DATABASE MACHINE, Av a i l a b l e a t : h t t p : // w w w. o r a c l e . c o m / technetwork/server-storage/engineered-systems/ exad at a/dbmach i ne-x 2-8-d at ashe et-173705. pdf?ssSourceSiteId=ocomcn. [10] ORACLE EXALYTICS IN-MEMORY MACHINE: A BRIEF INTRODUCTION, Available at: http:/ / www.oracle.com/us/solutions/ent-performancebi/business-intelligence/exalytics-bi-machine/ overview/exalytics-introduction-1372418.pdf. [11] HP Vertica 6.1 Boosts Big Data Value, Available at: ht t p://w w w.hp.c om/ hpi n fo/new sroom/ press_kits/2012/HPDiscoverFrankfurt2012/HP_ Vertica_6.1_NA.pdf [12] EMC Greenplum Data Computing Appliance Enhances EMC IT’s Global Data Warehouse, Available at: http://www.emc.com/collateral/ software/white-papers/h8869-emc-greenplumdca-oracle-gdw-wp.pdf. [13] SAS High-Performance Analytics Server, SAS White Paper, Available at: http://www.sas. com/resources/whitepaper/wp_41948.pdf. [14] SAS Visual Analytics: User's Guide, Available at: http://support.sas.com/documentation/cdl/ en/vaug/65524/PDF/default/vaug.pdf. [15] Big Data Meets Big Data Analytics, SAS White Pap er, Ava i l able at: ht t p://w w w.s as.c om/ resources/whitepaper/wp_46345.pdf.
ie ty
关注中国
[16] Te r a d a t a I n t e g r a t e s B i g D a t a A n a l y t i c Architecture, Available at: http:/ /www.teradata. com/News-Releases/2012/Teradata-IntegratesBig-Data-Analytic-Architecture/ . [17] Terad at a Ast er Dis c over y Pl at for m O f fer s Power fu l Dat a Scienc e Solution i n a Box, Available at: http://www.asterdata.com/news/ t e r ad at a-a s t e r-d i s c ove r y-pl at for m-of fe r s powerful-data-science-solution.php. [18] Sanjay Ghemawat, Howard Gobioff, and ShunTak Leu ng. 2003. The Goog le fi le system. SIGOPS Oper. Syst. Rev. 37, 5, pp. 29-43. [19] Jef frey Dean and Sanjay Ghemawat. 2008. MapReduce: simplified data processing on large clusters. Commun. ACM 51, pp. 107-113. [20] Fay Chang, Jeffrey Dean, Sanjay Ghemawat, Wilson C. Hsieh, Deborah A. Wallach, Mike Burrows, Tushar Chandra, Andrew Fikes, and Robert E. Gruber. 2008. Bigtable: A Distributed Storage System for Str uctured Data. ACM Trans. Comput. Syst. 26, 2, pp. 26. [21] Paul Martin, Caffeine-The New Google Update, Available at: http://www.wearecube3.com/blog/ article/caffeine-the-new-google-update/ . [22] Google BigQuery Real-time big data analytics in the cloud, Available at: https://cloud.google. com/files/BigQuery.pdf. [23] Google Compute Engine computation in the cloud, Available at: https://cloud.google.com/ files/GoogleComputeEngine.pdf. [24] Facebook open sources Corona -- a better way to do webscale Hadoop, Available at: http:// gigaom.com/2012/11/08/facebook-open-sourcescorona-a-better-way-to-do-webscale-hadoop/ . [25] Facebook’s Project Prism is reimagining how big data scales, Available at: http:/ /venturebeat. com/2012/08/22/facebook-prism/ . /aws.amazon.com. [26] http:/ /shu.taobao.com. [27] http:/
Service Oriented Big Data Analytics Platform
Joshua Zhexue Huang, Xiaojun Chen, Junjie Li, Qiang Wang Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518060 58
科技促进发展 ★ 2014年 第10卷 第1期
C
Hig
h-Te ch Industry Promotio
oc nS
Abstract: This paper proposes a service oriented big data analytics platform solution that is intended to satisfy the high demands of the growing number of users who require to access big data analytical tools to solve big data analysis problems. The platform is designed based on the infrastructure of internet and intelligent data centers. The current status of big data technology in industry is first reviewed. Then, the topological architecture of the service oriented platform is given. After that, the functional structure and the key technologies required for building the platform are discussed. In the end, potential applications of the platform in industry are discussed. Keywords:Big Data, Big data analytics, Analytical platform, Internet Service ( 责任编辑: 何岸波,张志华; 责任译审: 龚 宇 )
SCIENCE&TECHNOLOGY FOR DEVELOPMENT
59
ie ty
Focus on China
中
国
高
技术
产业发展促
进
会
hi na
C