xxxx 大数据实验室
建设方案
1
目 录
1 2
建设目标....................................................... 3 配置方案....................................................... 3 2.1 2.2 2.3 2.4 2.5 2.6 2.7 3
已有资源 . .................................................................................................... 3 扩容资源需求 . ............................................................................................ 4 物理服务器扩容配置 . ................................................................................ 4 磁盘阵列扩容配置 . .................................................................................... 5 FC SAN网络扩容配置 . ............................................................................. 6 IP 网络扩容配置 ........................................................................................ 6 扩容配置清单 . ............................................................................................ 7
部署方案....................................................... 8 3.1 3.2 3.3 3.4
系统架构 . .................................................................................................... 8 IP 网络部署 ................................................................................................ 9 Hadoop 集群部署 ....................................................................................... 9 部署计划 . .................................................................................................. 10
4 Hadoop 教学培训方案 ........................................... 11 4.1 4.2
Hadoop 教学优势 ..................................................................................... 11 课程以及考核安排 . .................................................................................. 11 4.2.1 相关教材 ......................................................................................... 11 4.2.2 课程大纲 ......................................................................................... 13 4.2.3 考核安排 ......................................................................................... 16 4.2.4 证书认证 ......................................................................................... 16
1 建设目标
xxxx 软件学院已经建设了云实验平台,在该平台上实现了编程教学实验、数据库实验以及网盘应用系统;该平台技术上采用服务器虚拟化技术通过云管理平台实现了实验环境的快速部署;虚拟化平台基于磁盘阵列集中存储,采用FC SAN网络架构。
现规划建设一个Hadoop 大数据实验室,使用已经建设好的平台,通过扩展资源池的方式部署,利用现有服务器虚拟化平台虚拟出大量虚拟机用于构建Hadoop 集群,主要用于学生实验以及科研用途。假定建设目标和规模如下:
建设目标:建设成校级实验室,满足学生做大数据实验和教师大数据科研。 建设规模:系统支持100个左右的虚机同时运行,性能满足学生大数据实验需求。
扩展性需求:系统需具备良好扩展能力,可以方便扩展系统容量和性能,以满足更多实验和科研需求。
2 配置方案
本章节对构建大数据实验室所需要的硬件资源进行配置,从大数据实验资源需求出发来分析构建大数据实验室需要对现有物理服务器、磁盘阵列、FC 交换机、IP 网络交换机的资源做哪些扩容。
2.1 已有资源
云实验平台已经部署了10多台2路物理服务器,通过1台FC 交换机与1台磁盘阵列连接;现有物理计算资源可以支撑同时运行200个虚机(1个LCPU 、
4GB 内存、30GB 虚拟磁盘),现有磁盘阵列的存储资源主要提供虚机存储空间和网盘存储空间。
2.2 扩容资源需求
对资源需求进行估算是虚拟化系统硬件配置的基本依据。在大数据实验室中,资源可分为两大类:一类是运行时系统需要的资源,它决定了系统能支持同时运行多少个虚机,该情形主要关注物理服务器的CPU 资源、内存资源和磁盘阵列的IOPS 资源,磁盘IOPS 资源在大数据实验中需求相对较高;另一类是系统可以“存放”多少个虚机,这主要关注磁盘阵列的存储容量。
运行资源
假定虚机规格如下表中所示,该规格满足大数据实验环境下对性能的需求;则200个虚机同时运行,需提供下表中所需资源。
当然,对于Hadoop 集群中的Master 虚机应当配置大些内存,比如8GB 。 存储容量
磁盘阵列存储空间由需要多少个虚机和虚机磁盘大小决定,假定虚机磁盘规格如下表所示、需要存放500个虚机,总共需要约210TB 的存储空间。
2.3 物理服务器扩容配置
作为虚拟化主机的物理服务器,目前可选择的配置主要有2路和4路,综合
考虑CPU 利用率、网络成本等因素,我们建议选择2路服务器作为虚拟化主机,2路较4路将提供更好的性价比。
首先计算总共需要多少物理的CPU 资源和内存资源,计算以上述“运行资
源”为基本依据,并考虑物理资源的80%用作运行虚拟机。
物理服务器规格和所需数量如下表所示。
根据估算,需要新增7台2路物理服务器即可满足计算性能需求,本项目中我们实际配置上述规格的物理服务器8台。
2.4 磁盘阵列扩容配置
磁盘阵列作为虚拟化系统后端共享存储,主要考虑IOPS 性能和存储空间的要求。存储空间显然容易配置,而IOPS 存在诸多变数,这是个无法准确估算的指标,为了使系统具备较好的性能,我们进行了仔细考量。
依据2.2节所估算的IOPS 性能要求和存储空间要求,估算系统需要多少块SAS 磁盘。
同时满足IOPS 性能和容量需求需要新增约120块SAS 盘,这个投资显得过高。为了降低存储上的投资,我们采取如下配置和部署的策略:
第1:使用高性能SSD 盘结合SAS 盘,提供较SAS 盘更好的性能;该部分的空间主要用于虚机的系统盘。
第2:使用高性能SSD 盘结合大容量SATA 盘,主要满足系统容量的需求,并提供了接近SAS 盘的性能;此部分存储空间主要用于虚机的数据盘。
现有磁盘阵列扩容配置配置如下表:
2.5 FC SAN网络扩容配置
由于新增加了8台物理服务器,FC 交换机需要新增加激活端口和相应模块,数量为8个。
2.6 IP网络扩容配置
原交换机为48个千兆网口,从端口数量上来说资源是够的,但是在大数据实验环境中,虚机之间存在大量的东西向数据流量,因此我们设计增加一台24口的千兆交换机用于大数据集群后端网络流量通道。
2.7 扩容配置清单
构建满足100个虚机同时运行的大数据实验平台,需要对现有云实验平台物理资源进行扩容,扩容包括:新增8台物理服务器、磁盘阵列添加SSD/SAS/SATA盘、FC 交换机增加激活端口、新增1台24口IP 交换机,详细扩容配置清单如下表:
3 部署方案
3.1 系统架构
系统架构在扩容前后基本没有变化,扩容后的整个虚拟化系统部署架构如下图所示。
与原先区别主要是资源池扩充了,新增的物理服务器构成一个新的集群,并且通过新增加一台千兆交换机构成大数据实验虚机后端网络流量通道。
3.2 IP网络部署
本项目中对于IP 网络的部署设计,除了考虑vSphere 环境下一般性的部署注意事项外,还需要注意由虚机构成的Hadoop 集群对IP 网络的需求。
上图是一台物理服务器的虚拟网络和物理网络连接示意图。
每个虚机配置2个虚拟千兆网口,一个用于虚机前端业务流量,一个用于Hadoop 集群后端流量,虚拟交换机vSwitch1和vSwitch2技术上可以使用一台、可以配置为标准虚拟交换机或分布式虚拟交换机,为了清晰和降低难度,建议配置为2个标准虚拟交换机;vSwitch0和vSwitch1上行链路可以互为备份,vSwitch1和vSwitch2的上行链路可以互为备份;物理服务器4个网口连接到2台堆叠的物理交换机。这种部署设计实现了IP 网络全冗余,提供了故障切换和网络负载均衡功能。
3.3 Hadoop集群部署
通过虚机部署Hadoop 集群,当然需要评估虚机资源的需求,即使评估有误
也无关系,虚拟化的一大好处就在于资源可以灵活调整。
在部署和使用虚机时,我们可以结合使用虚机模板、虚机克隆、虚机快照等技术为创建和使用实验环境提供便利。
Hadoop 集群包含了Master 节点和Slave 节点,可以进行Hadoop 部署实验、HDFS 实验、MapReduce 实验、HBase 实验、Hive 实验等。下表是节点虚机配置参考。
本项目部署时,需要注意一个细节点是:我们应该尽量将一个Hadoop 集群内的所有虚机运行在一台物理服务器上,避免IP 流量流出物理服务器。
3.4 部署计划
下表给出本项目部署实施的一些主要任务和时间预估。
xxxx 大数据实验室
建设方案
1
目 录
1 2
建设目标....................................................... 3 配置方案....................................................... 3 2.1 2.2 2.3 2.4 2.5 2.6 2.7 3
已有资源 . .................................................................................................... 3 扩容资源需求 . ............................................................................................ 4 物理服务器扩容配置 . ................................................................................ 4 磁盘阵列扩容配置 . .................................................................................... 5 FC SAN网络扩容配置 . ............................................................................. 6 IP 网络扩容配置 ........................................................................................ 6 扩容配置清单 . ............................................................................................ 7
部署方案....................................................... 8 3.1 3.2 3.3 3.4
系统架构 . .................................................................................................... 8 IP 网络部署 ................................................................................................ 9 Hadoop 集群部署 ....................................................................................... 9 部署计划 . .................................................................................................. 10
4 Hadoop 教学培训方案 ........................................... 11 4.1 4.2
Hadoop 教学优势 ..................................................................................... 11 课程以及考核安排 . .................................................................................. 11 4.2.1 相关教材 ......................................................................................... 11 4.2.2 课程大纲 ......................................................................................... 13 4.2.3 考核安排 ......................................................................................... 16 4.2.4 证书认证 ......................................................................................... 16
1 建设目标
xxxx 软件学院已经建设了云实验平台,在该平台上实现了编程教学实验、数据库实验以及网盘应用系统;该平台技术上采用服务器虚拟化技术通过云管理平台实现了实验环境的快速部署;虚拟化平台基于磁盘阵列集中存储,采用FC SAN网络架构。
现规划建设一个Hadoop 大数据实验室,使用已经建设好的平台,通过扩展资源池的方式部署,利用现有服务器虚拟化平台虚拟出大量虚拟机用于构建Hadoop 集群,主要用于学生实验以及科研用途。假定建设目标和规模如下:
建设目标:建设成校级实验室,满足学生做大数据实验和教师大数据科研。 建设规模:系统支持100个左右的虚机同时运行,性能满足学生大数据实验需求。
扩展性需求:系统需具备良好扩展能力,可以方便扩展系统容量和性能,以满足更多实验和科研需求。
2 配置方案
本章节对构建大数据实验室所需要的硬件资源进行配置,从大数据实验资源需求出发来分析构建大数据实验室需要对现有物理服务器、磁盘阵列、FC 交换机、IP 网络交换机的资源做哪些扩容。
2.1 已有资源
云实验平台已经部署了10多台2路物理服务器,通过1台FC 交换机与1台磁盘阵列连接;现有物理计算资源可以支撑同时运行200个虚机(1个LCPU 、
4GB 内存、30GB 虚拟磁盘),现有磁盘阵列的存储资源主要提供虚机存储空间和网盘存储空间。
2.2 扩容资源需求
对资源需求进行估算是虚拟化系统硬件配置的基本依据。在大数据实验室中,资源可分为两大类:一类是运行时系统需要的资源,它决定了系统能支持同时运行多少个虚机,该情形主要关注物理服务器的CPU 资源、内存资源和磁盘阵列的IOPS 资源,磁盘IOPS 资源在大数据实验中需求相对较高;另一类是系统可以“存放”多少个虚机,这主要关注磁盘阵列的存储容量。
运行资源
假定虚机规格如下表中所示,该规格满足大数据实验环境下对性能的需求;则200个虚机同时运行,需提供下表中所需资源。
当然,对于Hadoop 集群中的Master 虚机应当配置大些内存,比如8GB 。 存储容量
磁盘阵列存储空间由需要多少个虚机和虚机磁盘大小决定,假定虚机磁盘规格如下表所示、需要存放500个虚机,总共需要约210TB 的存储空间。
2.3 物理服务器扩容配置
作为虚拟化主机的物理服务器,目前可选择的配置主要有2路和4路,综合
考虑CPU 利用率、网络成本等因素,我们建议选择2路服务器作为虚拟化主机,2路较4路将提供更好的性价比。
首先计算总共需要多少物理的CPU 资源和内存资源,计算以上述“运行资
源”为基本依据,并考虑物理资源的80%用作运行虚拟机。
物理服务器规格和所需数量如下表所示。
根据估算,需要新增7台2路物理服务器即可满足计算性能需求,本项目中我们实际配置上述规格的物理服务器8台。
2.4 磁盘阵列扩容配置
磁盘阵列作为虚拟化系统后端共享存储,主要考虑IOPS 性能和存储空间的要求。存储空间显然容易配置,而IOPS 存在诸多变数,这是个无法准确估算的指标,为了使系统具备较好的性能,我们进行了仔细考量。
依据2.2节所估算的IOPS 性能要求和存储空间要求,估算系统需要多少块SAS 磁盘。
同时满足IOPS 性能和容量需求需要新增约120块SAS 盘,这个投资显得过高。为了降低存储上的投资,我们采取如下配置和部署的策略:
第1:使用高性能SSD 盘结合SAS 盘,提供较SAS 盘更好的性能;该部分的空间主要用于虚机的系统盘。
第2:使用高性能SSD 盘结合大容量SATA 盘,主要满足系统容量的需求,并提供了接近SAS 盘的性能;此部分存储空间主要用于虚机的数据盘。
现有磁盘阵列扩容配置配置如下表:
2.5 FC SAN网络扩容配置
由于新增加了8台物理服务器,FC 交换机需要新增加激活端口和相应模块,数量为8个。
2.6 IP网络扩容配置
原交换机为48个千兆网口,从端口数量上来说资源是够的,但是在大数据实验环境中,虚机之间存在大量的东西向数据流量,因此我们设计增加一台24口的千兆交换机用于大数据集群后端网络流量通道。
2.7 扩容配置清单
构建满足100个虚机同时运行的大数据实验平台,需要对现有云实验平台物理资源进行扩容,扩容包括:新增8台物理服务器、磁盘阵列添加SSD/SAS/SATA盘、FC 交换机增加激活端口、新增1台24口IP 交换机,详细扩容配置清单如下表:
3 部署方案
3.1 系统架构
系统架构在扩容前后基本没有变化,扩容后的整个虚拟化系统部署架构如下图所示。
与原先区别主要是资源池扩充了,新增的物理服务器构成一个新的集群,并且通过新增加一台千兆交换机构成大数据实验虚机后端网络流量通道。
3.2 IP网络部署
本项目中对于IP 网络的部署设计,除了考虑vSphere 环境下一般性的部署注意事项外,还需要注意由虚机构成的Hadoop 集群对IP 网络的需求。
上图是一台物理服务器的虚拟网络和物理网络连接示意图。
每个虚机配置2个虚拟千兆网口,一个用于虚机前端业务流量,一个用于Hadoop 集群后端流量,虚拟交换机vSwitch1和vSwitch2技术上可以使用一台、可以配置为标准虚拟交换机或分布式虚拟交换机,为了清晰和降低难度,建议配置为2个标准虚拟交换机;vSwitch0和vSwitch1上行链路可以互为备份,vSwitch1和vSwitch2的上行链路可以互为备份;物理服务器4个网口连接到2台堆叠的物理交换机。这种部署设计实现了IP 网络全冗余,提供了故障切换和网络负载均衡功能。
3.3 Hadoop集群部署
通过虚机部署Hadoop 集群,当然需要评估虚机资源的需求,即使评估有误
也无关系,虚拟化的一大好处就在于资源可以灵活调整。
在部署和使用虚机时,我们可以结合使用虚机模板、虚机克隆、虚机快照等技术为创建和使用实验环境提供便利。
Hadoop 集群包含了Master 节点和Slave 节点,可以进行Hadoop 部署实验、HDFS 实验、MapReduce 实验、HBase 实验、Hive 实验等。下表是节点虚机配置参考。
本项目部署时,需要注意一个细节点是:我们应该尽量将一个Hadoop 集群内的所有虚机运行在一台物理服务器上,避免IP 流量流出物理服务器。
3.4 部署计划
下表给出本项目部署实施的一些主要任务和时间预估。