一体化综合监控平台
1
IT 监控运维管理面临的挑战
随着IT 系统对企业支撑作用日益明显,企业在IT 监控运维管理方面将面临更加严峻的挑战:
定制化应用故障最多,影响最大,监控需求最迫切
监控需求预知性差、突发性强、监控指标个性化、业务特征明显监控部署时效要求高、监控方法难以系统化
对监控的扩展能力要求越来越高,以确保IT 系统全生命周期的可持续化监控IT 系统生命周期不同阶段,呈现不同故障特征,监控需求持续变动定制化应用不断调整改造,导致应用监控需求持续变化新设备种类、新的监控指标不断涌现急需主动梳理IT 资源内部关联关系设备间影响密切,准确故障定位日益困难资源关联复杂,系统变更风险越来越高脆弱点隐蔽,单点故障风险难以控制急需知识沉淀与经验共享
急需全面监控与集中展现,集成用户已有各类监控工具
北京联华信科技有限公司专注于IT 运维相关领域的产品研发与服务长达十余年,自主研发的TeaView 一体化监控运维管理平台软件,独创性地以IT 资源配置管理为中心,基于自有的“通用监控对象模型”专利技术,构建具有灵活扩展能力的CMDB 配置库,并实现覆盖网络、服务器、数据库、中间件、应用、业务等全方位的一体化综合监控。该软件具有如下4大特色能力:
监控扩展能力____快速满足各种新的监控需求应用监控能力____个性化应用监控
资源梳理能力____全面掌握IT 资源关联关系经验沉淀能力____快速沉淀积累已有监控经验
上述优势从根本上保证了该软件能够对用户的IT 系统、个性化应用等提供有效、实用的监控运维管理。2006年:推出第一个版本并成功应用于北京邮政综合网监控2008年:中国邮政储蓄银行总行数据中心综合监控2010年:中国邮政储蓄银行34省分行省前置综合监控
2011年:中国邮政集团总公司及34省分公司邮政信息网全网综合监控
2011年:中国邮政储蓄银行建设国内首个小型机集群实现大型银行核心业务的“逻辑大集中工程”,提供该项目全网集中综合监控。
TeaView 一体化监控运维管理平台简介
通用监控对象模型——监控扩展能力的基石
为确保具有最大限度的扩展能力、满足IT 系统的可持续化监控需要,TeaView监控平台在内核设计上,采用了独有专利技术“通用监控对象模型技术”。通过该项技术,用户可快速、自定义新的监控对象种类、新的监控指标及获取方式等,满足个性化的监控需要。
通用监控对象——统一描述各种IT 资源
该模型将现实世界中的各种监控对象统一抽象为“通用监控对象”(亦称“设备”)。这些设备可以是实际的物理设备或其组件、软件系统或其组件,应用系统或其组件、以及根据监控需求抽象、组合出的逻辑监控对象等。设备属性划分
属性即为监控指标。每个设备的属性可划分为若干类,包括:
配置属性:设备的配置信息(如:CPU个数),一般变化较少,只有当系统配置发生变化时,配置属性发生变化。一般因需采集。
状态属性:设备的一组离散的状态值,表明监控对象的当前状态(如:Oracle数据库表空间的online、offline状态等),一般也是因需采集。
性能属性:随时间连续变化的属性(如:CPU利用率,随时间变化而变化),一般需要持续采集监控。事件通知:设备产生的事件通知,如:SNMP Trap事件等。
附加属性:用户可根据需要,自定义新的其他种类属性,典型如:各种资产属性等,根据自身的资产管理需求,定义新的资产指标。属性获取过程
任何一个监控对象的属性获得包括三个步骤:连接管理对象、属性获取动作、结果解析方式。通过通信协议连接管理对象
通过一定的通信协议与管理对象连接,如:SNMP、Telnet、SSH、JDBC、HTTP/HTTPS、FTP、SMTP、POP3、Tuxedo ATMI、WMI、WQL、JMX、MQI java(IBM MQ)、WLS、RS232/RS485等,或是特定的私有通信协议。获取属性动作
通过一定的动作完成。如:执行某个命令行、访问mib 库、执行某个SQL 语句、执行某个方法调用、体现用户经验的脚本、命令、自编程序等。结果解析规则
如:诸如字符串解析、拼装;数值结果的各种运算、以及更为复杂的处理逻辑等等。动态创建,实现因需监控
TeaView 监控平台针对监控采集所涉及的各类通信协议、指标获取动作、结果解析规则等,提供完整支持。同时,采用独特的对象封装技术,可将新的设备属性定义、属性获取方式定义等进行封装,动态生成新的设备种类。一旦封装完成,TeaView监控平台即获得了对该种类型设备的监控能力。
2
3
性能属性
配置方式定义新设备,快速满足监控需求
提供图形化交互界面,无需编程,通过简单配置方式,即可快速完成新的设备种类定义,获得新的监控能力,快速满足监控需求。
软件架构
监控综合管理
提供多种视图实时监控;精细化设置监控采集策略;告警处理中心集中处理主动轮询告警事件和接收的第三方告警事件;提供丰富报表统计。IT 资源管理
以“通用监控对象模型”为基础,构建CMDB;从机房、网络、主机、应用部署结构等多角度管理资源相互影响关系;提供配置查询与冲突分析服务、事件归并处理服务、监控展现视图。为故障定位、变更冲突分析、运维审计等提供根本保障。
采集层
资源
通过各种通信协议直接与设备交互,负责监控采集、配置信息采集。
功能特点
支持网络、主机、数据库、中间件、定制化应用的一体化综合监控通用监控对象模型统一描述各类设备,具有极强的监控扩展能力
配置方式实现监控的扩展,确保监控实施的高效便捷能将各种新的监控对象快速纳入监控范围充分满足个性化应用的监控需求
面向监控需要,构建具有灵活扩展能力的CMDB,确保ITSM 更加有效全面梳理IT 资源内部结构
机房资源、网络资源、主机服务资源、应用部署结构等多角度梳理图形方式管理设备间故障关联关系,利于故障准确定位提供配置变更冲突分析服务
可自定义复杂轮询报警策略,适应各种监控场景需要机房视图方式,直观管理机房空间资源、布线资源等辅助资源丰富的监控视图种类,多角度全面监控
可将各种已有监控经验(如:积累的各种脚本、程序、命令等)固化到监控平台中丰富的统计功能、完善的报表,为IT 服务容量管理、可持续性管理等提供数据支撑
技术特点
具有优良处理性能
以普通单台PC 服务器(32G/8C)为例,可支持1000个服务器、数据库、中间件等监控对象,可同时轮询约18000个监控指标。
具有良好结构伸缩性,支持集群部署、负载均衡,支持海量设备监控具备容灾切换机制,确保7*24平稳运行
支持分级、分布部署,适应集团客户、大型信息系统监控要求多种机制确保被监控系统的安全等级免遭影响
监控采集免安装插件
提供多种通信协议选择,充分适应用户环境制约。包括:SNMP、Telnet、SSH、JDBC、HTTP/HTTPS、FTP、SMTP、POP3、Tuxedo ATMI、WMI、WQL、JMX、MQI java(IBM MQ)、WLS等。全浏览器交互方式
采用通用监控对象模型专利技术,支持各类软硬件设备统一监控,具有极强灵活扩展性拥有良好集成能力,提供多种接口,与第三方监控系统集成,实现监控集中展现
产品价值
一体化监控运维平台,降低IT 管理投资规模
灵活的监控扩展能力,确保IT 监控的长期可持续化、节省IT 管理的未来投资快速满足监控需求能力,确保IT 系统稳定
全面提升故障定位能力,缩短故障修复时间,减少故障损失全面IT 结构梳理,减少变更冲突、降低单点故障风险加强运维经验的沉淀固化,降低人员流动风险支持应用业务监控,直接辅助业务管理
4
5
管理范围
网络设备管理
本监控平台基于SNMP 协议,对所有支持SNMP 的网络设备提供监控管理,如:Cisco、Baynetworks、Juniper、Foundry、Extreme、Avaya、3COM、Intel、Fore、Marconi、CableTron、Motorola、F5、华为、港湾等。提供的标准监控内容如下:针对标准交换设备,可监控:设备基本信息
设备名称、设备描述、厂商标识等。设备各端口MAC 地址列表、设备接口数量设备各端口配置及状态信息
端口号、端口配置及状态、各端口类型、各端口描述、各端口状态、各端口IP 地址、子网掩码等。端口性能数据
端口编号、端口名称;
端口速率(如:端口总速率、端口入速率、端口出速率);错包数(如:端口总错包数、端口入错包数、端口出错包数);错包率(如:端口总错包率、端口入错包率、端口出错包率);丢包数(如:端口总丢包数、端口入丢包数、端口出丢包数);丢包率(如:端口总丢包率、端口入丢包率、端口出丢包率);总带占比、带宽接收占比、带宽发送占比等。针对标准路由设备,可监控:设备基本信息
设备名称、设备描述、厂商标识等。设备各端口MAC 地址列表、设备接口数量当前路由设置及状态
路由表、路由地址、端口编号、路由类型、下一跳地址、目的地址掩码、路由来源机制等。设备各端口配置及状态信息
端口号、端口配置及状态、各端口类型、各端口描述、各端口状态、各端口IP 地址、子网掩码等。端口性能数据
端口编号、端口名称、端口速率、错包数、错包率、丢包数、丢包率、总带占比、带宽接收占比、带宽发送占比等。此外,在监控实施过程中,通过获取各设备的私有MIB,还可获取设备的CPU 性能监控(均值、峰值)、内存占用(均值、峰值)等。
主机系统管理
支持 HP-UX、Sun Solaris、Windows、 Linux、
IBM AIX、Sco Unix等操作系统的状态监控;帮
助运维人员实时的了解主机系统的运行情况;对监控到的指标及时报警, 保证主机系统的连续运行,降低故障时间。
主机系统管理包含了主机性能指标和系统配置指标,示例如右图所示。
用户可根据管理需求,随时通过配置方式添加新的指标。
操作系统监控参数
数据库监控管理
本监控平台提供了针对Oracle、Sybase、Informix、MS SQL Server、IBM DB2、Domino、Postgre SQL、MySQL等主流数据库提供监控管理。常规的监控种类包括如下:
数据库内存使用监控数据库状态和统计信息表空间状态及使用情况Cache 的命中率、使用情况数据库锁的使用情况数据库日志…
数据库监控参数
__Oracle
此外,监控人员还可通过配置方式,添加关心的监控指标,实施进一步的个性化监控。
中间件管理
本监控平台提供了针对Bea Tuxedo、Bea Weblogic、IBM WebSphere MQ、IBM WebSphere App Server、MS Exchange、MS IIS Server、Apache Server、Netscape Server、Tomcat、Oracle Application Server等主流中间件、应用服务器等的监控管理。常规的监控种类包括如下:应用服务器最大并发连接数客户端连接队列个数服务个数队列等待个数应用进程状态
Servlet 名称及访问URL
Servlet 被调用次数及最长、最短执行时间JDBC 连接池名称
JDBC 总连接数及最高活动连接数应用服务器监听端口
…
用户可根据管理需求,随时通过配置方式添加新的指标。
中间件监控参数__WebLogic
6
7
日志监控
支持系统日志、数据库日志、中间件日志、设备日志、应用日志等监控。通过标准工业协议syslog,从各种不同类型的日志整合到监控系统中,实现日志的集中过滤、分析、监控报警、安全审计等。可依据关键字扫描日志文件,并告警。
服务器硬件监控
本平台提供对各品牌服务器的硬件状态监控,包括:HP服务器、IBM 服务器、DELL 服务器、联想服务器、浪潮服务器等。可监控指标示例如图所示:
服务器硬件监控
VPN 监控
VPN 即虚拟专用网络,其功能是:在公用网络上建立专用网络,进行加密通讯。VPN网关通过对数据包的加密和数据包目标地址的转换实现远程访问。VPN有多种分类方式,主要是按协议进行分类。VPN可通过服务器、硬件、软件等多种方式实现。VPN具有成本低,易于使用的特点,目前在企业网络中有广泛应用。
本平台提供了VPN 结构视图展现功能,可直接展现VPN 网络结构,展现PE 设备和CE 设备之间的关系、 VPN网络设备之间的连接关系等,便于用户针对VPN 网络结构进行精细化管理。
虚拟机监控
本平台支持Vmware、Hyper-V、Citrix等虚拟机的监控。主要监控内容包括:虚拟设备物理主机的配置、健康度
CPU 总容量、CPU使用量、 CPU使用率内存总量、 内存使用量、 内存使用率网卡配置虚拟机监控
按照虚拟机列表,支持如下监控与查看
虚拟机名称IP 地址被分配的内存
虚拟机CPU 及内存利用率
状态(是否启动)、端口组、操作系统所在主机、网络、存储信息
个性化应用管理
本平台的通用监控模型,提供了丰富的设备连接方式,通过配置方式可自定义监控设备、监控指标、采集方式等。在实际中,通过灵活地利用这些特点,可以广泛地进行个性化应用的监控。
常规个性化应用的监控内容一般包括:应用配置信息监控、应用联机处理服务监控、应用批处理监控等。
8
9
主要管理功能
IT
资源管理
按照IT 资源的部署、使用周期,提供从资产管理与维保、到设备上架部署、到应用部署的各阶段的详细的IT 资源关系的梳理服务功能。
以基于自主知识产权的“通用监控对象模型”技术为基础,统一抽象各类IT 监控对象,建立统一的IT 资源配置库;从机房资源、网络资源、主机服务资源、应用系统部署结构等多角度提供IT 资源关联关系的梳理,帮助用户详细梳理IT 系统的内部结构、相互影响等;提供配置查询与冲突分析服务、事件归并处理服务、监控视图制作等,为IT 系统综合监控、准确故障定位、变更冲突分析、运维流程管理、安全运维审计等提供根本保障。
IT 资产管理:从资产管理角度,对IT 资源进行信息维护,如:资源名称、资源类别、IP地址、厂商、供应商、购买合同信息、购买日期、投产日期、所属应用、设备所属部门、物理位置等。
设备维保信息管理:围绕设备维保,提供维保商、维保合同信息、维保联系方式、历次维保记录、下次维保时间、维保提醒等信息维护功能。
IT 资产信息维护
自定义附加信息维护:用户可根据自身资产管理需要,自定义新的资产属性。
物理链路图
应用系统部署结构配置
机房资源配置管理
网络拓扑结构管理:通过自动发现和人工编辑方式,建立网络设备和子网之间的关联关系,并通过网络拓扑视图展现。
物理链路结构管理:发现并管理IP 设备和各网络设备之间的物理连接关系,并通过物理链路视图展现。主机服务发现:针对各个指定的主机设备,通过端口扫描方式,发现设备上的操作系统、系统服务、应用软件
服务等。
应用部署结构管理:以应用系统的部署结构为主线,关注业务功能从前端到后端各个组件之间的部署、访问关系,并采用图形化方式,描述各个组件之间的关联关系。针对每个业务系统的各项功能,随着这种应用部署结构
的大量梳理和积累,形成对业务服务管理的有效支撑。
机房资源配置管理:采用鼠标拖拽方式,直观对机房各类辅助资源分配情况进行梳理。如:涉及机房空间资源的机柜摆放、机架设备上架位置、供电线路的走线布局
等。
10
11
IP 资源管理:将IP 地址视为网络资源进行统一管理,对IP 资源在各个主机上的部署分配进行详细梳理,并提供日常终端IP 合法性检查等。
IT 资源关系综合查询:提供多种角度查询各个设备之间的关联关系,包括:网络拓扑关系、物理链路连接关系、机房资源装配关系、应用部署结构关联关系等。
IP
地址管理
综合视图结构管理:用户自定义视图管理,体现用户关注的设备关联关系。
IT 资源关系综合查询
监控管理
TeaView 综合监控系统以资源配置库为核心,以资源配置管理提供的各种监控视图为基础,可对网络、主机、应用、业务、机房环境等资源进行综合监控管理。
多维度监控视图
系统提供各种角度的专业视图,从而可以多维度的显示出包含:网络拓扑视图、物理链路视图、机房视图、应用部署视图、自定义视图等,实现全方位监控。
网络监控:通过网络拓扑视图、物理链路视图进行网络状况监控,如:网络设备性能(CPU性能、内存性能);设备端口监控(端口总速率、入/出速率、错包率、丢包率、端口总带宽占比等);端口链路带宽、通断情况;设备面板视图:直观展示端口状态等。
网络视图
面板视图,详细展示端口状况
BSM 业务监控视图
机房视图
设备运行监控
综合监控视图
BSM 业务监控视图:以业务系统各项功能为主线,详细展示应用各组成部分对业务功能的影响:组件性能下降导致业务性能下降,组件故障导致业务中断。
机房视图:机房实景展示设备的物理位置、运行状况等。
设备运行视图:列表方式展现设备CPU、内存、服务
等主要健康度指标。
综合监控视图:通过自定义方式定制监控视图,展现用户关心的监控对象运行状态。例如:业务视图是以业务系统为主线、展现该业务系统所包含软硬件设备的运行
状况的视图。
12
13
设备属性浏览
设备属性浏览:深度探查每个软硬件设备的详细指标情况。
服务器硬件监控
IP 地址检测:依据IP 资源表,对接入IP 进行合法性检查。
IP 接入检测
轮询报警策略管理
轮询报警策略是指针对监控对象,采用什么样的时间策略进行轮询采集;采集的结果如何识别为正常与非正常;非正常状态如何定义其报警级别与报警内容;以及更为复杂的轮询策略逻辑(如:多设备、多指标之间的联合报警、条件报警;可变化的采集频率)等。因此,轮询报警策略是描述采集、报警的逻辑过程。
不同设备在不同使用场景下,会有不同的轮询报警策略。运维人员往往会总结出丰富的轮询经验,将这些轮询经验进行固化并加以重用,对实施有效监控具有重要意义。
TeaView 监控平台引入监控轮询模型,将各种不同场景下的轮询报警模式进行抽象,形成一个个轮询种类,以适应各种复杂轮询报警策略的需求。
监控经验数据库内置十余种最常用轮询报警策略模型,覆盖常规监控场景,可直接使用。如:单指标双高限轮询模式、指标值变化模式、单指标高低四限轮询模式、单指标增长率轮询模式、主指标高限辅指标正文模式等。提供可视化界面,进行更为复杂的轮询报警策略设置。
可针对各个设备的各个指标的报警级别、每个级别的报警阀值、告警内容、监控采集的时间策略等进行综合设置。针对各类设备可定义其缺省轮询报警策略,通用于所有类似设备;也可针对每个实际设备再进行具体监控策略的调整。
轮询告警阀值设置
轮询时间段设置
告警正文配置
14
15
内置轮询告警模式
事件处理中心
通过事件处理平台,对告警事件集中处理。事件按照来源种类分为两类,包括监控平台主动轮询产生的告警事件、被动接收第三方产生的告警事件。
告警分级: 监控平台将告警事件分为六级,按照严重度从低到高依次为:提示告警、一般告警、次要告警、主要告警、严重告警、紧急告警。
告警展示:集中展示操作员所管理设备、当前所有未被处理的告警事件,可按照故障原因归类,将根本事件与联动事件归并展示。
告警批注:可对事件进行批注处理;可对快速批注内容进行条目设置。
告警升级:告警事件若干时间段未被处理,可自动升级至高级别告警,以期获得关注。告警查询:按时间、事件级别、业务系统等各种条件查询历史告警事件。
告警事件通知方式配置:可支持短信、电子邮件通知方式,并可进行精细化配置,可具体到某设备某级别事件通知某人。
第三方事件接收:监控平台提供统一接口,可过滤接收各种第三方syslog 数据源或SNMP Trap事件源的事件信息告警。
当前告警
告警通知配置
日志过滤器设置
16
17
统计分析
基于监控数据积累,可直接提供:性能排行统计、趋势分析、故障统计、磁盘I/O、日志分析、系统信息等几大类报表,为IT 服务容量管理、可持续性管理等提供数据支撑。
性能排行:包括CPU 利用率排行、内存利用率排行、磁盘利用率排行、磁盘最小可用空间排行等。趋势分析:CPU 利用率趋势排行、内存利用率趋势排行、磁盘利用率趋势排行等。
告警统计:告警分布统计、设备告警排行统计、设备故障时间段统计、业务系统故障统计、设备分类告警统计、网络设备联通率统计等。磁盘I/O:繁忙度统计。资产统计:设备资产信息统计。
各类报表
系统管理
围绕监控系统自身的使用,提供相关系统管理功能。
用户管理:监控系统使用人员的角色管理、组织机构设置、用户组管理、用户管理等。不同角色具有不同操作
权限。
采集器管理:监控平台可部署多个采集器,支持监控采集的集群部署与负载均衡。每个采集器在集群中可承担不同服务种类,并可配置其负载因子;监控平台可监控
各采集器的健康度。
角色管理
缺省配置管理:对监控系统相关缺省项进行配置,包括:默认我的视图设置、设备的默认缺省轮询项、默认报警阀值、默认轮询频率等。
系统日志管理:查询监控人员操作日志。
菜单管理:设置系统功能项的交互菜单,如:菜单名称、显示顺序、是否显示等。
恢复出厂设置:按系统数据进行全部初始化,恢复至初
始状态。
采集器运行状态监控
运维工具箱
监控平台提供一组工具供运维人员随时使用,包括MIB 浏览器、HTML 工具、Ping 工具、Tracert
命令行工具等。
MIB 浏览器
个性化监控扩展
设备接口定义__属性及获取方法
以通用监控模型专利技术为基础,结合用户自身监控需求,进行监控扩展,包括定义新的监控设备、监控指标、采集手段等,也可将应用抽象为应用设备实施监控。
图形化方式定义新的设备种类。
可定义新设备通过哪些通信协议连接访问,有哪些监控指标,每个监控指标获取方式等。
应用监控:原则上,反映应用运行状态的任何监控
指标,均可通过某些方式直接或间接地获得,这些方式都对应于在系统中进行的某些操作。因此,可
通过监控平台采用配置方式实施应用监控。
18
19
运行环境与部署结构
运行环境
支持Linux、Unix、Windows操作系统及国产操作系统部署支持MySQL、Oracle等关系型数据库及国产数据库部署 支持WebLogic、Tomcat部署支持单级部署和多级部署
部署结构
TeaView 监控运维平台可进行单级部署和多级部署,以满足不同规模的信息系统监控需求。
单级部署结构
对于规模较小的信息系统,其系统的各部分分布于同一物理地点,此时,TeaView监控平台可采用单级部署结构。
单级部署结构
分布式、分级部署——汇集中心
大型企业集团信息系统具有分布部署、管理分级的特点。通过TeaView 监控运维管理平台的汇集中心模块,可进行分布、分级部署,满足大型信息系统监控需要。
在每一级监控系统中,均部署监控平台,实现对本级设备的监控;同时,在上级可部署汇集中心模块,实现与下属各监控平台之间数据传输与同步,包括:监控策略同步、IT资源配置库同步、监控报警信息同步、实时采集信息同步等。
多级部署结构
集群部署与负载均衡
针对海量设备的采集监控,TeaView监控平台提供负载均衡解决方案,可将监控采集任务部署在服务器集群上,
集群内各服务器间可自动负载均衡,并支持容灾自动切换。
20
21客户案例中国邮政储蓄银行中国邮政储蓄银行作为全国第6大商业银行,依托其庞大的计算机系统,为全国数亿客户提供优质的个人金融服务。该行目前已拥有营业网点38000多个,网点业务人员10万人。基于稳定的计算机系统,邮储银行的跨行交易成功率始终位居全国前列,交易差错率保持全国最低水平。信息系统的稳定性始终是邮储银行提供优质金融服务的根本保证。原系统运维状况海量设备、业务系统众多、运维负担极大邮储银行现有服务器5000多台、上千个数据库、应用服务器等软件支撑系统设备、全网7*24实时运行的业务系统总计40多个,涉及:个人、对公、信贷、理财、托管、外汇、信用卡、电子银行、保险、基金等10多类,业务系统联机在线使用人员接近10万人。运维部门压力极大。大集中模式导致IT 风险急剧增长邮储银行历经多年信息化建设,特别是“逻辑大集中工程”后,已经实现了交易集中处理、数据集中存储的大数据模式。在此模式下,IT风险急剧增长。以2012年该行业务数据统计为依据计算,业务系统平均每中断1分钟,将导致人员工资支付直接损失接近12万元,间接利润损失为23.5万元,总计为36万元。传统建设、运维监控模式无法满足运维需要针对运维监控,邮储传统做法是伴随各个业务系统的开发,由开发商配套开发专有监控子系统。随着新系统迅速增加,系统间的关系越来越复杂、联系更加密切并彼此影响,单一的监控子系统已经不能满足安全运行工作中综合分析问题、准确定位问题、及时解决问题的需要。众多监控子系统,切换频繁,不堪重负随着各个监控子系统的急剧增长,运维人员在各系统间来回切换也不堪重负,并直接导致系统故障反应迟钝、直接影响系统运行质量。新增监控需求无法快速满足各业务监控子系统存在功能有限、无法满足新增、个性化的业务监控需求。需要集中监控系统,实现业务、基础架构综合监控针对上述状况,迫切需要建设集中的计算机系统监控系统,在整合现有监控系统的基础上,实现硬件设备、主机操作系统、数据库、中间件、各业务系统的集中监控管理。解决方案邮储银行经过多次比选和慎重考虑,我公司的TeaView 一体化综合平台凭借其良好的监控扩展性、个性化监控需求的满足能力、海量设备监控能力、集群部署与负载均衡等特性,最终获得用户的青睐。科学的实施流程IT 系统的监控需要伴随着应用系统的生命周期持续不断地进行调整,总体上包括:监控需求分析、监控策略制定、监控部署及运行、监控调整等不同阶段,整体上是一个不断往复循环的过程。
监控部署与实施监控阶段监控需求分析阶段
实施前期准备确定总体监控需求
监控系统安装系统现状
网络环境设置总体监控目标
主机监控用户建立总体监控范围
数据库监控用户建立背景资料收集
监控部署收集系统开发商提供的资料系统配置库/网络拓扑图建立总结以往系统监控经验
监控视图建立监控需求详细分析
监控策略设置了解系统实际部署结构
人员权限设置基础设施监控需求
报警通知方式设置应用监控需求
监控日常运行统计分析需求
日常问题处理监控人员职责划分
定期统计分析
监控策略持续调整
监控系统自身定期维护监控策略设计阶段
监控需求变化,开始新的实施周期基础设施监控策略设计
网络监控策略
主机/操作系统监控策略
数据库监控策略
中间件/应用服务器监控策略
应用监控策略设计
监控项确定
监控采集方式设计
监控权限划分
监控视图设计报警通知方式设计(短信、电子邮件)
在邮储银行的信息系统监控实施过程中,也是按照上述过程持续实施的。
需求分析阶段
邮储银行的监控需求总体上划分为如下几部分:
基础设施的监控:包括主机、数据库、中间件、存储设备、网络设备监控。
应用系统监控:针对邮储所包括的全部应用系统的监控,如:储蓄、信用卡、信贷、ATM、汇兑、保险、基金、网银、对公等40多个业务系统。
整合各业务系统原有监控工具:原有专用监控工具对用户而言使用已经很习惯,用户并不希望马上撤换,而更希望通过整合,在充分利用原有监控工具采集的基础上,实现集中的报警展示,并考虑在后继阶段逐步替换原有监控工具。硬件监控:集成专业厂商的采集手段,接收报警信息,实现监控集中展现。
原有经验沉淀需求:在需求调研过程中,用户对原有监控中使用的各种shell 脚本、SQL命令、自行编写工具小程序等,存在大量呼声要求予以保留,这些经验体现了对应用系统故障部位、故障特征、故障识别手段的经验积累。
22
23监控策略设计阶段基础设施监控策略设计:结合各设备的适用场景、作用、运行特点,有针对性地进行监控策略制定,包括监控对象、监控指标的选择,结合具体环境确定监控参数的获取方式,各监控指标的合理数值范围等;针对应用监控策略设计:结合应用特点,综合设计、抽象出应用的监控指标、采集方式、报警条件等;针对原有监控工具整合:充分利用TeaView 监控平台的扩展性,采用多种策略整合,如:将原有工具的报警事件表数据源抽象为监控对象,进行同步报警等。原有经验沉淀:同样利用TeaView 监控平台的扩展性,将原有的脚本、命令等作为监控对象采集获取方式,通过配置方式快速加入监控系统中。随着监控系统的部署,这些经验性的脚本、命令等将在监控系统驱动下,按照预定的轮询策略,实现对目标设备的监控。监控部署与运行利用TeaView 监控平台,通过自动探查方式建立IT 系统资源配置库,建立各应用系统及下层的应用服务器、数据库、主机、存储、网络、机房外围环境等各层级的IT 资源关联关系,为日常监控运行提供故障定位服务,并为日后的IT 设置配置变更提供配置冲突分析服务。针对各基础设施,直接设置其监控策略。针对应用监控,按照设计阶段的设计结果,通过配置方式添加应用监控对象、监控指标、配置采集方式等。启动监控系统的日常运行,并处理各种问题。监控需求调整及监控策略调整过程针对发现的新问题,及时部署新的监控项,调整监控策略。实施效果大规模提高系统监控覆盖度、杜绝监控漏区TeaView 系统上线后,实现40多个业务系统及下层支撑的5000多台服务器、上千个数据库、应用服务器软件等全部纳入监控范围,杜绝原有存在监控漏区问题。统一集中监控策略管理,漏检概率降低2.5倍TeaView 平台除了直接对相关系统实施监控之外,还集成了原有监控工具、原有采集经验,在此基础上,平台采用了统一集中的监控策略管理,大幅提高了监控采集频度、降低故障漏检概率。相比原有分散监控采集模式,系统漏监概率降低2.5倍。有效整合原有各专有监控系统,实现集中报警,降低了人员劳动负荷充分利用原有监控系统进行监控采集,通过TeaView 监控平台实现集中报警展示,避免了人员频繁地在不同系统之间切换,大大降低了人员劳动负荷,提高了工作效率。同时,这种整合方式在现阶段,对信息系统结构影响最低。大规模实施应用监控,使得监控更加有效、直接虽然原有各专有监控系统已经实施了部分应用监控,但各个监控工具是由开发商随着应用系统上线而提供的,工具本身功能有限,随着应用系统的运行,更多的新的需求无法满足。采用TeaView 监控平台之后,可以大规模对应用系统实施更为广泛的应用监控,使得监控更加有效,更加直接。
用户评语
“TeaView监控平台的扩展性非常实用,帮助我们顺利整合了原有各专有监控工具。而且,在应用监控方面也非常突出,很多原来我们在应用监控上的想法都能实现……”
——某行信息中心负责人
24
25中国邮政集团公司“邮政综合网”综合监控
中国邮政集团公司是国内规模最大的物流企业集团,拥有庞大的物流网络和遍布全国城乡各地的营业网点。中国邮政综合计算机网,是中国邮政实现信息化的基础,是邮政生产的中枢神经。综合网的稳定运行是邮政提供普遍服务的根本保证。现状30多个省际网、200多个省内网,15000多个电子化支局所,覆盖全国所有地区; 全网统一版本的应用系统多达30多个;主机、网络设备等上万台;多级管理结构,包括全国中心、省中心、地市中心,运维人员上千人。需求对基础设施实行全面监控,包括:主机、数据库、中间件、存储设备、网络设备、机房设备等监控,涵盖基础信息采集、性能指标采集、异常信息采集等。应用系统监控,如:电子化支局系统、邮区中心局生产作业系统、速递综合信息处理平台、邮政物流综合信息平台……部署结构需求:支持全国中心、省中心、地市中心多级结构,实现分级采集监控,数据统一集中的部署要求。与其他系统集成要求:与消息通知渠道集成、与运维流程系统集成、与第三方网管系统集成等。监控系统性能要求:能够满足上万台设备的监控和千人规模的使用。
实施效果
上万台软硬件基础设施,全部纳入综合监控,大幅提高监测覆盖度;
变手工监测为监测自动化,提高人员效率,降低漏检率;
实施应用监控,更加便于直接进行业务管理;
大量运维经验得到固化沉淀,方便知识共享与传承;
分布式、分级部署结构,满足集团多级管理需要;
汇集中心部署模式,便于远程诊断与故障解决,充分调度各地技术人力资源。
用户评语
配置方式实现监控扩展
“综合网内设备非常多、监控需求复杂多变,未来我们还会有很多新的业务系统上线,监控需求具有很多不确定性。因此,我们对监控平台的扩展性要求很高。TeaView 监控平台通过配置方式实现监控扩展的特点很突出,对我们来说,确实非常实用。”
——某集团运维部负责人
经验沉淀平台
“这些年,我们积累了很多系统诊断的脚本命令、SQL 语句,非常实用,最担心上了监控系统之后,这些经验被丢弃。TeaView 监控平台能直接把这些经验固化下来,并可自动定期执行,保证了经验沉淀,效果非常好。这个平台很实用、解渴。”
——某省分公司运维部负责人
辅助业务管理
“每年年底都是报刊发行的营销旺季,我们非常需要实时掌握各部门的营销动态,现在的报刊订销系统里的数据虽然也能反映一些,但都不是直接的数据,每天还需要科里专门人员重新做报表统计,很麻烦。我们也不太可能要求开发商经常去修改报刊订销系统。使用监控系统后,通过监控平台我们就可以直接掌握我们想要的数据。确实方便很多。”
——某报刊发行局业务科负责人
集中监控展现
“原来我们每天要监控二十多个系统,来回切换,很麻烦,系统出了问题,大家都很紧张。现在,统一使用TeaView 监控平台,确实方便很多。而且,操作起来很简单,大家的工作负荷降低了很多。”
——某省信息中心运维人员
辅助业务管理
“……下一步,我们准备以TeaView 监控平台为核心,建立集中的业务动态监控管理系统……”
——某集团公司信息中心负责人
26
一体化综合监控平台
1
IT 监控运维管理面临的挑战
随着IT 系统对企业支撑作用日益明显,企业在IT 监控运维管理方面将面临更加严峻的挑战:
定制化应用故障最多,影响最大,监控需求最迫切
监控需求预知性差、突发性强、监控指标个性化、业务特征明显监控部署时效要求高、监控方法难以系统化
对监控的扩展能力要求越来越高,以确保IT 系统全生命周期的可持续化监控IT 系统生命周期不同阶段,呈现不同故障特征,监控需求持续变动定制化应用不断调整改造,导致应用监控需求持续变化新设备种类、新的监控指标不断涌现急需主动梳理IT 资源内部关联关系设备间影响密切,准确故障定位日益困难资源关联复杂,系统变更风险越来越高脆弱点隐蔽,单点故障风险难以控制急需知识沉淀与经验共享
急需全面监控与集中展现,集成用户已有各类监控工具
北京联华信科技有限公司专注于IT 运维相关领域的产品研发与服务长达十余年,自主研发的TeaView 一体化监控运维管理平台软件,独创性地以IT 资源配置管理为中心,基于自有的“通用监控对象模型”专利技术,构建具有灵活扩展能力的CMDB 配置库,并实现覆盖网络、服务器、数据库、中间件、应用、业务等全方位的一体化综合监控。该软件具有如下4大特色能力:
监控扩展能力____快速满足各种新的监控需求应用监控能力____个性化应用监控
资源梳理能力____全面掌握IT 资源关联关系经验沉淀能力____快速沉淀积累已有监控经验
上述优势从根本上保证了该软件能够对用户的IT 系统、个性化应用等提供有效、实用的监控运维管理。2006年:推出第一个版本并成功应用于北京邮政综合网监控2008年:中国邮政储蓄银行总行数据中心综合监控2010年:中国邮政储蓄银行34省分行省前置综合监控
2011年:中国邮政集团总公司及34省分公司邮政信息网全网综合监控
2011年:中国邮政储蓄银行建设国内首个小型机集群实现大型银行核心业务的“逻辑大集中工程”,提供该项目全网集中综合监控。
TeaView 一体化监控运维管理平台简介
通用监控对象模型——监控扩展能力的基石
为确保具有最大限度的扩展能力、满足IT 系统的可持续化监控需要,TeaView监控平台在内核设计上,采用了独有专利技术“通用监控对象模型技术”。通过该项技术,用户可快速、自定义新的监控对象种类、新的监控指标及获取方式等,满足个性化的监控需要。
通用监控对象——统一描述各种IT 资源
该模型将现实世界中的各种监控对象统一抽象为“通用监控对象”(亦称“设备”)。这些设备可以是实际的物理设备或其组件、软件系统或其组件,应用系统或其组件、以及根据监控需求抽象、组合出的逻辑监控对象等。设备属性划分
属性即为监控指标。每个设备的属性可划分为若干类,包括:
配置属性:设备的配置信息(如:CPU个数),一般变化较少,只有当系统配置发生变化时,配置属性发生变化。一般因需采集。
状态属性:设备的一组离散的状态值,表明监控对象的当前状态(如:Oracle数据库表空间的online、offline状态等),一般也是因需采集。
性能属性:随时间连续变化的属性(如:CPU利用率,随时间变化而变化),一般需要持续采集监控。事件通知:设备产生的事件通知,如:SNMP Trap事件等。
附加属性:用户可根据需要,自定义新的其他种类属性,典型如:各种资产属性等,根据自身的资产管理需求,定义新的资产指标。属性获取过程
任何一个监控对象的属性获得包括三个步骤:连接管理对象、属性获取动作、结果解析方式。通过通信协议连接管理对象
通过一定的通信协议与管理对象连接,如:SNMP、Telnet、SSH、JDBC、HTTP/HTTPS、FTP、SMTP、POP3、Tuxedo ATMI、WMI、WQL、JMX、MQI java(IBM MQ)、WLS、RS232/RS485等,或是特定的私有通信协议。获取属性动作
通过一定的动作完成。如:执行某个命令行、访问mib 库、执行某个SQL 语句、执行某个方法调用、体现用户经验的脚本、命令、自编程序等。结果解析规则
如:诸如字符串解析、拼装;数值结果的各种运算、以及更为复杂的处理逻辑等等。动态创建,实现因需监控
TeaView 监控平台针对监控采集所涉及的各类通信协议、指标获取动作、结果解析规则等,提供完整支持。同时,采用独特的对象封装技术,可将新的设备属性定义、属性获取方式定义等进行封装,动态生成新的设备种类。一旦封装完成,TeaView监控平台即获得了对该种类型设备的监控能力。
2
3
性能属性
配置方式定义新设备,快速满足监控需求
提供图形化交互界面,无需编程,通过简单配置方式,即可快速完成新的设备种类定义,获得新的监控能力,快速满足监控需求。
软件架构
监控综合管理
提供多种视图实时监控;精细化设置监控采集策略;告警处理中心集中处理主动轮询告警事件和接收的第三方告警事件;提供丰富报表统计。IT 资源管理
以“通用监控对象模型”为基础,构建CMDB;从机房、网络、主机、应用部署结构等多角度管理资源相互影响关系;提供配置查询与冲突分析服务、事件归并处理服务、监控展现视图。为故障定位、变更冲突分析、运维审计等提供根本保障。
采集层
资源
通过各种通信协议直接与设备交互,负责监控采集、配置信息采集。
功能特点
支持网络、主机、数据库、中间件、定制化应用的一体化综合监控通用监控对象模型统一描述各类设备,具有极强的监控扩展能力
配置方式实现监控的扩展,确保监控实施的高效便捷能将各种新的监控对象快速纳入监控范围充分满足个性化应用的监控需求
面向监控需要,构建具有灵活扩展能力的CMDB,确保ITSM 更加有效全面梳理IT 资源内部结构
机房资源、网络资源、主机服务资源、应用部署结构等多角度梳理图形方式管理设备间故障关联关系,利于故障准确定位提供配置变更冲突分析服务
可自定义复杂轮询报警策略,适应各种监控场景需要机房视图方式,直观管理机房空间资源、布线资源等辅助资源丰富的监控视图种类,多角度全面监控
可将各种已有监控经验(如:积累的各种脚本、程序、命令等)固化到监控平台中丰富的统计功能、完善的报表,为IT 服务容量管理、可持续性管理等提供数据支撑
技术特点
具有优良处理性能
以普通单台PC 服务器(32G/8C)为例,可支持1000个服务器、数据库、中间件等监控对象,可同时轮询约18000个监控指标。
具有良好结构伸缩性,支持集群部署、负载均衡,支持海量设备监控具备容灾切换机制,确保7*24平稳运行
支持分级、分布部署,适应集团客户、大型信息系统监控要求多种机制确保被监控系统的安全等级免遭影响
监控采集免安装插件
提供多种通信协议选择,充分适应用户环境制约。包括:SNMP、Telnet、SSH、JDBC、HTTP/HTTPS、FTP、SMTP、POP3、Tuxedo ATMI、WMI、WQL、JMX、MQI java(IBM MQ)、WLS等。全浏览器交互方式
采用通用监控对象模型专利技术,支持各类软硬件设备统一监控,具有极强灵活扩展性拥有良好集成能力,提供多种接口,与第三方监控系统集成,实现监控集中展现
产品价值
一体化监控运维平台,降低IT 管理投资规模
灵活的监控扩展能力,确保IT 监控的长期可持续化、节省IT 管理的未来投资快速满足监控需求能力,确保IT 系统稳定
全面提升故障定位能力,缩短故障修复时间,减少故障损失全面IT 结构梳理,减少变更冲突、降低单点故障风险加强运维经验的沉淀固化,降低人员流动风险支持应用业务监控,直接辅助业务管理
4
5
管理范围
网络设备管理
本监控平台基于SNMP 协议,对所有支持SNMP 的网络设备提供监控管理,如:Cisco、Baynetworks、Juniper、Foundry、Extreme、Avaya、3COM、Intel、Fore、Marconi、CableTron、Motorola、F5、华为、港湾等。提供的标准监控内容如下:针对标准交换设备,可监控:设备基本信息
设备名称、设备描述、厂商标识等。设备各端口MAC 地址列表、设备接口数量设备各端口配置及状态信息
端口号、端口配置及状态、各端口类型、各端口描述、各端口状态、各端口IP 地址、子网掩码等。端口性能数据
端口编号、端口名称;
端口速率(如:端口总速率、端口入速率、端口出速率);错包数(如:端口总错包数、端口入错包数、端口出错包数);错包率(如:端口总错包率、端口入错包率、端口出错包率);丢包数(如:端口总丢包数、端口入丢包数、端口出丢包数);丢包率(如:端口总丢包率、端口入丢包率、端口出丢包率);总带占比、带宽接收占比、带宽发送占比等。针对标准路由设备,可监控:设备基本信息
设备名称、设备描述、厂商标识等。设备各端口MAC 地址列表、设备接口数量当前路由设置及状态
路由表、路由地址、端口编号、路由类型、下一跳地址、目的地址掩码、路由来源机制等。设备各端口配置及状态信息
端口号、端口配置及状态、各端口类型、各端口描述、各端口状态、各端口IP 地址、子网掩码等。端口性能数据
端口编号、端口名称、端口速率、错包数、错包率、丢包数、丢包率、总带占比、带宽接收占比、带宽发送占比等。此外,在监控实施过程中,通过获取各设备的私有MIB,还可获取设备的CPU 性能监控(均值、峰值)、内存占用(均值、峰值)等。
主机系统管理
支持 HP-UX、Sun Solaris、Windows、 Linux、
IBM AIX、Sco Unix等操作系统的状态监控;帮
助运维人员实时的了解主机系统的运行情况;对监控到的指标及时报警, 保证主机系统的连续运行,降低故障时间。
主机系统管理包含了主机性能指标和系统配置指标,示例如右图所示。
用户可根据管理需求,随时通过配置方式添加新的指标。
操作系统监控参数
数据库监控管理
本监控平台提供了针对Oracle、Sybase、Informix、MS SQL Server、IBM DB2、Domino、Postgre SQL、MySQL等主流数据库提供监控管理。常规的监控种类包括如下:
数据库内存使用监控数据库状态和统计信息表空间状态及使用情况Cache 的命中率、使用情况数据库锁的使用情况数据库日志…
数据库监控参数
__Oracle
此外,监控人员还可通过配置方式,添加关心的监控指标,实施进一步的个性化监控。
中间件管理
本监控平台提供了针对Bea Tuxedo、Bea Weblogic、IBM WebSphere MQ、IBM WebSphere App Server、MS Exchange、MS IIS Server、Apache Server、Netscape Server、Tomcat、Oracle Application Server等主流中间件、应用服务器等的监控管理。常规的监控种类包括如下:应用服务器最大并发连接数客户端连接队列个数服务个数队列等待个数应用进程状态
Servlet 名称及访问URL
Servlet 被调用次数及最长、最短执行时间JDBC 连接池名称
JDBC 总连接数及最高活动连接数应用服务器监听端口
…
用户可根据管理需求,随时通过配置方式添加新的指标。
中间件监控参数__WebLogic
6
7
日志监控
支持系统日志、数据库日志、中间件日志、设备日志、应用日志等监控。通过标准工业协议syslog,从各种不同类型的日志整合到监控系统中,实现日志的集中过滤、分析、监控报警、安全审计等。可依据关键字扫描日志文件,并告警。
服务器硬件监控
本平台提供对各品牌服务器的硬件状态监控,包括:HP服务器、IBM 服务器、DELL 服务器、联想服务器、浪潮服务器等。可监控指标示例如图所示:
服务器硬件监控
VPN 监控
VPN 即虚拟专用网络,其功能是:在公用网络上建立专用网络,进行加密通讯。VPN网关通过对数据包的加密和数据包目标地址的转换实现远程访问。VPN有多种分类方式,主要是按协议进行分类。VPN可通过服务器、硬件、软件等多种方式实现。VPN具有成本低,易于使用的特点,目前在企业网络中有广泛应用。
本平台提供了VPN 结构视图展现功能,可直接展现VPN 网络结构,展现PE 设备和CE 设备之间的关系、 VPN网络设备之间的连接关系等,便于用户针对VPN 网络结构进行精细化管理。
虚拟机监控
本平台支持Vmware、Hyper-V、Citrix等虚拟机的监控。主要监控内容包括:虚拟设备物理主机的配置、健康度
CPU 总容量、CPU使用量、 CPU使用率内存总量、 内存使用量、 内存使用率网卡配置虚拟机监控
按照虚拟机列表,支持如下监控与查看
虚拟机名称IP 地址被分配的内存
虚拟机CPU 及内存利用率
状态(是否启动)、端口组、操作系统所在主机、网络、存储信息
个性化应用管理
本平台的通用监控模型,提供了丰富的设备连接方式,通过配置方式可自定义监控设备、监控指标、采集方式等。在实际中,通过灵活地利用这些特点,可以广泛地进行个性化应用的监控。
常规个性化应用的监控内容一般包括:应用配置信息监控、应用联机处理服务监控、应用批处理监控等。
8
9
主要管理功能
IT
资源管理
按照IT 资源的部署、使用周期,提供从资产管理与维保、到设备上架部署、到应用部署的各阶段的详细的IT 资源关系的梳理服务功能。
以基于自主知识产权的“通用监控对象模型”技术为基础,统一抽象各类IT 监控对象,建立统一的IT 资源配置库;从机房资源、网络资源、主机服务资源、应用系统部署结构等多角度提供IT 资源关联关系的梳理,帮助用户详细梳理IT 系统的内部结构、相互影响等;提供配置查询与冲突分析服务、事件归并处理服务、监控视图制作等,为IT 系统综合监控、准确故障定位、变更冲突分析、运维流程管理、安全运维审计等提供根本保障。
IT 资产管理:从资产管理角度,对IT 资源进行信息维护,如:资源名称、资源类别、IP地址、厂商、供应商、购买合同信息、购买日期、投产日期、所属应用、设备所属部门、物理位置等。
设备维保信息管理:围绕设备维保,提供维保商、维保合同信息、维保联系方式、历次维保记录、下次维保时间、维保提醒等信息维护功能。
IT 资产信息维护
自定义附加信息维护:用户可根据自身资产管理需要,自定义新的资产属性。
物理链路图
应用系统部署结构配置
机房资源配置管理
网络拓扑结构管理:通过自动发现和人工编辑方式,建立网络设备和子网之间的关联关系,并通过网络拓扑视图展现。
物理链路结构管理:发现并管理IP 设备和各网络设备之间的物理连接关系,并通过物理链路视图展现。主机服务发现:针对各个指定的主机设备,通过端口扫描方式,发现设备上的操作系统、系统服务、应用软件
服务等。
应用部署结构管理:以应用系统的部署结构为主线,关注业务功能从前端到后端各个组件之间的部署、访问关系,并采用图形化方式,描述各个组件之间的关联关系。针对每个业务系统的各项功能,随着这种应用部署结构
的大量梳理和积累,形成对业务服务管理的有效支撑。
机房资源配置管理:采用鼠标拖拽方式,直观对机房各类辅助资源分配情况进行梳理。如:涉及机房空间资源的机柜摆放、机架设备上架位置、供电线路的走线布局
等。
10
11
IP 资源管理:将IP 地址视为网络资源进行统一管理,对IP 资源在各个主机上的部署分配进行详细梳理,并提供日常终端IP 合法性检查等。
IT 资源关系综合查询:提供多种角度查询各个设备之间的关联关系,包括:网络拓扑关系、物理链路连接关系、机房资源装配关系、应用部署结构关联关系等。
IP
地址管理
综合视图结构管理:用户自定义视图管理,体现用户关注的设备关联关系。
IT 资源关系综合查询
监控管理
TeaView 综合监控系统以资源配置库为核心,以资源配置管理提供的各种监控视图为基础,可对网络、主机、应用、业务、机房环境等资源进行综合监控管理。
多维度监控视图
系统提供各种角度的专业视图,从而可以多维度的显示出包含:网络拓扑视图、物理链路视图、机房视图、应用部署视图、自定义视图等,实现全方位监控。
网络监控:通过网络拓扑视图、物理链路视图进行网络状况监控,如:网络设备性能(CPU性能、内存性能);设备端口监控(端口总速率、入/出速率、错包率、丢包率、端口总带宽占比等);端口链路带宽、通断情况;设备面板视图:直观展示端口状态等。
网络视图
面板视图,详细展示端口状况
BSM 业务监控视图
机房视图
设备运行监控
综合监控视图
BSM 业务监控视图:以业务系统各项功能为主线,详细展示应用各组成部分对业务功能的影响:组件性能下降导致业务性能下降,组件故障导致业务中断。
机房视图:机房实景展示设备的物理位置、运行状况等。
设备运行视图:列表方式展现设备CPU、内存、服务
等主要健康度指标。
综合监控视图:通过自定义方式定制监控视图,展现用户关心的监控对象运行状态。例如:业务视图是以业务系统为主线、展现该业务系统所包含软硬件设备的运行
状况的视图。
12
13
设备属性浏览
设备属性浏览:深度探查每个软硬件设备的详细指标情况。
服务器硬件监控
IP 地址检测:依据IP 资源表,对接入IP 进行合法性检查。
IP 接入检测
轮询报警策略管理
轮询报警策略是指针对监控对象,采用什么样的时间策略进行轮询采集;采集的结果如何识别为正常与非正常;非正常状态如何定义其报警级别与报警内容;以及更为复杂的轮询策略逻辑(如:多设备、多指标之间的联合报警、条件报警;可变化的采集频率)等。因此,轮询报警策略是描述采集、报警的逻辑过程。
不同设备在不同使用场景下,会有不同的轮询报警策略。运维人员往往会总结出丰富的轮询经验,将这些轮询经验进行固化并加以重用,对实施有效监控具有重要意义。
TeaView 监控平台引入监控轮询模型,将各种不同场景下的轮询报警模式进行抽象,形成一个个轮询种类,以适应各种复杂轮询报警策略的需求。
监控经验数据库内置十余种最常用轮询报警策略模型,覆盖常规监控场景,可直接使用。如:单指标双高限轮询模式、指标值变化模式、单指标高低四限轮询模式、单指标增长率轮询模式、主指标高限辅指标正文模式等。提供可视化界面,进行更为复杂的轮询报警策略设置。
可针对各个设备的各个指标的报警级别、每个级别的报警阀值、告警内容、监控采集的时间策略等进行综合设置。针对各类设备可定义其缺省轮询报警策略,通用于所有类似设备;也可针对每个实际设备再进行具体监控策略的调整。
轮询告警阀值设置
轮询时间段设置
告警正文配置
14
15
内置轮询告警模式
事件处理中心
通过事件处理平台,对告警事件集中处理。事件按照来源种类分为两类,包括监控平台主动轮询产生的告警事件、被动接收第三方产生的告警事件。
告警分级: 监控平台将告警事件分为六级,按照严重度从低到高依次为:提示告警、一般告警、次要告警、主要告警、严重告警、紧急告警。
告警展示:集中展示操作员所管理设备、当前所有未被处理的告警事件,可按照故障原因归类,将根本事件与联动事件归并展示。
告警批注:可对事件进行批注处理;可对快速批注内容进行条目设置。
告警升级:告警事件若干时间段未被处理,可自动升级至高级别告警,以期获得关注。告警查询:按时间、事件级别、业务系统等各种条件查询历史告警事件。
告警事件通知方式配置:可支持短信、电子邮件通知方式,并可进行精细化配置,可具体到某设备某级别事件通知某人。
第三方事件接收:监控平台提供统一接口,可过滤接收各种第三方syslog 数据源或SNMP Trap事件源的事件信息告警。
当前告警
告警通知配置
日志过滤器设置
16
17
统计分析
基于监控数据积累,可直接提供:性能排行统计、趋势分析、故障统计、磁盘I/O、日志分析、系统信息等几大类报表,为IT 服务容量管理、可持续性管理等提供数据支撑。
性能排行:包括CPU 利用率排行、内存利用率排行、磁盘利用率排行、磁盘最小可用空间排行等。趋势分析:CPU 利用率趋势排行、内存利用率趋势排行、磁盘利用率趋势排行等。
告警统计:告警分布统计、设备告警排行统计、设备故障时间段统计、业务系统故障统计、设备分类告警统计、网络设备联通率统计等。磁盘I/O:繁忙度统计。资产统计:设备资产信息统计。
各类报表
系统管理
围绕监控系统自身的使用,提供相关系统管理功能。
用户管理:监控系统使用人员的角色管理、组织机构设置、用户组管理、用户管理等。不同角色具有不同操作
权限。
采集器管理:监控平台可部署多个采集器,支持监控采集的集群部署与负载均衡。每个采集器在集群中可承担不同服务种类,并可配置其负载因子;监控平台可监控
各采集器的健康度。
角色管理
缺省配置管理:对监控系统相关缺省项进行配置,包括:默认我的视图设置、设备的默认缺省轮询项、默认报警阀值、默认轮询频率等。
系统日志管理:查询监控人员操作日志。
菜单管理:设置系统功能项的交互菜单,如:菜单名称、显示顺序、是否显示等。
恢复出厂设置:按系统数据进行全部初始化,恢复至初
始状态。
采集器运行状态监控
运维工具箱
监控平台提供一组工具供运维人员随时使用,包括MIB 浏览器、HTML 工具、Ping 工具、Tracert
命令行工具等。
MIB 浏览器
个性化监控扩展
设备接口定义__属性及获取方法
以通用监控模型专利技术为基础,结合用户自身监控需求,进行监控扩展,包括定义新的监控设备、监控指标、采集手段等,也可将应用抽象为应用设备实施监控。
图形化方式定义新的设备种类。
可定义新设备通过哪些通信协议连接访问,有哪些监控指标,每个监控指标获取方式等。
应用监控:原则上,反映应用运行状态的任何监控
指标,均可通过某些方式直接或间接地获得,这些方式都对应于在系统中进行的某些操作。因此,可
通过监控平台采用配置方式实施应用监控。
18
19
运行环境与部署结构
运行环境
支持Linux、Unix、Windows操作系统及国产操作系统部署支持MySQL、Oracle等关系型数据库及国产数据库部署 支持WebLogic、Tomcat部署支持单级部署和多级部署
部署结构
TeaView 监控运维平台可进行单级部署和多级部署,以满足不同规模的信息系统监控需求。
单级部署结构
对于规模较小的信息系统,其系统的各部分分布于同一物理地点,此时,TeaView监控平台可采用单级部署结构。
单级部署结构
分布式、分级部署——汇集中心
大型企业集团信息系统具有分布部署、管理分级的特点。通过TeaView 监控运维管理平台的汇集中心模块,可进行分布、分级部署,满足大型信息系统监控需要。
在每一级监控系统中,均部署监控平台,实现对本级设备的监控;同时,在上级可部署汇集中心模块,实现与下属各监控平台之间数据传输与同步,包括:监控策略同步、IT资源配置库同步、监控报警信息同步、实时采集信息同步等。
多级部署结构
集群部署与负载均衡
针对海量设备的采集监控,TeaView监控平台提供负载均衡解决方案,可将监控采集任务部署在服务器集群上,
集群内各服务器间可自动负载均衡,并支持容灾自动切换。
20
21客户案例中国邮政储蓄银行中国邮政储蓄银行作为全国第6大商业银行,依托其庞大的计算机系统,为全国数亿客户提供优质的个人金融服务。该行目前已拥有营业网点38000多个,网点业务人员10万人。基于稳定的计算机系统,邮储银行的跨行交易成功率始终位居全国前列,交易差错率保持全国最低水平。信息系统的稳定性始终是邮储银行提供优质金融服务的根本保证。原系统运维状况海量设备、业务系统众多、运维负担极大邮储银行现有服务器5000多台、上千个数据库、应用服务器等软件支撑系统设备、全网7*24实时运行的业务系统总计40多个,涉及:个人、对公、信贷、理财、托管、外汇、信用卡、电子银行、保险、基金等10多类,业务系统联机在线使用人员接近10万人。运维部门压力极大。大集中模式导致IT 风险急剧增长邮储银行历经多年信息化建设,特别是“逻辑大集中工程”后,已经实现了交易集中处理、数据集中存储的大数据模式。在此模式下,IT风险急剧增长。以2012年该行业务数据统计为依据计算,业务系统平均每中断1分钟,将导致人员工资支付直接损失接近12万元,间接利润损失为23.5万元,总计为36万元。传统建设、运维监控模式无法满足运维需要针对运维监控,邮储传统做法是伴随各个业务系统的开发,由开发商配套开发专有监控子系统。随着新系统迅速增加,系统间的关系越来越复杂、联系更加密切并彼此影响,单一的监控子系统已经不能满足安全运行工作中综合分析问题、准确定位问题、及时解决问题的需要。众多监控子系统,切换频繁,不堪重负随着各个监控子系统的急剧增长,运维人员在各系统间来回切换也不堪重负,并直接导致系统故障反应迟钝、直接影响系统运行质量。新增监控需求无法快速满足各业务监控子系统存在功能有限、无法满足新增、个性化的业务监控需求。需要集中监控系统,实现业务、基础架构综合监控针对上述状况,迫切需要建设集中的计算机系统监控系统,在整合现有监控系统的基础上,实现硬件设备、主机操作系统、数据库、中间件、各业务系统的集中监控管理。解决方案邮储银行经过多次比选和慎重考虑,我公司的TeaView 一体化综合平台凭借其良好的监控扩展性、个性化监控需求的满足能力、海量设备监控能力、集群部署与负载均衡等特性,最终获得用户的青睐。科学的实施流程IT 系统的监控需要伴随着应用系统的生命周期持续不断地进行调整,总体上包括:监控需求分析、监控策略制定、监控部署及运行、监控调整等不同阶段,整体上是一个不断往复循环的过程。
监控部署与实施监控阶段监控需求分析阶段
实施前期准备确定总体监控需求
监控系统安装系统现状
网络环境设置总体监控目标
主机监控用户建立总体监控范围
数据库监控用户建立背景资料收集
监控部署收集系统开发商提供的资料系统配置库/网络拓扑图建立总结以往系统监控经验
监控视图建立监控需求详细分析
监控策略设置了解系统实际部署结构
人员权限设置基础设施监控需求
报警通知方式设置应用监控需求
监控日常运行统计分析需求
日常问题处理监控人员职责划分
定期统计分析
监控策略持续调整
监控系统自身定期维护监控策略设计阶段
监控需求变化,开始新的实施周期基础设施监控策略设计
网络监控策略
主机/操作系统监控策略
数据库监控策略
中间件/应用服务器监控策略
应用监控策略设计
监控项确定
监控采集方式设计
监控权限划分
监控视图设计报警通知方式设计(短信、电子邮件)
在邮储银行的信息系统监控实施过程中,也是按照上述过程持续实施的。
需求分析阶段
邮储银行的监控需求总体上划分为如下几部分:
基础设施的监控:包括主机、数据库、中间件、存储设备、网络设备监控。
应用系统监控:针对邮储所包括的全部应用系统的监控,如:储蓄、信用卡、信贷、ATM、汇兑、保险、基金、网银、对公等40多个业务系统。
整合各业务系统原有监控工具:原有专用监控工具对用户而言使用已经很习惯,用户并不希望马上撤换,而更希望通过整合,在充分利用原有监控工具采集的基础上,实现集中的报警展示,并考虑在后继阶段逐步替换原有监控工具。硬件监控:集成专业厂商的采集手段,接收报警信息,实现监控集中展现。
原有经验沉淀需求:在需求调研过程中,用户对原有监控中使用的各种shell 脚本、SQL命令、自行编写工具小程序等,存在大量呼声要求予以保留,这些经验体现了对应用系统故障部位、故障特征、故障识别手段的经验积累。
22
23监控策略设计阶段基础设施监控策略设计:结合各设备的适用场景、作用、运行特点,有针对性地进行监控策略制定,包括监控对象、监控指标的选择,结合具体环境确定监控参数的获取方式,各监控指标的合理数值范围等;针对应用监控策略设计:结合应用特点,综合设计、抽象出应用的监控指标、采集方式、报警条件等;针对原有监控工具整合:充分利用TeaView 监控平台的扩展性,采用多种策略整合,如:将原有工具的报警事件表数据源抽象为监控对象,进行同步报警等。原有经验沉淀:同样利用TeaView 监控平台的扩展性,将原有的脚本、命令等作为监控对象采集获取方式,通过配置方式快速加入监控系统中。随着监控系统的部署,这些经验性的脚本、命令等将在监控系统驱动下,按照预定的轮询策略,实现对目标设备的监控。监控部署与运行利用TeaView 监控平台,通过自动探查方式建立IT 系统资源配置库,建立各应用系统及下层的应用服务器、数据库、主机、存储、网络、机房外围环境等各层级的IT 资源关联关系,为日常监控运行提供故障定位服务,并为日后的IT 设置配置变更提供配置冲突分析服务。针对各基础设施,直接设置其监控策略。针对应用监控,按照设计阶段的设计结果,通过配置方式添加应用监控对象、监控指标、配置采集方式等。启动监控系统的日常运行,并处理各种问题。监控需求调整及监控策略调整过程针对发现的新问题,及时部署新的监控项,调整监控策略。实施效果大规模提高系统监控覆盖度、杜绝监控漏区TeaView 系统上线后,实现40多个业务系统及下层支撑的5000多台服务器、上千个数据库、应用服务器软件等全部纳入监控范围,杜绝原有存在监控漏区问题。统一集中监控策略管理,漏检概率降低2.5倍TeaView 平台除了直接对相关系统实施监控之外,还集成了原有监控工具、原有采集经验,在此基础上,平台采用了统一集中的监控策略管理,大幅提高了监控采集频度、降低故障漏检概率。相比原有分散监控采集模式,系统漏监概率降低2.5倍。有效整合原有各专有监控系统,实现集中报警,降低了人员劳动负荷充分利用原有监控系统进行监控采集,通过TeaView 监控平台实现集中报警展示,避免了人员频繁地在不同系统之间切换,大大降低了人员劳动负荷,提高了工作效率。同时,这种整合方式在现阶段,对信息系统结构影响最低。大规模实施应用监控,使得监控更加有效、直接虽然原有各专有监控系统已经实施了部分应用监控,但各个监控工具是由开发商随着应用系统上线而提供的,工具本身功能有限,随着应用系统的运行,更多的新的需求无法满足。采用TeaView 监控平台之后,可以大规模对应用系统实施更为广泛的应用监控,使得监控更加有效,更加直接。
用户评语
“TeaView监控平台的扩展性非常实用,帮助我们顺利整合了原有各专有监控工具。而且,在应用监控方面也非常突出,很多原来我们在应用监控上的想法都能实现……”
——某行信息中心负责人
24
25中国邮政集团公司“邮政综合网”综合监控
中国邮政集团公司是国内规模最大的物流企业集团,拥有庞大的物流网络和遍布全国城乡各地的营业网点。中国邮政综合计算机网,是中国邮政实现信息化的基础,是邮政生产的中枢神经。综合网的稳定运行是邮政提供普遍服务的根本保证。现状30多个省际网、200多个省内网,15000多个电子化支局所,覆盖全国所有地区; 全网统一版本的应用系统多达30多个;主机、网络设备等上万台;多级管理结构,包括全国中心、省中心、地市中心,运维人员上千人。需求对基础设施实行全面监控,包括:主机、数据库、中间件、存储设备、网络设备、机房设备等监控,涵盖基础信息采集、性能指标采集、异常信息采集等。应用系统监控,如:电子化支局系统、邮区中心局生产作业系统、速递综合信息处理平台、邮政物流综合信息平台……部署结构需求:支持全国中心、省中心、地市中心多级结构,实现分级采集监控,数据统一集中的部署要求。与其他系统集成要求:与消息通知渠道集成、与运维流程系统集成、与第三方网管系统集成等。监控系统性能要求:能够满足上万台设备的监控和千人规模的使用。
实施效果
上万台软硬件基础设施,全部纳入综合监控,大幅提高监测覆盖度;
变手工监测为监测自动化,提高人员效率,降低漏检率;
实施应用监控,更加便于直接进行业务管理;
大量运维经验得到固化沉淀,方便知识共享与传承;
分布式、分级部署结构,满足集团多级管理需要;
汇集中心部署模式,便于远程诊断与故障解决,充分调度各地技术人力资源。
用户评语
配置方式实现监控扩展
“综合网内设备非常多、监控需求复杂多变,未来我们还会有很多新的业务系统上线,监控需求具有很多不确定性。因此,我们对监控平台的扩展性要求很高。TeaView 监控平台通过配置方式实现监控扩展的特点很突出,对我们来说,确实非常实用。”
——某集团运维部负责人
经验沉淀平台
“这些年,我们积累了很多系统诊断的脚本命令、SQL 语句,非常实用,最担心上了监控系统之后,这些经验被丢弃。TeaView 监控平台能直接把这些经验固化下来,并可自动定期执行,保证了经验沉淀,效果非常好。这个平台很实用、解渴。”
——某省分公司运维部负责人
辅助业务管理
“每年年底都是报刊发行的营销旺季,我们非常需要实时掌握各部门的营销动态,现在的报刊订销系统里的数据虽然也能反映一些,但都不是直接的数据,每天还需要科里专门人员重新做报表统计,很麻烦。我们也不太可能要求开发商经常去修改报刊订销系统。使用监控系统后,通过监控平台我们就可以直接掌握我们想要的数据。确实方便很多。”
——某报刊发行局业务科负责人
集中监控展现
“原来我们每天要监控二十多个系统,来回切换,很麻烦,系统出了问题,大家都很紧张。现在,统一使用TeaView 监控平台,确实方便很多。而且,操作起来很简单,大家的工作负荷降低了很多。”
——某省信息中心运维人员
辅助业务管理
“……下一步,我们准备以TeaView 监控平台为核心,建立集中的业务动态监控管理系统……”
——某集团公司信息中心负责人
26