产品概述
Data

Data是数据中心数字化层的运营与运维管理平台,帮助拥有HPC、数据中心的客户构建全面智能化、自动化的数据中心运维、运营能力.

Data通过数据中心数值化技术,将系统内的运营运维数据持久化到数据库中,并基于此构建了数据中心系统的运营管理、运维管理和业务管理的能力,全面实现数据中心自动化管理机制。

Data提供了平台级的解决方案,让客户可以将自己的运维、运营经验不断的积累到这个平台中,让平台进行自我进化,成为更高水准的运维和运营能力中心。

技术优势与扩展性
Data
01
基于业务的资产管理视角

Data的一切特性都来源于“基于业务”的理念,企业领导的投资是为了业务价值,运营运维团队的服务是为了业务的稳定,提供更好的运营运维质量。

基于此理念设计出来的产品在交互的“自然性”、“价值体现”、“效率”等方面会让企业在激励的竞争中充满优势。

02
总体架构优势
合理的基础架构是一个系统的根基,云计算的核心是数据中心的数值化,即命题是:“如何把数据中心的资源实体、业务实体 转变成可度量、规整的数据稳固的存储起来以便分析优化”;所以一个云计算的根基内容就是如何规整获取、存储这些数据。

数据处理层应用了科技自主研发的云数据处理引擎:它采用了插件式的采集组件、流式的数据处理模块、和满足不同场景要求的实时关系型数据库、时序型数据库、大规模并发访问的分布式数据库,以及数据的冷热区分处理策略,保证了数据中心海量数据高效而正确的存储。

由于架构分层的合理性,Data具有很好的分布式扩容部署、业务逻辑的扩展能力,这不仅是在解决当下企业的问题,也是为未来可能的变化做好了准备,充分保护客户的投资。

03
平台扩展性

既然是平台就要具备一定的扩展能力,Data因其合理的架构设计、强大的数据处理引擎以及基于业务为核心的设计理念,在业务层面会产生非常好的扩展性

3.1 分析器与分析库的扩展性

分析器和分析库特性在Data的产品理念中占据了相当大的比重,Data产品的主要作用就是让企业的运维运营能力产生积累,从长远上让企业构建组织能力的竞争力。

Data开放性的故障分析器机制,让客户的运维管理人员经过简单的平台API学习即可开发出满足企业自身业务需求的分析器,而Data在底层为其提供丰富的数据支撑。

故障分析库形成了分析器集合的概念,通过Data版本的更新迭代、分析库的更新迭代,客户可以以非常低的成本刷新本地的故障分析库,依靠的运维经验积累和企业自身的经验积累让运营运维质量提升到新的高度。

3.2 监控统计分析插件式扩展性
监控、统计、分析是运营运维的主要活动,Data依靠插件式的运维数据采集、存储、聚合框架,使得增加一个新的监控项非常容易,这为企业业务的扩展行提供了保障。
3.3 无损的存储扩展
在不影响运维系统平台的功能,不中断运维系统平台的服务情况下,进行存储的横向扩展,保留更多企业数据,让企业自己开发的数据源应用使用更多的历史数据。
解决方案
Data
01
企业数据中心运维运营监控分析平台

适用于拥有自己数据中心的企业,企业可以将数据中心的运维运营监控、分析、管理部署在Data平台上,建立企业的运营运维管理体系;并利用Data平台的数据源能力扩展自己的业务应用;

用户也可以使用云的整体解决方案:应用服务门户(Portal)基础云平台(OS)应用接入平台(PaaS)可视化解决方案(View)

02
硬件厂商集群监控管理OEM解决方案
在硬件厂商进行硬件解决方案销售的时候,亦需要充分考虑硬件平台的可用性,任何一个新建的数据中心运营和运维都属于基础设施,Data完全可以帮助硬件厂商构建完整解决方案,提升解决方案的竞争优势。
03
私有云系列产品扩展方案
Data属于云系列产品,可以与企业已拥有的Portal、OS、PaaS产品无缝整合,形成更丰富的平台级业务监控统计分析数据,强化企业内运营、运维的管理体系。
04
企业业务监控、展示分析平台
Data的合理架构,可以让其承接企业内的业务级管理,业务系统仅需要与Data进行数据级接口的适配,便可以将业务数据可视化、统计分析、故障分析能力集成、整合到Data平台上,形成业务级综合管理平台的概念。
功能详情
Data

Data产品的核心目的是帮助企业提升数据中心的运营运维服务质量,降低故障时间,提升服务供给满意度。

Data 是基于业务的视角专门为HPC系统、企业数据中心系统打造的运营、运维管理平台,意指在云技术的基础上提供系统硬件、软件、OS、业务层级的运维监控与分析、运营监控分析以及业务监控与分析;并在数字化的基础上提供运维、运营问题、趋势的分析、故障的追根溯源分析,故障告警推送,解决方案关联等能力;而基于分布式数据库。

Data又可以作为数据中心等运维、运营、业务分析等数据的数据源平台,为快速完成企业定制特性等二次开发提供数据层服务。

01
基于业务的多集群拓扑管理
传统的资产管理产品(CMDB)或网管产品大多是以数据中心资产的视角进行管理的,这存在着一些问题:
系统管理员很容易陷入到信息的海洋中,找不出重点和需要被关注的信息;
这些系统往往不会对管理员的目标“保持系统的稳定性和持续运行”产生有效的效率提升作用;
条目式的表格管理不仅体验非常差,还非常容易出现错数据、脏数据,久而久之这类传统工具就变的没有任何参考价值了;
Data基于业务设计全新的资产拓扑管理交互模式,它提供了强大的管理能力
以业务为核心组织资产拓扑;
节点自发现机制,降低录入错误和脏数据的概率:
拖拽式的依赖关系管理,提供全新的交互体验;
整个系统以业务为核心的产品设计可以让管理员从业务视角观察监控信息、从业务视角识别故障根源、从业务视角进行故障的影响性分;
基于业务进行场景的定义管理,即可宏观监控分析、又可以对组成结构进行细节管理;
自动化的业务维度监控统计分析关联,让系统管理员体验到“上帝模式”,这完全是自动的!
Data产品的核心模块即是资产拓扑管理模块,它使用了非常“自然”的交互方式让系统管理员对数据中心的系统资产进行有效的管理,支持物理机、虚拟机、数据库、SNMP网络设备、共享存储、存储、业务进程、网络服务 等多种类型的资产纳管;在Data资产拓扑中,你可以在无限画布上进行拖拽、成组、依赖关联、故障查看、监控分析等行为。
02
强大的可扩展的数据监控分析引擎

Data的系统监控涵盖了数据中心系统方方面面的性能、容量、环境、故障等运维指标;以及业务的使用率、频次等运营指标;甚至可以和客户业务程序进行深度的集成完成业务数据本身的监控和统计分析;

Data使用大数据流式处理技术,根据业务的需要将实时监控指标聚合、关联成系统所需的分析指标。为系统使用者提供各种指标维度、时间维度、业务维度的监控与统计分析数据,并以合理的方式图形化的展现给用户;

Data拥有强大的、可扩展的数据监控分析引擎和渲染引擎,可以根据客户的需要进行无限扩展,增加一个监控项、扩展一个聚合统计在Data平台上会容易很多:插件式的开发模式,仅需要简单的按照Data插件规范即可完成新监控项的扩展,远远高于专门定制方式的开发模式。

Data的扩展性为跟随企业的发展提供了无限可能,为用户提供了一种长期收益的选择。

03
自动化故障根因分析与故障影响分析

运维管理的大部分时间和精力是用在运维故障分析上的,为此Data着重打造了一套优秀的自动化故障分析框架,它不但易于扩展,还提供了非常关键的 根因分析能力和故障点影响分析能力,很自然的延展了运维管理人员的能力。

常规人脑的故障分析过程是

而依靠于人的故障分析方式有这样几个弊端:

1. 依赖于人的经验
2. 经验的复制性低
3. 对于重复问题需要重复工作

Data很好的解决了这个问题,通过故障分析器的概念将人脑故障分析的过程进行程序化,并依靠Data收集到的丰富全面的运维运营数据进行关联分析,遍历出问题根本的原因和可能性,将问题根因和解决方案结果以合适的方式展现给系统管理员;让管理员快速的解决问题。

不仅如此,依靠Data以业务为核心的资产拓扑管理能力,系统可以依据故障点的反向依赖关系迅速识别出该故障的影响范围,让系统管理员面对多点故障时可以清晰问题处理的优先级,即使很棘手的问题也能够坦然的处理。

04
监控与分析自动关联业务

数据中心是一个非常复杂的系统,系统内的各个资源之间存在着错综复杂的关系,Data通过数据关联分析技术,和强大的资产拓扑管理能力将监控数据和业务自动的关联起来,在如此复杂的系统中系统管理员仅仅需要简化的操作就可以获得业务层级点全景监控信息,这种体验对于系统管理员来说简直就是“上帝模式”一样;

这个功能的设计完全体现了Data产品以业务为核心的属性:“系统管理员其实并不关注那台机器坏掉了,只有真正的业务故障才是系统管理员真正关心的”。

05
灵活可定制的故障分析库与故障分析引擎

开放式的故障分析引擎是Data产品的亮点;

企业需求是随着业务的变化、工具和系统的升级不断发生变化的,就像杀毒软件所面对的庞杂的电脑软硬件系统一样,如果一款运维管理工具不能支持硬件系统、操作系统、环境变化的适应性扩展,那么它的存在价值将会受到质疑。

Data的故障分析引擎基于运维管理常用的脚本技术,支持无限制的扩展(甚至包括用户自定义故障分析器),在企业硬件、软件、操作系统等环境拓扑发生变化时,我们可以跟随企业等变化完成故障分析器在新环境下的调整和适配;为了保护用户的投资,Data提供了非常强大的适应性来满足这方面的要求;

故障分析库非常类似于:杀毒软件的病毒库、智能输入法的词汇库;使得客户可以利用Data的故障分析管理能力将企业的运营运维分析逻辑固化到代码之上,伴随着运维经验的积累和运维社区的贡献,企业可以不断进行运维和运营能力的提升。

开放式的故障分析引擎之所以能够成为Data平台众多特性的亮点之一,是因为它给企业一种随着时间变化而逐步积累的能力,它使得运维能力这种抽象的词汇变的具体、可量化、可衡量;形成了组织能力资产,这种能力资产将会在企业的运维运营质量、运维运营成本上形成竞争优势。

06
自动化巡检与自动化运维报告

Data本身就是一个企业运营运维数据库,所有数据都可以依据不同的时间周期和显示形式进行定制筛选,因此Data非常容易为客户提供强大而全面的自动化运维报告和自动化巡检报告,系统管理员仅需要设置好模版和时间即可。

自动化报告的模板可以根据客户点目的不同而进行各种排版、内容方面的自调整,你可以要求系统出具集群整体的运维运营报告,也可以出具某一个业务的运营运维报告;你可以出年报,也可以出季报;灵活性足以满足客户的所有需求。

自动化地发布让系统管理员完全摆脱了重复性的劳动,把精力用到真正的运营运维问题分析和解决上

07
运维知识库管理,让经验传承下去

运维经验是企业构建数据中心组织能力的核心,很多企业面临的问题是经验无法固化积累、运维工作效率底下;经验的传承在这些问题上至关重要;

Data在运维平台上提供了很好的经验传承载体-运维知识库,企业的运维经验随着时间的推移不断的积累,在平台上可以像使用百度搜索引擎一样搜索问题的解决方案;

在Data的故障分析模块中,也很容易智能的关联到系统运维知识库中,让管理员在第一时间找到问题的解决方案,并在不断的运维过程中积累新的方法,提升运维效率和运维质量。

08
运维流程可视化管理,提升运维效率

运维过程的流程化是运维运营过程的管理手段,Data提供了平台层的支撑,每一个运维问题都可以在线的完成问题的分发->处理->关闭->经验总结;系统的拥有者从中可以看到问题的发生率、中断时间、各运维人员的问题处理效率、工作绩效等统计分析数据,帮助团队不断的进行效率提升。

09
企业数据中心数据源模型

Data拥有大数据处理和存储的能力,经过聚合、格式化的数据对于企业来说也是一项企业资产,这些资产根据企业自身的需求、以及和企业内其他平台的结合可以组合出新的业务,例如:分析运营趋势、关联财务成本分析、业务部门内部的xx指标系统、识别挖矿程序等功能。

Data基于数据即服务的模型,为企业提供运营、运维、业务格式化数据的采集、存储、查询服务,帮助企业快速构建新业务,为企业提供更加强大等企业级数据业务扩展性。